合成数据生物样本库推动药物研发加速

新药的研发平均需要10至15年的时间，耗资约26亿美元（约3,900亿日元），且约90%的临床试验以失败告终。这一持续半个世纪的"伊鲁姆定律"（Eroom's Law）——创新药物生产力与摩尔定律相反，每约9年减半——如今正面临被根本颠覆的局面。2024年诺贝尔化学奖授予了Demis Hassabis、John Jumper（AlphaFold）及David Baker（计算蛋白质设计），这标志着AI药物发现已完全走出"是否可能"的阶段，进入"何时大规模实现"的阶段。Insilico Medicine的INS018_055（雷替色替布）作为史上首个完全由AI发现、AI设计的药物进入II期临床试验，已有逾100个AI发现分子进入临床试验阶段。UK Biobank（50万人）、All of Us（逾80万人）、BioBank Japan（27万人）等大型生物样本库提供了基因型-表现型的"地面真相"，而合成数据技术在保护隐私的同时消解了数据稀缺性。Isomorphic Labs（Alphabet旗下）已与礼来（Eli Lilly）签订最高17亿美元（约2,550亿日元）的合作协议，与诺华（Novartis）签订最高12亿美元（约1,800亿日元）的合作协议；Xaira Therapeutics则于2024年以逾10亿美元（约逾1,500亿日元）的创始资金正式成立。AI药物发现市场预计将从2024年的约25亿美元（约3,750亿日元）扩大至2030年的100至120亿美元（约1兆5,000亿至1兆8,000亿日元），复合年均增长率为24%至28%。BCG估算，AI药物发现有望在整个制药价值链中每年创造500至1,000亿美元（约7兆5,000亿至15兆日元）的价值。本文将全面审视药物发现加速的整体图景、合成数据与生物样本库的作用、主要企业的技术与产品、关键底层技术、市场数据以及未来展望。

药物研发的结构性挑战——为何新药研发如此高成本且耗时漫长

新药开发的低效性是制药产业最根深蒂固的挑战。

据塔夫茨大学药物开发研究中心（CSDD）估算，将一款获批药物推向市场的平均成本为26亿美元（约3,900亿日元），平均所需时间为10至15年。BIO/QLS Advisors/Informa的2021年分析显示，进入I期临床的药物最终获得FDA批准的概率仅为12%，临床试验的整体失败率高达约90%。在肿瘤领域，从I期到获批的概率更是低至5%。

这种低效性的根源可用"厄姆定律（Eroom's Law）"——摩尔定律的逆读——来表述。经通胀调整后，自1950年以来，药物研发生产力大约每9年下降一半。监管趋严、"低垂果实"的枯竭（容易攻克的靶点已有对应药物），以及最为关键的——高质量多样化生物学数据的匮乏，是造成这一局面的主要原因。

全球制药研发支出在2024年超过2,650亿美元（约39.75万亿日元）（IQVIA估算）。然而其中大部分都消耗在失败试验的成本上。致力于从根本上改变这一范式的，正是生物样本库、合成数据与AI/机器学习的三位一体。

生物样本库——连接基因型与表现型的"地面真相"

生物样本库是从大规模人群中长期收集和保存基因组数据、血液及尿液等生物样本与健康记录的研究基础设施。在新药研发领域，它为在人群层面验证基因与疾病因果关系提供了"现实真相"。

UK Biobank是全球最知名的生物样本库。2006年至2010年间招募了50万人，所有参与者的全基因组测序（WGS）于2023年完成。与Olink公司合作，对全部50万参与者测量了约3,000种蛋白质的蛋白质组学数据也已公开。该项目培育了3万余名注册研究人员、逾1万个已批准项目，并催生了8,000篇以上经同行评审的论文。累计预算约2.6亿英镑（约500亿日元）。开放获取模式使全球研究人员均可访问其数据。

All of Us（美国国立卫生研究院，NIH）旨在招募能够反映美国多样性的100万名以上参与者。截至2025年，已有80万人以上完成注册，50万人以上提供了生物样本。历史上被排除在研究之外的种族及少数民族群体占参与者的50%以上，这一点具有里程碑意义。第一阶段预算为14亿美元（约2,100亿日元）。

BioBank Japan（BBJ）拥有约27万名参与者和47种目标疾病，由理化学研究所与东京大学联合运营。它是非欧洲裔人群中规模最大的生物样本库之一，对于理解东亚人群的遗传结构不可或缺，并已为200余个疾病相关基因座的鉴定做出贡献。

FinnGen（芬兰）拥有50万名以上的参与者，充分利用芬兰的始祖效应，在罕见变异发现方面具有特殊价值。该项目是由13家生物样本库与11家制药企业（AbbVie、AstraZeneca、Pfizer等）组成的公私合营伙伴关系。

deCODE Genetics（冰岛）持有19万名以上冰岛人（超过全国人口半数）的基因型数据，并将其与逾千年的谱系数据相结合。2012年，Amgen以4.15亿美元（约622.5亿日元）完成收购，该公司为多个新药靶点的鉴定做出了重要贡献。

生物样本库数据为新药研发带来的最大价值在于：具有遗传学依据的药物靶点，其临床试验成功率是其他靶点的2倍（Nelson et al., Nature Genetics, 2015）。King et al.（2019）的更新研究进一步表明，具有遗传学支持的药物从I期临床试验获批上市的概率高出2.6倍。

合成数据——突破隐私与稀缺性的壁垒

合成数据是一种在模拟真实患者数据统计特性的同时，生成无法识别个人身份的人工数据的技术。该技术在设计阶段即可满足HIPAA（美国）和GDPR（欧盟）的隐私法规要求。

合成数据在药物研发中具有三大价值。第一，解决数据稀缺问题。全球已知罕见病超过7,000种，但许多疾病的患者规模仅有数百人，传统临床试验设计根本无法实施。合成数据能够从这些少量真实数据中，生成统计上合理的数千人规模队列。第二，在保护隐私的前提下实现数据共享。多家医疗机构无需共享真实数据，即可以合成数据的形式开展联合研究。第三，临床试验模拟（in silico试验）。Unlearn.AI拥有FDA批准的合成对照组（数字孪生）生成方案，可将对照组规模缩减20〜30%，每项试验可节省成本1,000万〜5,000万美元（约15亿〜75亿日元）。

主要企业包括：Syntegra（旧金山，合成EHR数据，A轮融资约1,700万美元）、MDClone（以色列/美国，"ADAMS"平台，Mayo Clinic等机构已采用，累计融资约6,300万美元）、Gretel.ai（圣地亚哥，差分隐私保障，B轮融资约6,800万美元）、Mostly AI（维也纳，专注GDPR合规，融资约3,100万美元）、Datavant（旧金山，连接超过7万家医院的数据网络，融资超1亿1,000万美元）。

合成数据医疗健康市场预计2025年规模约为12〜15亿美元（约1,800亿〜2,250亿日元），2030年将扩大至40〜55亿美元（约6,000亿〜8,250亿日元）（CAGR 25〜28%）。Gartner预测，到2030年，合成数据在AI模型训练中的使用量将超过真实数据。

AI药物研发的主要企业——技术开创的新时代

在AI药物研发领域，数十亿美元规模的企业林立，正在变革制药价值链的每一个环节。

Recursion Pharmaceuticals（盐湖城，纳斯达克：RXRX）累计融资超15亿美元，并于2024年8月宣布与Exscientia合并（约6.88亿美元），成为全球最大的AI药物研发企业之一。公司拥有"全球最大的专有生物学与化学数据集"——数万亿数据点，并与NVIDIA建立了多年合作伙伴关系（NVIDIA出资5,000万美元）。目前已有8个以上项目进入临床阶段。

Insilico Medicine（香港）是AI药物研发领域的标志性企业。INS018_055（rentosertib）是靶点由AI（PandaOmics）发现、分子由AI（Chemistry42）设计的史上首款完全由AI发现并设计的药物，已进入II期临床试验。该药物针对特发性肺纤维化（IPF），在IIa期临床中已报告可接受的安全性和初步有效性信号。公司与赛诺菲签订了价值最高达12亿美元（约合人民币87亿元）的合同。

Isomorphic Labs（伦敦，Alphabet/DeepMind旗下）由CEO Demis Hassabis领导，将AlphaFold技术应用于药物研发。2024年1月，公司与礼来签订最高17亿美元（约合人民币123亿元）的合同，与诺华签订最高12亿美元（约合人民币87亿元）的合同。AlphaFold 3（2024年5月发布）能够预测蛋白质-配体、蛋白质-DNA、蛋白质-RNA复合物的结构，具备与药物研发直接相关的能力。

Xaira Therapeutics（旧金山/西雅图）于2024年以超10亿美元的创始资金成立。投资方包括ARCH Venture Partners、Foresite Capital、Sequoia Capital、Lightspeed Venture Partners。公司从David Baker实验室（华盛顿大学蛋白质设计研究所）获得IP授权，致力于构建生物学基础模型。这是生物科技初创企业历史上规模最大的创始轮融资之一。

Generate Biomedicines（萨默维尔，马萨诸塞州）由Moderna的创始孵化机构Flagship Pioneering于2020年创立。公司已融资超5.73亿美元，利用生成式AI从零开始设计蛋白质药物。发表于《自然》杂志的扩散模型"Chroma"能够生成具有指定特性的蛋白质。

Absci（温哥华，华盛顿州，纳斯达克：ABSI）专注于利用生成式AI进行抗体设计。2023年在《自然·生物技术》上发表了首项零样本从头设计能与靶点结合的抗体的实证研究。公司与阿斯利康签订了最高6.1亿美元（约合人民币44亿元）的合同。

在日本，武田制药与Recursion、Schrödinger、Exscientia（合并前）建立合作伙伴关系，在数据/数字化转型方面投资超5亿美元。第一三共与Preferred Networks（PFN）合作，利用AI优化ADC（抗体药物偶联物）。住友制药与Exscientia合作开发DSP-1181（强迫症治疗药物）——这是最早进入I期临床试验的AI设计分子案例之一。

基础技术——从AlphaFold到生物学基础模型

AI药物研发所依赖的核心技术正在飞速进化。

AlphaFold 2（2020年）解决了困扰科学界50年的蛋白质结构预测难题，并与EMBL-EBI合作预测并公开了超过2亿个蛋白质的结构。AlphaFold 3（2024年5月）采用扩散架构，能够预测蛋白质-配体、蛋白质-DNA/RNA复合体的结构。蛋白质-配体相互作用的预测精度比传统方法提升了50%以上。Hassabis、Jumper和Baker荣获2024年诺贝尔化学奖，象征着这一领域所达到的新高度。

基于扩散模型的分子生成是AI药物研发的最前沿。RFdiffusion（David Baker实验室，Nature 2023年）可生成具有指定特性的全新蛋白质结构。DiffDock（MIT，2023年）将扩散模型应用于分子对接，表现超越了传统对接软件。Chroma（Generate Biomedicines）是一款蛋白质结构生成模型。

面向生物学的大规模语言模型正在崛起。ESM-2/ESMFold（Meta AI）基于超过2.5亿条蛋白质序列进行训练，可直接从序列预测结构。ProGen/ProGen2（Salesforce Research）能够生成具有功能的蛋白质序列，并已实证所生成的蛋白质可作为活性酶发挥功能。Evo（Arc Institute，Patrick Collison联合创立，2024年）是一款以270万个基因组训练的基因组基础模型，能够生成基因及基因组尺度的DNA序列。

数字孪生在临床试验中的应用也在稳步推进。Unlearn.AI从既往试验数据中生成患者的数字孪生，并利用FDA批准的协变量调整方法构建合成对照组，可将所需对照组规模缩减20～30%，从而节省时间与成本。

硅谷风投视角——"生物学已成为信息科学"

硅谷的风险投资机构将AI药物研发定位为"一代人难遇一次的投资机遇"。

a16z Bio（Andreessen Horowitz）由Vijay Pande（Folding@home发明者、前斯坦福大学教授）领衔，于2019至2023年间组建了规模超过15亿美元的Bio基金。在"软件吞噬生物"的核心论点下，投资了Insitro、Freenome等公司。Pande就"工程生物学"这一主题广泛发声。

Flagship Pioneering（马萨诸塞州剑桥）是孕育了Moderna（市值峰值超1500亿美元）的创投工厂，由CEO Noubar Afeyan领导，累计管理资本超100亿美元。Generate Biomedicines是其旗舰性的AI-生物学投资。

ARCH Venture Partners由Robert Nelsen与Kristina Burow领导，曾投资Illumina（早期投资方），并主导了Xaira Therapeutics超10亿美元的融资轮。该机构明确表示："生物学已成为信息科学。AI与生物的融合是这一代人所能遇到的最大投资机遇。"

风险投资对AI药物研发的总投入，从2020年的46亿美元增长至2024年的67亿美元（数据来源：PitchBook、BioCentury），预计2025年将达到70至80亿美元。

NVIDIA CEO Jensen Huang在GTC 2024主题演讲中宣称："下一个计算平台就是生物学。所有制药企业都将成为科技企业。"NVIDIA的BioNeMo平台与GPU（H100/B200）正作为AI药物研发的"镐与铲"发挥关键作用。

知名人士的观点——从诺贝尔奖得主到风投创业者

Demis Hassabis（Google DeepMind/Isomorphic Labs首席执行官，2024年诺贝尔化学奖得主）表示："AlphaFold是我迄今为止所做过的最重要的工作，也是AI最具影响力的应用。"他预测："5年内，AI将大幅加速药物研发的早期阶段；10年内，整个流程将发生根本性变革。"

David Baker（华盛顿大学，2024年诺贝尔化学奖得主）在诺贝尔奖演讲中表示："我们已进入一个能够从零开始设计自然进化从未探索过的分子的时代。计算设计与AI的结合正在变革医学领域的可能性。"

Daphne Koller（Insitro首席执行官，斯坦福大学教授）表示："药物研发成本高昂的原因在于，由于缺乏足够好的预测模型，我们不得不在人体上进行试验。如果能用机器学习构建更好的预测模型，我们就能更快、更便宜、更早地发现失败。"

Eric Topol（斯克里普斯研究转化研究所所长）表示："我们正处于一个转折点。生物样本库丰富的基因组数据与AI的融合，将变革药物研发的方式。"他预测："到2030年，药物研发管线中没有AI，就如同办公室里没有电子邮件一样——这将不再是一种选择。"

用数字看AI药物研发——迅速扩张的市场与临床成果

AI制药的数字，印证了这一领域的急速扩张。

AI制药市场预计将从2024年的约25亿美元（约3750亿日元）增长至2030年的100～120亿美元（约1兆5000亿～1兆8000亿日元）（CAGR 24～28%，Precedence Research）。更广义的AI in 制药市场到2032年估计将超过200亿美元（Grand View Research）。

AI发现分子的临床进展正在加速。截至2025年初，处于临床试验中的AI发现分子数量为：I期：50件以上、II期：15～20件、III期：2～3件。首个FDA批准预计将在2026～2028年实现。全基因组测序成本已降至约200美元（相较于人类基因组计划时的30亿美元）。生物样本库市场将从2024年的约35～40亿美元（约5250亿～6000亿日元）扩大至2030年的60～70亿美元（约9000亿～1兆500亿日元）。

日本动态——生物样本库与制药AI的交汇点

日本在生物样本库基础设施和AI药物研发两个领域都是重要的参与者。

BioBank Japan拥有约27万名参与者和47种目标疾病，是理解东亚人群遗传结构不可或缺的资源。同时也为与UK Biobank及All of Us的跨族裔全基因组关联分析（GWAS）做出了贡献。

东北医学巨型生物样本库（ToMMo）作为2011年东日本大地震的灾后重建项目而成立，拥有约15万名参与者。日本人参考基因组面板（3.5KJPNv2/8.3KJPN）对日本人群特有的基因组学研究不可或缺。

日本政府在《基因组医疗实施战略》（2019年制定，2023年更新）中将10万例以上的癌症基因组测序设为目标，AMED（日本医疗研究开发机构）以每年约4000亿日元的预算支持药物研发研究。

Preferred Networks（PFN）与第一三共及AMED在AI药物研发领域建立了合作，在分子模拟的深度学习方面具有突出优势。其估值超过35亿美元，是日本规模最大的AI初创企业之一。

挑战——乐观主义背后的障碍

AI药物研发的前景光明，但仍存在重要挑战。

数据偏差是最大的隐忧。GWAS参与者中约78%为欧洲裔（截至2023年，正在改善中），UK Biobank的参与者也比英国平均水平更健康、更富裕、白人比例更高。合成数据可能会传播并放大训练数据中存在的偏差。

监管不确定性同样存在。截至2026年初，尚无AI发现药物获得FDA/EMA完全批准。FDA已发布相关框架，但针对AI发现药物的专项监管路径尚未建立。

合成数据的验证也是一大挑战。如何证明合成数据准确反映了真实的生物学规律？合成数据中存在混入"幻觉性"模式——即统计伪影——的风险。

与传统制药的整合同样并非易事。AI的预测需要通过湿实验室进行验证（即"最后一公里问题"），"我们一向如此"的文化阻力也根深蒂固。

未来展望——药物研发的未来将会改变

关于AI药物研发的未来，业界领袖展现出罕见的高度一致的乐观态度。

2026〜2028年：AI发现药物的首个FDA批准有望实现（最热门候选为INS018_055或Recursion/Exscientia项目）。AI药物研发将成为大型制药企业的标准实践（麦肯锡）。

2028〜2030年：生物学基础模型将迎来"GPT-3时刻"——通用生物学AI可针对任意药物研发任务进行微调。生物样本库的真实世界数据、合成数据与AI模型的整合将成为制药研发的标准操作规程。

2032〜2035年：众多适应症的药物研发周期将压缩至3〜5年，成本削减50〜70%。罕见病药物将在经济上成为可行（目前，7,000余种罕见病中约95%尚无获批药物）。

Insilico Medicine首席执行官Alex Zhavoronkov表示："AI能够发现和设计药物，这已得到证明。问题不再是'是否可能'，而是'能以多快的速度扩展'。"答案揭晓之日，已不再遥远。

对行业的影响

第一，生物样本库与合成数据的结合，正在从结构上消除药物研发中的"数据壁垒"。UK Biobank（50万人，全WGS完成）、All of Us（逾80万人，多样性超50%）、BioBank Japan（27万人）的真实世界数据提供了"地面真实"，而合成数据则突破了隐私与稀缺性的限制。具有遗传学依据的药物靶点临床成功率高出2至2.6倍这一发现，印证了这种组合的经济合理性。

第二，AI药物研发已不再停留于"概念验证"阶段，而是正式进入"临床验证"阶段。超过100个AI发现的分子正在进行临床试验，首批FDA批准预计将于2026至2028年实现。Isomorphic Labs与大型制药公司签订的总计29亿美元合同，以及Xaira Therapeutics超10亿美元的创始融资轮，彰显了业界对这一领域的深厚信心。

第三，Hassabis、Jumper与Baker荣获诺贝尔化学奖，意味着AI与生物的融合已在学术领域获得最高层次的认可。AlphaFold 3的扩散架构具备直接服务于药物研发的能力，与RFdiffusion、Chroma等生成模型一道，正在将"从零设计分子"的时代变为现实。

第四，凭借BioBank Japan、ToMMo、AMED与PFN的存在，日本在东亚人群基因组学与AI药物研发的交叉领域占据着独特地位。武田、第一三共、住友制药与AI的合作伙伴关系，表明日本制药产业正积极参与这场变革。

参考信息：Tufts CSDD Drug Development Cost Study (2020)、BIO/QLS Advisors Clinical Trial Success Rates (2021)、IQVIA Global R&D Spending Report (2024)、Eroom's Law (Scannell et al., Nature Reviews Drug Discovery, 2012)、UK Biobank Open Access Data、NIH All of Us Research Program、BioBank Japan/RIKEN、FinnGen Public-Private Partnership、deCODE Genetics/Amgen、Nelson et al. "The support of human genetic evidence for approved drug indications" (Nature Genetics, 2015)、King et al. update (2019)、Recursion-Exscientia Merger Announcement (Aug 2024)、Insilico INS018_055 Phase II Results、Isomorphic Labs-Lilly-Novartis Deals (Jan 2024)、Xaira Therapeutics $1B+ Launch、AlphaFold 3 Release (May 2024)、Nobel Prize Chemistry 2024、Generate Biomedicines Chroma (Nature 2023)、Absci Zero-Shot Antibody Design (Nature Biotechnology 2023)、RFdiffusion (Nature 2023)、Evo Model (Arc Institute 2024)、Unlearn.AI FDA Guidance、Syntegra/MDClone/Gretel.ai/Datavant Company Data、a16z Bio Fund、Flagship Pioneering、ARCH Venture Partners、PitchBook/BioCentury AI Drug Discovery Funding Data、NVIDIA BioNeMo、Jensen Huang GTC 2024、Demis Hassabis Nobel Lecture、David Baker Nobel Lecture、Daphne Koller a16z Podcast (2023)、Eric Topol "Ground Truths" Substack、Patrick Collison Arc Institute、Precedence Research AI Drug Discovery Market、Grand View Research、ToMMo Japanese Reference Genome、AMED Budget Data、Preferred Networks/Daiichi Sankyo Partnership、Takeda Digital Transformation、Sumitomo Pharma/Exscientia DSP-1181