ESM Atlas 获得了极大扩充。最初由 Meta FAIR 发布的 ESM 宏基因组图谱覆盖了约 6 亿个蛋白质结构 。Biohub 更新的图谱现涵盖 68 亿个蛋白质,并提供了 11 亿个预测结构,将覆盖范围提升了一个数量级,对蛋白质宇宙的探索也随之大幅扩展
。
此外,本次发布还包括 esm3-sm-open-v1,这是一个生成式模型,训练于 27.8 亿种天然蛋白质,并通过合成数据增强至 31.5 亿条序列、2.36 亿个结构、5.39 亿条功能注释,总标记数(tokens)达到 7710 亿 。该模型以非商业许可证发布,供学术和非营利机构使用
。
这套工具的核心承诺在于速度和规模。传统上,设计和验证治疗性蛋白质结合剂需要数月乃至数年的反复湿实验工作。Biohub 的工具通过三种能力将这一过程压缩到数周或数天:
对 AI 设计蛋白质的一个反复出现的批评是:它们在计算机上看起来不错,但在实验室里却会失效。Biohub 报告了截然相反的结果。使用这些模型完全在计算机内设计的结合剂,已在真实的实验室实验中得到了验证——AI 设计的蛋白质确实能结合预定的靶标 。
Biohub 科学主管 Alex Rives 表示:“我们证明了这些模型已获得对生物过程极为精准的表征,从而可以对蛋白质界面进行计算机设计,然后拿到实验室中测试,并得到预期结果” 。这意味着模型已掌握了足够底层生物学规律,能够产出功能性设计,而无需反复的湿实验优化。
2026 年 4 月 29 日,Biohub 宣布了 虚拟生物学计划(VBI)——一项为期五年、总投入 5 亿美元的计划,旨在建设构建人类细胞预测模型所需的多模态数据集和 AI 模型 。在这笔资金中,有 1 亿美元用于协调全球数据生成工作,另 4 亿美元则专门用于规模化数据生产以及开发测量、成像和工程化生物学的新一代技术
。
此次蛋白质生物学模型发布,是 VBI 计划下的首个重大科学产出。该计划的合作伙伴名单几乎囊括了生物学和技术领域最顶尖的机构:Broad 研究所、艾伦研究所、Arc 研究所、威康桑格研究所、人类细胞图谱、人类蛋白质图谱、NVIDIA 以及文艺复兴慈善基金会 。
ESM 家族并非诞生于 Biohub,它最初是在 Meta AI 的 FAIR 实验室开发的。FAIR 发表了首个 ESM-1 模型,并于 2023 年在《Science》期刊上发布了最初的 ESMFold,生成了首次超过 6 亿个蛋白质结构的预测结果 。那项工作产出了最初版的 ESM 宏基因组图谱,当时是最大的高分辨率预测结构数据库,规模大约是已有蛋白质结构数据库的三倍
。
当原始 FAIR ESM 团队拆分出来成立的初创公司 EvolutionaryScale 从 Meta 独立后,Biohub 承接并继续了这项研究。这次第四代模型发布正是基于这条技术路线,而 Biohub 如今作为一家开放公益科学机构主导着该领域的发展 。
研究人员可以在多个平台上试用和部署这些工具:
Comments
0 comments