ESMFold2 是內建於 ESM3 架構中的結構預測核心。它能直接從蛋白質序列,以業界頂尖的速度與精確度,預測出原子層級的蛋白質結構,而且完全不需要傳統方法中耗時的多序列比對 。這種速度,正是讓大規模結構分析從理論變為現實的關鍵。
ESM 圖譜(ESM Atlas)經歷了一場戲劇性的擴張。最初由 Meta FAIR 釋出的 ESM 宏基因體圖譜,涵蓋了約 6 億個蛋白質結構 。而 Biohub 更新的圖譜,如今繪製了 68 億種蛋白質,其中有 11 億個預測結構,這是數量級上的飛躍,為蛋白質宇宙中更廣闊的疆域提供了結構覆蓋
。
此外,這次釋出還包含 esm3-sm-open-v1,這是一款生成式模型,在 27.8 億個天然蛋白質的基礎上進行訓練,並透過合成資料擴增至 31.5 億條序列、2.36 億個結構與 5.39 億個功能註釋,總計使用了 7710 億個標記(token)進行學習 。該模型以非商業授權釋出,供學術與非營利使用
。
這套工具的實際價值,在於速度與規模。傳統上,設計並驗證一個治療性的蛋白質結合劑,需要經歷數月甚至數年的反覆濕實驗室工作。Biohub 的工具可透過以下三種能力,將這個過程壓縮到數週甚至數天:
對於 AI 設計的蛋白質,一個反覆出現的質疑是:它們在電腦上看起來很完美,但在實驗室中卻往往失效。Biohub 通報的情況顯示,這並非這次的瓶頸。完全透過電腦模擬設計的結合劑,已在真實的實驗室實驗中獲得驗證——這些 AI 設計的蛋白質,確實成功地結合了它們的預期標靶 。
Biohub 科學長亞歷克斯·里夫斯(Alex Rives)表示:「這些模型已經對生物過程獲得了極其精確的表徵能力,讓我們得以透過計算設計蛋白質介面,並在實驗室中獲得符合預期的測試結果。」 這段話的弦外之音是,模型已經捕捉到足夠深厚的基礎生物學知識,足以產出功能性的設計,無須再仰賴反覆的濕實驗室優化。
2026 年 4 月 29 日,Biohub 宣布了 虛擬生物學倡議(Virtual Biology Initiative,VBI),這是一項為期五年、總額 5 億美元的承諾,旨在為建立人類細胞的預測模型,構建所需的多模態資料集與 AI 模型 。在這筆資金中,1 億美元被分配用於協調全球的資料生成工作,其餘 4 億美元則專門用於大規模生成資料,以及開發用於測量、成像和工程化生物學的次世代技術
。
蛋白質生物學的釋出,正是 VBI 旗下的第一個重大科學成果。這項倡議的合作夥伴網絡,涵蓋了許多生物學與科技領域最具指標性的機構:布羅德研究所(Broad Institute)、艾倫研究所(Allen Institute)、Arc 研究所(Arc Institute)、惠康桑格研究所(Wellcome Sanger Institute)、人類細胞圖譜計畫(Human Cell Atlas)、人類蛋白質圖譜計畫(Human Protein Atlas)、輝達(NVIDIA)以及文藝復興慈善基金會(Renaissance Philanthropy)。
ESM 家族的起源並非始於 Biohub。它最初誕生於 Meta AI 的 FAIR 實驗室,該實驗室曾發表了最初的 ESM-1 模型,並於 2023 年在《科學》(Science)期刊上釋出了原始的 ESMFold,生成了第一批超過 6 億個蛋白質結構預測 。那項工作產出了原始的 ESM 宏基因體圖譜,該圖譜在當時是最大的高解析度預測結構資料庫,規模大約是當時現有蛋白質結構資料庫的三倍
。
當 EvolutionScale(由原始 FAIR ESM 團隊成立的初創公司)從 Meta 拆分出來時,Biohub 吸納並延續了這項研究。這次第四代的釋出,直接建立在該技術脈絡之上,而 Biohub 則是以一個開放的公益科學事業之姿,主導了當前的發展 。
研究人員可以透過多個平台,對這些工具進行實驗與部署:
Comments
0 comments