ESMFold2 係ESM3架構入面嘅結構預測引擎。佢直接由蛋白質序列預測原子級別嘅三維結構,速度快、準確度達到業界最先進水平,仲唔需要好似傳統方法咁做多重序列比對(multiple sequence alignments),慳返好多時間 。就係呢個速度,令到大規模繪製蛋白質結構變成實際可行嘅事。
ESM Atlas 今次大幅擴充咗。最初由Meta FAIR實驗室發布嘅ESM Metagenomic Atlas,覆蓋大約6億個蛋白質結構 。而家Biohub更新之後嘅版本,總共收錄 68億個蛋白質,當中包含 11億個預測結構,數量級嘅擴張令到蛋白質宇宙入面更多未被探索嘅領域終於有結構數據覆蓋
。
另外,發布仲包含 esm3-sm-open-v1,呢個生成模型用咗27.8億個天然蛋白質訓練,再經過合成數據擴充到31.5億條序列、2.36億個結構同5.39億個功能標註,總共7710億個token 。呢個模型以非商業授權發布,畀學術界同非牟利機構使用
。
實質嘅承諾就係「速度」同「規模」。傳統上,設計同驗證一個治療用嘅蛋白質結合體,要經過幾個月甚至幾年嘅濕實驗室(wet lab)反覆測試。Biohub呢套工具將成個流程壓縮到以「星期」甚至「日」計算,靠嘅係三項關鍵能力:
經常有人批評AI設計嘅蛋白質「睇落好靚,但係落實驗室就死火」。Biohub報告指出,今次唔同。用呢套模型喺電腦完全由零設計出嚟嘅蛋白質結合體,已經喺真實實驗室實驗中驗證咗——啲AI設計嘅蛋白質真係黐到佢哋嘅目標靶點 。
換句話講,呢啲模型已經捕捉到足夠深入嘅基礎生物學知識,可以產生「功能上真係用得」嘅設計,唔使再靠反覆落實驗室去優化。
喺2026年4月29號,Biohub宣布推出 「虛擬生物學計劃」(Virtual Biology Initiative, VBI),呢個係一個為期五年、總投資5億美金嘅大型計劃,目標係建立多模態數據集同AI模型,最終做到人類細胞嘅預測模型 。嗰5億美金當中,有1億用嚟統籌全球數據生成工作,另外4億就投放喺大規模產生數據同開發下一代測量、成像同工程改造生物學嘅技術
。
今次蛋白質生物學發布,正正係VBI計劃嘅頭炮科學成果。呢個計劃嘅合作夥伴橫跨生物學同科技界好多頂尖機構,包括:Broad Institute、Allen Institute、Arc Institute、Wellcome Sanger Institute、Human Cell Atlas、Human Protein Atlas、NVIDIA 同 Renaissance Philanthropy 。
ESM模型家族並唔係由Biohub由零開始。佢嘅根源要追溯到 Meta AI旗下嘅FAIR實驗室,佢哋喺2023年喺《Science》期刊發表咗第一代ESM-1模型同原版ESMFold,當時產生咗第一個超過6億個蛋白質結構預測嘅數據庫 。呢項工作產生咗原版嘅ESM Metagenomic Atlas,以當時嚟講係最大嘅高解像度預測結構數據庫,比任何現有蛋白質結構數據庫大約大三倍
。
後來,由原FAIR ESM團隊組成嘅初創公司EvolutionaryScale由Meta分拆出去,Biohub就吸收咗呢批研究並繼續推進。今次第四代發布直接承襲呢條技術脈絡,而家由Biohub以開放慈善科學模式主導開發 。
研究人員可以透過以下多個平台使用同部署呢堆工具:
Comments
0 comments