ESMFold2 は、ESM3アーキテクチャ内の構造予測エンジンです。従来の手法を遅くしていたマルチプルアライメント(複数配列アライメント)を必要とせず、配列データから直接、原子レベルのタンパク質構造を最先端の速度と精度で予測します 。この速度こそが、大規模な構造カバレッジを実用的なものにしています。
ESM Atlas は劇的に拡張されました。Meta AIのFAIRラボが発表した当初のESM Metagenomic Atlasは約6億のタンパク質構造をカバーしていました 。Biohubが更新したアトラスは、68億のタンパク質 と11億の予測構造 を描き出しており、タンパク質の世界のこれまでよりもはるかに広い範囲をカバーする、桁違いの拡張です
。
さらに、このリリースにはesm3-sm-open-v1も含まれています。これは27.8億の天然タンパク質で学習させ、合成データで31.5億の配列、2.36億の構造、5.39億の機能注釈にまで増強した、合計7,710億トークンの生成モデルです 。このモデルは学術および非営利団体向けの非商用ライセンスで公開されています
。
実際的な利点は、その速度と規模にあります。治療用のタンパク質バインダーを設計し、検証するには、従来は数カ月から数年にわたる繰り返しのウェットラボ(実験室での実験)作業が必要でした。Biohubのツールは、以下の3つの能力を可能にすることで、これを数週間、あるいは数日に短縮します。
AIが設計したタンパク質に対するよくある批判は、コンピューター上では良く見えても実験室では失敗する、というものです。Biohubは、今回のケースはそうではないと報告しています。これらのモデルを使って完全にin silico(計算機上)で設計されたバインダーは、実際の実験室実験で検証され、AIが設計したタンパク質が意図した標的に結合したのです 。
Biohubの科学部門責任者であるアレックス・ライブス氏は、「これらのモデルが生物学的プロセスを極めて正確に表現できるようになったため、タンパク質のインターフェースを計算機上で設計し、期待通りの結果を実験室で検証できることを実証しました」と述べています 。これは、モデルが反復的なウェットラボでの最適化を必要とせずに、機能的な設計を生み出せるほど、十分な基礎生物学を捉えたことを意味します。
2026年4月29日、BiohubはVirtual Biology Initiative(VBI) を発表しました。これは、人間の細胞の予測モデルに必要なマルチモーダルなデータセットとAIモデルを構築するための、5年間で5億ドルを投じる取り組みです 。この資金のうち、1億ドルは世界的なデータ生成の取り組みの連携に、4億ドルは大規模なデータ生成と、生物学の計測、イメージング、エンジニアリングのための次世代技術の開発に充てられます
。
今回のタンパク質生物学に関する発表は、VBIの下での最初の主要な科学的成果です。このイニシアチブのパートナーには、ブロード研究所、アレン研究所、アーク研究所、ウェルカム・サンガー研究所、ヒト細胞アトラス、ヒトプロテインアトラス、NVIDIA、ルネッサンス・フィランソロピーなど、生物学とテクノロジーの分野で最も著名な機関が名を連ねています 。
ESMファミリーはBiohubで始まったわけではありません。元々はMeta AIのFAIRラボで開発され、最初のESM-1モデルが発表され、2023年には初のESMFoldがScience誌で公開されて、6億以上のタンパク質構造予測が初めて生成されました 。その研究から、当時としては最大の高解像度予測構造データベースであり、既存のどのタンパク質構造データベースよりも約3倍大きい、最初のESM Metagenomic Atlasが生まれました
。
FAIRのオリジナルESMチームがスピンアウトしてEvolutionaryScale社を設立した際、Biohubはその研究を吸収し、継続しました。今回の第4世代リリースは、その系譜を直接受け継ぎ、現在はBiohubがオープンな慈善科学ベンチャーとして開発を主導しています 。
研究者は、以下の複数のプラットフォームを通じてこれらのツールを試し、利用できます。
esm3-sm-open-v1とESMC 600Mのモデルウェイトが、非商用ライセンスの下でhuggingface.co/biohub/にホストされています biohub.org/ai-modelsにある、モデルを探索しダウンロードするためのリソースハブです
Comments
0 comments