Am 27. Mai 2026 hat Biohub – die gemeinnützige Forschungsorganisation, die von Mark Zuckerberg und Priscilla Chan mitgegründet wurde – das veröffentlicht, was es selbst ein „Weltmodell der Proteinbiologie“ nennt . Diese quelloffene KI-Engine stellt die vierte Generation des Evolutionary Scale Modeling (ESM) dar und ist darauf ausgelegt, die Struktur von Proteinen vorherzusagen, Proteine im gesamten Stammbaum des Lebens zu kartieren und völlig neue Protein-Binder zu designen, die tatsächlich im Labor funktionieren
.
Dabei handelt es sich nicht nur um ein bloßes Modell-Update. Es ist der erste große wissenschaftliche Output der von Biohub am 29. April 2026 angekündigten „Virtual Biology Initiative“ (VBI) mit einem Volumen von 500 Millionen US-Dollar, die das Ziel hat, vorhersagende Modelle menschlicher Zellen zu erstellen . Hier ist ein klarer Blick darauf, was veröffentlicht wurde, wie es die Arzneimittelforschung beschleunigt, welche Laborergebnisse bisher erzielt wurden und wie man auf die Werkzeuge zugreifen kann.
Die Veröffentlichung umfasst drei Kernkomponenten, die jeweils eine eigene Rolle im Workflow der Proteinforschung spielen.
ESMC (ESM Cambrian) ist ein Protein-Sprachmodell, das mit rund 2,8 Milliarden Sequenzen trainiert wurde, die aus Organismen aus der gesamten Breite des Lebens stammen, darunter Extremophile und mehr als 20.000 Proteinarten, die im menschlichen Körper vorkommen . ESMC ist eine parallele Modellfamilie zu Biohubs generativen Flaggschiff-Modellen ESM3: Während ESM3 auf die kontrollierte Generierung von Proteinen für therapeutische Anwendungen abzielt, spezialisiert sich ESMC darauf, Repräsentationen zu erzeugen, die die zugrundeliegende Biologie von Proteinen erfassen
. Biohub positioniert ESMC als direkten Ersatz für ältere ESM-Modelle wie ESM2
.
ESMFold2 ist die Strukturvorhersage-Engine innerhalb der ESM3-Architektur. Sie sagt atomgenaue Proteinstrukturen direkt aus Sequenzdaten voraus – mit höchster Geschwindigkeit und Genauigkeit und ohne die aufwändigen Multiplen Sequenzalignments, die traditionelle Methoden so sehr verlangsamen . Diese Geschwindigkeit macht eine umfassende strukturelle Abdeckung im großen Maßstab erst praktisch umsetzbar.
Der ESM Atlas wurde dramatisch erweitert. Der ursprüngliche ESM Metagenomic Atlas von Meta FAIR deckte rund 600 Millionen Proteinstrukturen ab . Der aktualisierte Atlas von Biohub kartiert nun 6,8 Milliarden Proteine mit 1,1 Milliarden vorhergesagten Strukturen – eine Erweiterung um eine Größenordnung, die strukturelle Einblicke in einen weitaus größeren Teil des Protein-Universums liefert
.
Zusätzlich umfasst die Veröffentlichung esm3-sm-open-v1, ein generatives Modell, das mit 2,78 Milliarden natürlichen Proteinen trainiert und mit synthetischen Daten auf 3,15 Milliarden Sequenzen, 236 Millionen Strukturen und 539 Millionen Funktionsannotationen angereichert wurde, was insgesamt 771 Milliarden Tokens ergibt . Dieses Modell wird unter einer nicht-kommerziellen Lizenz für die akademische und gemeinnützige Nutzung veröffentlicht
.
Das praktische Versprechen liegt in Geschwindigkeit und Skalierbarkeit. Die Entwicklung und Validierung therapeutischer Protein-Binder dauert traditionell Monate oder Jahre iterativer Laborarbeit. Die Werkzeuge von Biohub komprimieren diesen Prozess auf Wochen oder Tage, indem sie drei entscheidende Fähigkeiten ermöglichen:
Ein wiederkehrender Kritikpunkt an KI-designten Proteinen ist, dass sie am Computer gut aussehen, aber im Labor versagen. Biohub berichtet, dass dies hier nicht der Fall ist. Vollständig in silico mit diesen Modellen entworfene Binder wurden in realen Laborexperimenten validiert – die KI-designten Proteine haben an ihre vorgesehenen Zielstrukturen gebunden .
Alex Rives, Wissenschaftschef bei Biohub, erklärte: „Wir haben gezeigt, dass diese Modelle eine so präzise Repräsentation biologischer Prozesse erlangt haben, dass sie das computergestützte Design von Protein-Grenzflächen ermöglichen, die dann im Labor mit den erwartbaren Ergebnissen getestet werden können" . Dies bedeutet, dass die Modelle genügend fundamentale Biologie gelernt haben, um funktionsfähige Designs zu produzieren, ohne dass eine zeitaufwändige, iterative Optimierung im Labor nötig ist.
Am 29. April 2026 kündigte Biohub die Virtual Biology Initiative (VBI) an, ein auf fünf Jahre angelegtes Projekt mit einer Finanzierung von 500 Millionen US-Dollar, um die benötigten multimodalen Datensätze und KI-Modelle für vorhersagende Modelle menschlicher Zellen zu schaffen . Von dieser Summe sind 100 Millionen Dollar für die Koordination globaler Datenerzeugungsbemühungen vorgesehen, und 400 Millionen Dollar fließen in die skalierte Datenproduktion und die Entwicklung neuartiger Technologien zur Messung, Bildgebung und Manipulation biologischer Systeme
.
Die Veröffentlichung zur Proteinbiologie ist das erste große wissenschaftliche Ergebnis unter dem Dach der VBI. Zu den Partnern der Initiative gehören viele der renommiertesten Institutionen aus Biologie und Technologie: das Broad Institute, das Allen Institute, das Arc Institute, das Wellcome Sanger Institute, der Human Cell Atlas, der Human Protein Atlas, NVIDIA und Renaissance Philanthropy .
Die ESM-Familie hat ihren Ursprung nicht bei Biohub. Sie wurde ursprünglich im FAIR-Labor von Meta AI entwickelt, das die ersten ESM-1-Modelle veröffentlichte und 2023 das ursprüngliche ESMFold in der Fachzeitschrift Science publizierte, wobei die ersten über 600 Millionen Proteinstrukturvorhersagen generiert wurden . Diese Arbeit brachte den ursprünglichen ESM Metagenomic Atlas hervor, der zu dieser Zeit die größte Datenbank hochauflösender, vorhergesagter Strukturen war – etwa dreimal so groß wie jede existierende Proteinstrukturdatenbank
.
Als EvolutionaryScale, das von dem ursprünglichen FAIR-ESM-Team gegründete Startup, aus Meta ausgegliedert wurde, absorbierte und führte Biohub die Forschung weiter. Diese Veröffentlichung der vierten Generation baut direkt auf dieser Tradition auf, wobei Biohub nun die Leitung als offenes, philanthropisches Wissenschaftsprojekt übernommen hat .
Forschende können mit diesen Werkzeugen auf mehreren Plattformen experimentieren und sie nutzen:
esm3-sm-open-v1 und ESMC 600M sind unter huggingface.co/biohub/ unter einer nicht-kommerziellen Lizenz gehostet biohub.org/ai-models, um die Modelle zu erkunden und herunterzuladen Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Am 27. Mai 2026 veröffentlichte Biohub eine Open Source KI Welt bestehend aus ESMC, ESMFold2 und einem ESM Atlas von 6,8 Milliarden Proteinen, die das In silico Design von Protein Bindern ermöglicht und deren Funktion...
Am 27. Mai 2026 veröffentlichte Biohub eine Open Source KI Welt bestehend aus ESMC, ESMFold2 und einem ESM Atlas von 6,8 Milliarden Proteinen, die das In silico Design von Protein Bindern ermöglicht und deren Funktion... Es ist der erste Durchbruch der mit 500 Millionen Dollar ausgestatteten „Virtual Biology Initiative“ von Biohub, die auf der ursprünglich bei Meta FAIR entwickelten ESM Technologie aufbaut und nun als philanthropische...
Forschende können die Modelle über Hugging Face, GitHub, AWS SageMaker, das Biohub Portal und die gehostete API Forge beziehen – lizenziert für nicht kommerzielle, akademische Nutzung.
Loading comments...
Comments
0 comments