ESMFold2 — предсказатель пространственных структур внутри архитектуры ESM3. Он предсказывает атомарную 3D-структуру белка напрямую из последовательности с передовой скоростью и точностью, не требуя множественного выравнивания последовательностей (multiple sequence alignment) — именно этот шаг тормозит многие традиционные методы . Такая скорость впервые делает практичным крупномасштабный структурный охват.
ESM Atlas расширен драматически. Первый ESM Metagenomic Atlas от Meta FAIR охватывал около 600 миллионов белковых структур . Обновленный атлас от Biohub теперь картирует 6,8 миллиарда белков и содержит 1,1 миллиарда предсказанных трехмерных структур — это охват на порядок больше прежнего, и он покрывает гораздо большую часть «белковой вселенной»
.
Кроме того, выпущена модель esm3-sm-open-v1, обученная на 2,78 млрд природных белков. С добавлением синтетических данных корпус расширился до 3,15 млрд последовательностей, 236 млн структур и 539 млн функциональных аннотаций — всего 771 млрд токенов . Модель доступна под некоммерческой лицензией для академического и некоммерческого использования
.
Практическая ценность — в скорости и масштабе. Обычно дизайн и проверка терапевтического белкового связывающего агента занимают месяцы или годы итеративной «мокрой» работы в лаборатории. Инструменты Biohub сжимают этот цикл до недель или дней за счет трех возможностей:
Частая критика спроектированных ИИ белков: на экране компьютера они выглядят красиво, но в пробирке проваливаются. Biohub сообщает, что здесь это не так. Связывающие агенты, полностью спроектированные in silico с помощью этих моделей, прошли валидацию в реальных лабораторных экспериментах — ИИ-белки действительно связались с нужными мишенями .
Алекс Райвз (Alex Rives), глава научного направления Biohub, сформулировал это так: «Эти модели приобрели настолько точное представление о биологических процессах, что позволяют вычислительно проектировать белковые интерфейсы, которые затем можно протестировать в лаборатории с ожидаемыми результатами» . Иными словами, модели схватили достаточно фундаментальной биологии, чтобы выдавать функциональные дизайны без необходимости в итеративной лабораторной оптимизации.
29 апреля 2026 года Biohub объявила о запуске Virtual Biology Initiative — пятилетней программы с бюджетом в 500 миллионов долларов. Цель — создать мультимодальные наборы данных и ИИ-модели, необходимые для предиктивных моделей человеческой клетки . Из этих средств 100 миллионов направлены на координацию глобального сбора данных, а 400 миллионов — на генерацию данных в больших масштабах и разработку технологий измерения, визуализации и инженерии биологии нового поколения
.
Релиз белковой модели — первый крупный научный результат VBI. Среди партнеров инициативы — ряд ведущих мировых институтов в биологии и технологиях: Broad Institute, Allen Institute, Arc Institute, Wellcome Sanger Institute, Human Cell Atlas, Human Protein Atlas, NVIDIA и Renaissance Philanthropy .
Семейство ESM появилось не в Biohub. Первоначально его разрабатывали в лаборатории Meta AI (FAIR), которая опубликовала первые модели ESM-1, а в 2023 году — оригинальную ESMFold в журнале Science, сгенерировав первый атлас более чем из 600 миллионов предсказанных белковых структур . Тот атлас на момент выхода был крупнейшей базой высокоточных предсказанных структур — примерно в три раза больше любой существовавшей базы белковых структур
.
Когда стартап EvolutionaryScale, созданный оригинальной командой ESM из FAIR, выделился из Meta, Biohub вобрала и продолжила это исследование. Нынешний релиз четвертого поколения наследует эту линию — теперь уже под руководством Biohub как открытого филантропического научного предприятия .
Исследователи могут экспериментировать с инструментами и разворачивать их через несколько платформ:
esm3-sm-open-v1 и ESMC 600M размещены по адресу huggingface.co/biohub/ под некоммерческой лицензией biohub.org/ai-models для изучения и загрузки моделей
Comments
0 comments