ESMFold2 là cỗ máy dự đoán cấu trúc bên trong kiến trúc ESM3. Nó dự đoán cấu trúc protein ở cấp độ nguyên tử trực tiếp từ dữ liệu chuỗi với tốc độ và độ chính xác vượt trội, mà không cần đến các phép so sánh đa chuỗi vốn làm chậm các phương pháp truyền thống . Chính tốc độ này đã giúp cho việc bao phủ cấu trúc trên quy mô lớn trở nên khả thi.
Tập bản đồ ESM (ESM Atlas) đã được mở rộng một cách ngoạn mục. Tập bản đồ ESM Metagenomic gốc từ Meta FAIR bao phủ khoảng 600 triệu cấu trúc protein . Tập bản đồ cập nhật của Biohub hiện ghi nhận 6,8 tỷ protein với 1,1 tỷ cấu trúc đã được dự đoán, một sự mở rộng theo cấp số nhân, cung cấp sự bao phủ về cấu trúc trên phạm vi rộng lớn hơn nhiều của vũ trụ protein
.
Ngoài ra, bản phát hành còn bao gồm esm3-sm-open-v1, một mô hình tạo sinh được huấn luyện trên 2,78 tỷ protein tự nhiên và được tăng cường thêm dữ liệu tổng hợp lên tới 3,15 tỷ chuỗi, 236 triệu cấu trúc và 539 triệu chú thích chức năng, với tổng cộng 771 tỷ token . Mô hình này được phát hành theo giấy phép phi thương mại cho mục đích học thuật và phi lợi nhuận
.
Lời hứa hẹn thực tế nằm ở tốc độ và quy mô. Việc thiết kế và kiểm chứng các chất gắn kết protein điều trị theo cách truyền thống thường mất nhiều tháng hoặc nhiều năm làm việc lặp đi lặp lại trong phòng thí nghiệm ướt. Các công cụ của Biohub nén quá trình này xuống còn vài tuần hoặc vài ngày bằng cách kích hoạt ba khả năng:
Một lời chỉ trích thường gặp đối với các protein do AI thiết kế là chúng trông có vẻ tốt trên máy tính nhưng thất bại trong phòng thí nghiệm. Biohub báo cáo rằng điều này không xảy ra ở đây. Các chất gắn kết được thiết kế hoàn toàn trên máy tính bằng các mô hình này đã được kiểm chứng trong các thí nghiệm thực tế trong phòng thí nghiệm – các protein do AI thiết kế đã liên kết với các mục tiêu dự định của chúng .
Alex Rives, người đứng đầu bộ phận khoa học tại Biohub, tuyên bố rằng "những mô hình này đã thu nhận được một biểu diễn chính xác đến mức về các quá trình sinh học, cho phép thiết kế trên máy tính các bề mặt tiếp xúc protein, và sau đó có thể được kiểm tra trong phòng thí nghiệm với các kết quả như mong đợi" . Điều này có nghĩa là các mô hình đã nắm bắt đủ kiến thức sinh học nền tảng để tạo ra các thiết kế có chức năng mà không cần tối ưu hóa lặp đi lặp lại trong phòng thí nghiệm ướt.
Vào ngày 29 tháng 4 năm 2026, Biohub đã công bố Sáng kiến Sinh học Ảo (VBI), một cam kết kéo dài 5 năm trị giá 500 triệu USD nhằm xây dựng các bộ dữ liệu đa phương thức và các mô hình AI cần thiết cho các mô hình dự đoán về tế bào người . Trong số tiền đó, 100 triệu USD được phân bổ để điều phối các nỗ lực tạo dữ liệu toàn cầu, và 400 triệu USD dành riêng cho việc tạo dữ liệu ở quy mô lớn và phát triển các công nghệ thế hệ tiếp theo để đo lường, chụp ảnh và kỹ thuật sinh học
.
Bản phát hành về sinh học protein này là sản phẩm khoa học lớn đầu tiên từ VBI. Các đối tác của sáng kiến này bao gồm nhiều tổ chức hàng đầu trong lĩnh vực sinh học và công nghệ: Viện Broad, Viện Allen, Viện Arc, Viện Wellcome Sanger, Dự án Tập bản đồ Tế bào Người, Dự án Tập bản đồ Protein Người, NVIDIA và Renaissance Philanthropy .
Dòng mô hình ESM không bắt đầu từ Biohub. Nó được phát triển ban đầu tại phòng thí nghiệm FAIR của Meta AI, nơi đã công bố các mô hình ESM-1 đầu tiên và phát hành ESMFold gốc trên tạp chí Science vào năm 2023, tạo ra hơn 600 triệu dự đoán cấu trúc protein đầu tiên . Công trình đó đã tạo ra Tập bản đồ ESM Metagenomic gốc, mà vào thời điểm đó là cơ sở dữ liệu lớn nhất về các cấu trúc dự đoán có độ phân giải cao, gấp khoảng ba lần bất kỳ cơ sở dữ liệu cấu trúc protein hiện có nào
.
Khi EvolutionaryScale, công ty khởi nghiệp do nhóm ESM gốc của FAIR thành lập, tách khỏi Meta, Biohub đã tiếp nhận và tiếp tục phát triển nghiên cứu. Bản phát hành thế hệ thứ tư này xây dựng trực tiếp trên nền tảng đó, với việc Biohub hiện đang dẫn đầu sự phát triển như một dự án khoa học mở mang tính từ thiện .
Các nhà nghiên cứu có thể thử nghiệm và triển khai các công cụ này trên nhiều nền tảng:
esm3-sm-open-v1 và ESMC 600M được lưu trữ tại huggingface.co/biohub/ theo giấy phép phi thương mại biohub.org/ai-models để khám phá và tải xuống các mô hình
Comments
0 comments