ESMC ย่อมาจาก Evolutionary Scale Modeling Cambrian เป็นโมเดลภาษาโปรตีน (Protein Language Model) ที่ถูกฝึกด้วยข้อมูลลำดับโปรตีนจำนวนมหาศาลถึงกว่า 2.8 พันล้านลำดับ ซึ่งดึงมาจากสิ่งมีชีวิตทั่วทุกสาขา ตั้งแต่สิ่งมีชีวิตที่อาศัยอยู่ในสภาพแวดล้อมสุดขั้ว ไปจนถึงโปรตีนกว่า 20,000 ชนิดที่พบในร่างกายมนุษย์ หน้าที่ของมันคือการสร้าง "ตัวแทน" ของโปรตีนที่เข้าใจหลักการทางชีววิทยาเชิงลึก โมเดลตระกูลนี้ทำงานคู่ขนานกับตัว ESM3 ซึ่งเป็นโมเดลที่เน้นการสร้างโปรตีนใหม่ ในขณะที่ ESMC จะเก่งเรื่องการจับทางชีววิทยาเบื้องหลัง ทำให้มันสามารถใช้แทนโมเดลรุ่นก่อนหน้าอย่าง ESM2 ได้ทันที
ESMFold2 คือเครื่องจักรทำนายโครงสร้างโปรตีนระดับอะตอมโดยตรงจากรหัสพันธุกรรม โดยไม่ต้องเสียเวลาเปรียบเทียบลำดับแบบหลายชั้น (Multiple Sequence Alignments) เหมือนวิธีการแบบดั้งเดิม จุดแข็งคือความเร็วและความแม่นยำระดับสูงสุด (State-of-the-art) ซึ่งทำให้เราสามารถทำนายโครงสร้างในระดับสเกลใหญ่ได้จริง
แต่พระเอกของงานนี้คงหนีไม่พ้น ESM Atlas ฐานข้อมูลที่ขยายขอบเขตการสำรวจโปรตีนแบบก้าวกระโดด จากเดิมที่ Meta FAIR เคยสร้าง ESM Metagenomic Atlas ไว้ที่ประมาณ 600 ล้านโปรตีน ตอนนี้ ESM Atlas เวอร์ชันใหม่ของ Biohub ได้ทะยานไปถึง โปรตีน 6.8 พันล้านชนิด พร้อมด้วย โครงสร้างสามมิติที่ถูกทำนายแล้วอีก 1.1 พันล้านโครงสร้าง เรียกได้ว่าเป็นการเปิดโปง "สสารมืด" ในจักรวาลโปรตีนที่เราไม่เคยเห็นมาก่อน
นอกจากนี้ยังมีของแถมพิเศษคือ esm3-sm-open-v1 โมเดลเชิงสร้างสรรค์ที่ถูกเทรนด้วยโปรตีนธรรมชาติ 2.78 พันล้านลำดับ และข้อมูลสังเคราะห์อีกเพียบ จนไปแตะที่ 3.15 พันล้านลำดับโปรตีน, 236 ล้านโครงสร้าง และ 539 ล้านข้อมูลฟังก์ชันการทำงาน รวมแล้วมีขนาด 771 พันล้านโทเค็น โดยปล่อยมาให้ใช้ฟรีภายใต้ข้อตกลงเพื่อการวิจัยและองค์กรไม่แสวงหากำไรเท่านั้น
ปกติแล้ว การออกแบบโปรตีน (Binder) เพื่อจับกับโปรตีนเป้าหมายที่ทำให้เกิดโรค ต้องใช้เวลาหลายเดือนหรือหลายปีในการทดลองในห้องแล็บเปียก ทว่าเครื่องมือของ Biohub บีบอัดเวลานี้เหลือเพียงไม่กี่สัปดาห์หรือหลายวัน ด้วยสามพลังสำคัญ:
ข้อกังขาของวงการที่ผ่านมาคือ AI วาดโปรตีนสวยหรูบนคอมพิวเตอร์ได้ก็จริง แต่พอเอาเข้าแล็บจริงกลับใช้การไม่ได้ สำหรับกรณีนี้ Biohub รายงานว่าบทพิสูจน์ผ่านฉลุย Binder ที่ถูกออกแบบโดย AI ทั้งหมดนี้ถูกนำไปตรวจสอบในห้องทดลองจริง และพบว่ามันเข้าจับกับเป้าหมายของมันได้อย่างสมบูรณ์
อเล็กซ์ ไรฟ์ส (Alex Rives) หัวหน้าฝ่ายวิทยาศาสตร์ของ Biohub ได้กล่าวว่า "สิ่งที่เราได้แสดงให้เห็นคือ โมเดลเหล่านี้ได้ซึมซับการนำเสนอของกระบวนการทางชีววิทยาที่แม่นยำอย่างยิ่ง จนกระทั่งทำให้เราคำนวณออกแบบหน้าสัมผัสของโปรตีนได้ และเมื่อนำไปทดสอบในแล็บก็ให้ผลลัพธ์ตรงตามที่เราคาดการณ์ไว้" นี่คือข้อพิสูจน์ว่า AI ไม่ได้แค่จำรูปแบบ แต่มันเข้าใจกติกาฟิสิกส์และเคมีของชีวิตเพียงพอที่จะสร้างมันขึ้นมาใหม่ได้
ย้อนกลับไปเมื่อวันที่ 29 เมษายน 2026 Biohub ได้ประกาศ Virtual Biology Initiative (VBI) แผนห้าปีที่ทุ่มงบ 500 ล้านดอลลาร์ เพื่อวางรากฐานข้อมูลและ AI อันจำเป็นสำหรับการสร้าง แบบจำลองทำนายการทำงานของเซลล์มนุษย์ที่สมบูรณ์แบบ โดยเม็ดเงินก้อนนี้ถูกแบ่งออกเป็น 100 ล้านดอลลาร์สำหรับประสานงานเก็บข้อมูลจากสถาบันทั่วโลก และอีก 400 ล้านดอลลาร์สำหรับพัฒนาเทคโนโลยีตรวจวัดและถ่ายภาพชีววิทยายุคใหม่
การเปิดตัว World Model โปรตีนในครั้งนี้คือไม้แรกที่สำคัญของ VBI โดยมีแนวร่วมระดับตำนานของวงการทั้ง สถาบัน Broad, สถาบัน Allen, สถาบัน Arc, สถาบัน Wellcome Sanger, โครงการ Human Cell Atlas, โครงการ Human Protein Atlas, เอ็นวิเดีย (NVIDIA) และ Renaissance Philanthropy
ที่น่าสนใจคือตระกูล ESM ไม่ได้เพิ่งเกิด แต่เริ่มต้นจากห้องปฏิบัติการ Meta AI's FAIR มาก่อน โดยทีมวิจัยเคยตีพิมพ์ ESM-1 และปล่อย ESMFold ลงในวารสาร Science ในปี 2023 พร้อมกับคลัง ESM Metagenomic Atlas ที่ทำนายโปรตีนไปแล้วกว่า 600 ล้านลำดับ ซึ่งในตอนนั้นถือเป็นฐานข้อมูลโครงสร้างโปรตีนขนาดใหญ่ที่สุดในโลก ต่อมาเมื่อทีมงานบางส่วนแยกตัวไปตั้งสตาร์ทอัพชื่อ EvolutionaryScale ตัว Biohub ก็เข้ามาสานต่องานวิจัยและยกระดับมันให้ใหญ่อลังการขึ้นในฐานะโอเพนซอร์สเพื่อการกุศล
นักวิจัยหรือผู้สนใจสามารถเข้าไปใช้ประโยชน์จากเครื่องมือเหล่านี้ได้บนหลากหลายแพลตฟอร์ม:
esm3-sm-open-v1 และ ESMC 600Mhuggingface.co/biohub/ (สำหรับใช้ในเชิงไม่แสวงหากำไร) biohub.org/ai-models
Comments
0 comments