งานวิจัยได้ทดสอบระบบ AI ชั้นนำหลายตัว — ทั้ง Claude, โมเดลตระกูล GPT, Biomni Open Source และ Edison Analysis — กับภารกิจที่ดูตรงไปตรงมา: การดึงข้อมูลลำดับไวรัสจาก NCBI Virus ฐานข้อมูลไม้ตายของนักไวรัสวิทยาที่ใช้ติดตามการระบาดและพัฒนาชุดตรวจ ผลลัพธ์ที่ออกมานั้นน่าตกใจมาก
NCBI Virus และฐานข้อมูลชีวภาพสาธารณะอื่นๆ ถูกสร้างขึ้นเพื่อการทำงานแบบโต้ตอบผ่านเว็บเบราว์เซอร์ นักวิทยาศาสตร์คลิกผ่านฟิลเตอร์ ตรวจสอบผลลัพธ์ด้วยสายตา และพึ่งพาสิ่งที่มองเห็น ตรรกะของหน้าตาเชื่อมต่อแบบนี้ เข้ากันไม่ได้เลยกับเอเจนต์อัตโนมัติที่คาดหวังคำสั่งที่เป็นโครงสร้างและเป็นโปรแกรม
ผลการทดลองที่เป็นหลักฐานมัดตัวมากที่สุด คือความไร้ความสม่ำเสมอ เมื่อนักวิจัยสั่งให้ Claude Sonnet 4 สามครั้ง เพื่อดึงข้อมูลไวรัสอีโบลาจากชุดข้อมูลเฉลยที่มีอยู่จริง 266 ลำดับ คำตอบที่ได้ครั้งแรกคือ 106, ครั้งที่สองคือ 15, และครั้งที่สามคือ 5 คำสั่งเหมือนเดิมทุกอย่าง — มีเพียงผลลัพธ์ที่เปลี่ยนไป
เรื่องนี้ไม่ใช่แค่ปัญหาเก็บข้อมูลตกหล่นไม่กี่เรคอร์ด ในการจำลองสถานการณ์ครั้งหนึ่ง การดึงข้อมูลที่ผิดพลาดทำให้การวิเคราะห์แผนภูมิต้นไม้ (Phylogenetic Analysis) บิดเบี้ยวจนประเมินว่าการระบาดของอีโบลามีจุดกำเนิดในปี ค.ศ. 1922 แทนที่จะเป็นวันที่ถูกต้องคือปี 2014 AI ไม่ได้ 'หลอน' ข้อมูลทางวิทยาศาสตร์ขึ้นมาเอง แต่มันถูกป้อนด้วยชุดข้อมูลที่พัง และมันก็ทำหน้าที่ของมันอย่างซื่อสัตย์ นั่นคือการต่อยอดองค์ความรู้ผิดๆ บนฐานที่วิบัติ
ข้อมูลชีวภาพกระจัดกระจายอยู่บนฐานข้อมูลหลายสิบแห่งด้วยรหัสระบุตัวตนที่เข้ากันไม่ได้ มาตรฐานเมตะดาต้าที่แตกต่างกัน และไม่มี API ที่ควบคุมเวอร์ชัน วิศวกรซอฟต์แวร์มีตัวจัดการแพ็กเกจ (Package Managers) ให้ใช้ แต่นักชีววิทยาเชิงคำนวณกลับต้องมาจมอยู่กับการเขียนสคริปต์แก้ขัดกับเว็บที่เปลี่ยนเอาเปลี่ยนเอาโดยไม่บอกกล่าว
แทนที่จะฝึกโมเดลให้เก่งขึ้น ทีมวิจัยสร้าง 'เลเยอร์การดึงข้อมูล' ที่ดีขึ้น gget virus คือเฟรมเวิร์กที่มีน้ำหนักเบาและใช้หลักการแน่นอน (Deterministic) ซึ่งเปลี่ยนตรรกะการกรองข้อมูลใน NCBI Virus ให้กลายเป็นระบบที่ใช้โปรแกรมสั่งและทำซ้ำได้
วิธีการของมันคือ การบังคับใช้ข้อจำกัดของเมตะดาตาก่อนดาวน์โหลดลำดับ, คัดเลือกมาเฉพาะเรคอร์ด GenBank ที่มีโครงสร้างตรงตามเงื่อนไข, และลดการถ่ายโอนข้อมูลลงกว่า 98% สำหรับการสืบค้นปริมาณมาก โดยยังคงหลักการจับคู่ตรงเผงทุกครั้ง (Exact-Match) ผลลัพธ์คือชุดข้อมูลชุดเดิม ทุกครั้งที่เรียก — เป็นคุณสมบัติที่ AI Agents ต้องการอย่างยิ่งยวด แต่โครงสร้างพื้นฐานเก่าไม่สามารถให้ได้
ผลกระทบนั้นรวดเร็วและน่าทึ่ง เมื่อระบบ AI อัตโนมัติใช้ gget virus เป็นระบบหลังบ้านในการดึงข้อมูล:
บทสรุปคือสิ่งที่ไม่ต้องตีความให้วุ่นวาย: ข้อจำกัดที่ร้อยรัดชีววิทยาที่ขับเคลื่อนด้วย AI ไม่ใช่ความสามารถในการให้เหตุผลของโมเดล — แต่มันคือการเข้าถึงข้อมูลแบบไร้ความแน่นอน เพิ่มแค่เลเยอร์ดึงข้อมูลที่ถูกต้อง แล้วบรรดา Agent ในวันนี้ก็สามารถทำงานที่เชื่อถือได้แล้ว
ความสำเร็จของ gget virus เป็นไม่ใช่แค่การแก้ปัญหาเฉพาะหน้า แต่มันคือต้นแบบให้กับการเปลี่ยนแปลงครั้งใหญ่ นักวิจัยแย้งว่าลวดลายของปัญหานี้ไม่ได้จำกัดอยู่แค่วงการไวรัสวิทยา — แค่ NCBI เพียงแห่งเดียวยังมีฐานข้อมูลที่ใช้รูปแบบเดียวกันนี้อยู่อีกกว่า 30 แห่ง ที่จะได้ประโยชน์จากการสร้างตัวห่อหุ้มแบบแน่นอน (Deterministic Wrappers) ในลักษณะเดียวกันนี้
ฐานข้อมูลชีวภาพจำเป็นต้องวิวัฒนาการ เปิดเผย API ที่มีเอกสารกำกับชัดเจน ควบคุมเวอร์ชันได้ มีมาตรฐานการกรอง และความหมายของคำสั่งที่ทำซ้ำได้ สิ่งนี้เทียบเท่ากับสิ่งที่นักพัฒนาซอฟต์แวร์ได้รับจากตัวจัดการแพ็กเกจและระบบควบคุมเวอร์ชัน — มันคือโครงสร้างพื้นฐานชิ้นสำคัญที่วิทยาศาสตร์ชีวภาพยังขาดอยู่
ในความพยายามคู่ขนาน Chan Zuckerberg Initiative ได้เผยแพร่แผนที่นำทางเรียกร้องให้มีชุดข้อมูลทางชีววิทยาแบบเชื่อมต่อถึงกันและรวมศูนย์ ที่สามารถสืบค้นได้ผ่าน Command-Line Interfaces และมาตรฐานที่เครื่องจักรอ่านเข้าใจ วิสัยทัศน์ของพวกเขา: โลกที่นักวิทยาศาสตร์สามารถค้นหา, วิเคราะห์, และดาวน์โหลดข้อมูลหลากมิติได้ด้วยคำสั่งสืบค้นแบบสหพันธรัฐเพียงคำสั่งเดียว ซึ่งจะปลดล็อกการค้นพบระดับ AI โดยไม่ต้องเจอกับความยุ่งเหยิงในการดึงข้อมูลแบบทุกวันนี้
CZI ลงมือทำสิ่งนี้แล้ว โดยการพัฒนา CLI สำหรับการเข้าถึงข้อมูลแบบสหพันธรัฐ และการสร้าง Billion Cells Project ชุดข้อมูลระดับเซลล์เดียวที่เป็นประวัติศาสตร์ ซึ่งตั้งใจให้ใช้ฝึกโมเดล AI รุ่นต่อไป เป้าหมายคือโครงสร้างพื้นฐานรากฐานที่จะทำให้ข้อมูลชีวภาพเข้าถึงได้ง่ายสำหรับเครื่องจักร เหมือนที่นักพัฒนาเข้าถึงคลังโค้ดได้ง่ายดาย
แก่นแท้ที่ได้ — อินเตอร์เฟสเก่าที่ถูกดีไซน์ให้มนุษย์ใช้ก่อน ทำให้ AI Agents พัง — สามารถนำไปใช้กับงานวิทยาศาสตร์คอมพิวเตอร์ทั้งหมดได้ ชั้นการเข้าถึงแบบโปรแกรมที่แน่นอนและทำซ้ำได้ ไม่ใช่ของฟุ่มเฟือย แต่มันคือเงื่อนไขเบื้องต้นที่จะทำให้ระบบอัตโนมัติมีส่วนร่วมในงานวิจัยได้อย่างน่าเชื่อถือ ทางออกไม่ใช่การรอให้มีโมเดลที่ฉลาดกว่านี้ แต่มันคือการยกระดับ 'ถนน' ที่เราใช้ต่างหาก
Comments
0 comments