NCBI Virus dan banyak basis data biologi publik lainnya dibangun untuk alur kerja interaktif berbasis peramban. Ilmuwan mengklik filter, memeriksa hasil secara manual, dan mengandalkan isyarat visual. Logika antarmuka ini tidak kompatibel dengan agen otonom yang mengharapkan perintah terstruktur dan terprogram .
Temuan paling memberatkan adalah inkonsistensi. Ketika peneliti meminta Claude Sonnet 4 tiga kali untuk mengambil urutan Ebolavirus terhadap kebenaran dasar yang diverifikasi sebanyak 266, ia menghasilkan 106 pada percobaan pertama, 15 pada percobaan kedua, dan hanya 5 pada percobaan ketiga. Perintahnya tidak berubah—hanya keluarannya saja yang berubah .
Ini bukan sekadar masalah kehilangan beberapa catatan. Dalam satu simulasi, pengambilan data yang salah sangat menyesatkan analisis filogenetik hingga memperkirakan asal wabah Ebola terjadi pada tahun 1922, bukan tanggal yang sebenarnya yaitu 2014. AI tidak berhalusinasi tentang sainsnya—ia telah diberi kumpulan data yang rusak dan dengan patuh membangun kesimpulan yang salah di atasnya .
Data biologi tersebar di lusinan basis data dengan pengidentifikasi yang tidak kompatibel, standar metadata yang berbeda, dan tidak ada API berversi. Insinyur perangkat lunak mengandalkan manajer paket dan titik akhir berversi; ahli biologi komputasional sering kali terjebak membuat skrip untuk antarmuka web yang tidak konsisten yang berubah tanpa pemberitahuan .
Alih-alih melatih model yang lebih baik, tim membangun lapisan pengambilan data yang lebih baik. gget virus adalah kerangka kerja deterministik yang ringan, yang memformalkan logika penyaringan NCBI Virus ke dalam sistem terprogram yang dapat direproduksi .
Cara kerjanya adalah dengan menerapkan batasan metadata sebelum mengunduh urutan, secara selektif hanya mengambil catatan GenBank terstruktur yang cocok, dan mengurangi transfer data hingga lebih dari 98% untuk kueri volume tinggi sambil mempertahankan kecocokan yang persis. Hasilnya adalah kumpulan data yang sama setiap saat—sebuah properti yang sangat dibutuhkan agen AI tetapi tidak dapat diberikan oleh infrastruktur lama .
Dampaknya langsung dan dramatis. Saat sistem AI otonom menggunakan gget virus sebagai backend pengambil data:
Kesimpulannya tegas: kendala yang mengikat pada biologi bertenaga AI bukanlah penalaran model—melainkan akses data yang deterministik. Tambahkan lapisan pengambilan data yang tepat, dan para agen saat ini sudah bisa melakukan pekerjaan yang andal .
Kisah sukses gget virus adalah bukti konsep untuk perubahan yang jauh lebih besar. Para peneliti berpendapat pola ini tidak terbatas pada virologi—NCBI sendiri memiliki lebih dari 30 basis data yang akan mendapat manfaat dari wrapper deterministik serupa .
Basis data biologi harus berevolusi untuk mengekspos API yang didokumentasikan dengan baik dan berversi, dengan penyaringan standar dan semantik kueri yang dapat direproduksi. Ini adalah setara dengan apa yang didapatkan pengembang perangkat lunak dari manajer paket dan sistem kontrol versi—infrastruktur penting yang saat ini tidak dimiliki oleh sains biologi .
Dalam upaya paralel, Inisiatif Chan Zuckerberg menerbitkan peta jalan yang menyerukan kumpulan data biologis yang saling beroperasi dan digabungkan, yang dapat diakses melalui antarmuka baris perintah dan standar yang dapat dibaca mesin. Visi mereka: sebuah dunia di mana ilmuwan dapat mencari, menganalisis, dan mengunduh data multi-modal dalam satu kueri terfederasi, memungkinkan penemuan berskala AI tanpa kekacauan pengambilan data saat ini .
CZI telah bertindak atas visi ini, mengembangkan CLI untuk akses data terfederasi dan membangun Billion Cells Project, sebuah kumpulan data sel tunggal penting yang dimaksudkan untuk melatih model AI generasi berikutnya. Tujuannya adalah infrastruktur dasar yang membuat data biologi semudah diakses oleh mesin seperti repositori kode bagi para pengembang .
Wawasan intinya—bahwa antarmuka warisan yang diperuntukkan bagi manusia merusak agen AI—berlaku umum di seluruh komputasi ilmiah. Lapisan akses deterministik dan terprogram bukanlah kemewahan; ia adalah prasyarat untuk memungkinkan sistem otonom berpartisipasi secara andal dalam riset. Solusinya bukanlah menunggu model yang lebih pintar. Melainkan memperbaiki infrastruktur jalannya.
Comments
0 comments