Ejen AI Gagal Biologi Asas: Krisis Infrastruktur Data Saintifik Terbongkar
Kajian mercu tanda oleh Anthropic, NCBI, Broad Institute, dan Chan Zuckerberg Initiative mendapati model AI terbaik gagal teruk mendapatkan semula data jujukan virus, dengan ketepatan serendah 16.9%, kerana pangkalan... Masalah asasnya: infrastruktur data biologi tiada antara muka yang tekal dan boleh ulang (determi...
What do researchers from Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative reveal about why AI agents fail at retrievThe gap between AI and biology is not a failure of intelligence but of infrastructure — a lesson made clear by new research from Anthropic and leading scientific institutions.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What do researchers from Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative reveal about why AI agents fail at retriev. Article summary: In a collaboration between Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative (CZI), researchers demonstrated that state-of-the-art AI agents fail at retrieving biological data from public databases. Topic tags: general, government, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Artificial Intelligence agents for biological research: a survey. A **.gov** website belongs to an official government organization in the United States. Inclusion in an NLM data" source context "Artificial Intelligence agents for biological research: a survey - PMC" Reference image 2: vis
openai.com
Kerjasama besar antara Anthropic, NCBI, Broad Institute, dan Chan Zuckerberg Initiative (CZI) telah mendedahkan satu rahsia kotor sains dipacu AI: ejen AI paling berkuasa hari ini sangat tidak boleh dipercayai untuk tugasan semudah mengambil data jujukan DNA virus dari pangkalan data awam. Kajian yang diterbitkan pada Jun 2026 ini mendapati model seperti Claude Sonnet 4 mencapai ketepatan serendah 16.9% untuk kerja rutin ini. Namun, puncanya bukanlah kepintaran AI itu sendiri — tetapi sistem 'paip' datanya. Infrastruktur ini direka untuk manusia yang menekan butang di laman web, bukan untuk ejen autonomi. Dengan membina lapisan capaian tekal yang dipanggil gget virus, pasukan ini mencapai hampir 100% ketepatan serta-merta, membuktikan bahawa membaiki saluran paip data adalah laluan terpantas ke arah biologi AI yang boleh dipercayai .
Kenapa ejen AI gagal pada pangkalan data biologi
Laura Luebbert dan rakan-rakannya merangka isu ini dengan analogi yang ampuh: menggunakan ejen AI untuk melayari data biologi adalah seperti memandu kereta moden melalui bandar zaman pertengahan. Keretanya canggih dari segi teknikal, tetapi jalannya tidak pernah direka untuk itu .
Kerjasama ini menguji beberapa sistem AI terkemuka — Claude, model berasaskan GPT, Biomni Open Source, dan Edison Analysis — pada tugas yang kelihatan mudah: mendapatkan semula data jujukan virus dari NCBI Virus, sumber rujukan utama untuk ahli virologi yang mengesan wabak dan membangunkan diagnostik . Hasilnya amat membimbangkan.
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
What is the short answer to "Ejen AI Gagal Biologi Asas: Krisis Infrastruktur Data Saintifik Terbongkar"?
Kajian mercu tanda oleh Anthropic, NCBI, Broad Institute, dan Chan Zuckerberg Initiative mendapati model AI terbaik gagal teruk mendapatkan semula data jujukan virus, dengan ketepatan serendah 16.9%, kerana pangkalan...
What are the key points to validate first?
Kajian mercu tanda oleh Anthropic, NCBI, Broad Institute, dan Chan Zuckerberg Initiative mendapati model AI terbaik gagal teruk mendapatkan semula data jujukan virus, dengan ketepatan serendah 16.9%, kerana pangkalan... Masalah asasnya: infrastruktur data biologi tiada antara muka yang tekal dan boleh ulang (deterministik) — memaksa ejen AI meraba borang web yang tidak seragam dan menyebabkan pertanyaan yang sama boleh pulangkan 106,...
What should I do next in practice?
Implikasinya melangkaui virologi: pasukan penyelidik berpendapat lebih 30 pangkalan data NCBI perlu dibina semula untuk mesra ejen, dan CZI secara berasingan mendesak capaian data bersekutu berskala AI untuk memperkas...
Reka bentuk dahulukan manusia, prestasi ejen terabai
NCBI Virus dan banyak pangkalan data biologi awam lain dibina untuk aliran kerja interaktif berasaskan pelayar web. Ahli sains klik melalui penapis, periksa hasil secara manual, dan bergantung pada petunjuk visual. Logik antara muka ini tidak serasi dengan ejen autonomi yang menjangkakan arahan berstruktur dan boleh diprogramkan .
Hasil yang sangat tidak tekal (non-deterministic)
Penemuan paling membimbangkan adalah ketidakkonsistenan. Apabila penyelidik bertanya kepada Claude Sonnet 4 sebanyak tiga kali untuk mendapatkan jujukan Ebolavirus berbanding data rujukan yang disahkan sebanyak 266, ia mengembalikan 106 pada percubaan pertama, 15 pada percubaan kedua, dan hanya 5 pada percubaan ketiga. Tiada sebarang arahan ('prompt') diubah — cuma outputnya sahaja yang berubah .
Ini bukan sekadar tentang kehilangan beberapa rekod. Dalam satu simulasi, pengambilan data yang rosak telah menjejaskan analisis filogenetik dengan teruk sehingga ia menganggarkan asal-usul wabak Ebola adalah pada tahun 1922, berbanding tarikh sebenar 2014. AI tidak berhalusinasi tentang sains itu — ia telah diberi set data yang rosak dan dengan patuhnya membina kesimpulan palsu di atasnya .
Infrastruktur rapuh dan berpecah-belah
Data biologi bertaburan merentasi berpuluh-puluh pangkalan data dengan pengecam yang tidak serasi, piawaian metadata yang berbeza, dan tiada API (Antara Muka Pengaturcaraan Aplikasi) versi terkawal. Jurutera perisian bergantung pada pengurus pakej dan titik akhir berversi; ahli biologi pengiraan seringkali terpaksa membuat skrip untuk melawan antara muka web yang tidak konsisten yang berubah tanpa notis .
Pembetulan tekal (deterministic): gget virus
Daripada melatih model yang lebih baik, pasukan ini membina lapisan capaian yang lebih baik. gget virus adalah rangka kerja ringan dan tekal yang memformalkan logik penapisan NCBI Virus ke dalam sistem boleh program yang hasilnya boleh diulang .
Ia berfungsi dengan menggunakan kekangan metadata sebelum memuat turun jujukan, secara selektif hanya mengambil rekod GenBank berstruktur yang sepadan, dan mengurangkan pemindahan data lebih 98% untuk pertanyaan volum tinggi sambil mengekalkan semantik padanan tepat. Hasilnya adalah set data yang sama setiap kali — satu sifat yang sangat diperlukan oleh ejen AI tetapi tidak dapat disediakan oleh infrastruktur lama .
Impaknya amat mendadak dan ketara. Apabila sistem AI autonomi menggunakan gget virus sebagai capaian data belakang mereka:
Ketepatan melonjak kepada sekurang-kurangnya 90.0% untuk semua model yang diuji, dengan GPT-5.5 mencapai 99.7%.
Metrik kestabilan meningkat kepada 0.92–1.00 secara keseluruhan.
Magnitud ralat, terutamanya jenis bencana yang mengubah kesimpulan saintifik, runtuh dengan banyaknya .
Pengajarannya jelas: kekangan pengikat pada biologi dipacu AI bukanlah penaakulan model — ia adalah capaian data yang tekal. Tambah lapisan capaian yang betul, dan ejen hari ini sudah boleh melakukan kerja yang boleh dipercayai .
Memikirkan semula infrastruktur data biologi untuk era ejen
Kisah kejayaan gget virus adalah bukti konsep untuk anjakan yang lebih besar. Para penyelidik berpendapat corak ini tidak terhad kepada virologi — NCBI sahaja mempunyai lebih 30 pangkalan data yang akan mendapat manfaat daripada pembalut tekal (deterministic wrappers) yang serupa .
Dari berorientasikan manusia ke reka bentuk mesra ejen
Pangkalan data biologi mesti berubah untuk mendedahkan API yang didokumentasikan dengan baik, berversi, dengan penapisan piawai dan semantik pertanyaan yang boleh diulang. Ini adalah setara dengan apa yang diperoleh pembangun perisian daripada pengurus pakej dan sistem kawalan versi — infrastruktur kritikal yang kini tiada dalam sains biologi .
Desakan untuk data bersekutu berskala AI
Dalam usaha selari, Chan Zuckerberg Initiative menerbitkan pelan hala tuju yang menyeru set data biologi bersekutu dan saling kendali yang boleh dicapai melalui antara muka baris arahan dan piawaian boleh dibaca mesin. Visi mereka: dunia di mana saintis boleh mencari, menganalisis, dan memuat turun data pelbagai mod dalam satu pertanyaan bersekutu, membolehkan penemuan skala AI tanpa kegagalan capaian semasa .
CZI sudah pun bertindak ke atas perkara ini, membangunkan CLI (Antara Muka Baris Arahan) untuk capaian data bersekutu dan membina 'Billion Cells Project', set data sel tunggal mercu tanda yang bertujuan melatih model AI generasi akan datang. Matlamatnya adalah infrastruktur asas yang menjadikan data biologi semudah diakses oleh mesin seperti repositori kod kepada pembangun .
Pengajarannya bukan hanya terhad kepada biologi
Wawasan teras — bahawa antara muka warisan dahulukan manusia merosakkan ejen AI — adalah am untuk semua pengiraan saintifik. Lapisan capaian tekal dan boleh program bukanlah satu kemewahan; ia adalah prasyarat untuk membenarkan sistem autonomi mengambil bahagian dengan pasti dalam penyelidikan. Pembetulannya bukan menunggu model yang lebih pintar. Ia adalah menaik taraf 'jalan rayanya'.
arxiv.org[PDF] A path towards AI-scale, interoperable biological data - arXiv
Comments
0 comments