AI-agenter fejler i basal biologi: Datainfrastrukturen er problemet
Et skelsættende studie fra Anthropic, NCBI, Broad Institute og Chan Zuckerberg Initiative fandt, at top AI modeller fejler katastrofalt ved hentning af virale sekvensdata, med en nøjagtighed helt nede på 16,9%, fordi... Det underliggende problem er, at biologisk datainfrastruktur mangler deterministiske, reproducerb...
What do researchers from Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative reveal about why AI agents fail at retrievThe gap between AI and biology is not a failure of intelligence but of infrastructure — a lesson made clear by new research from Anthropic and leading scientific institutions.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What do researchers from Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative reveal about why AI agents fail at retriev. Article summary: In a collaboration between Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative (CZI), researchers demonstrated that state-of-the-art AI agents fail at retrieving biological data from public databases. Topic tags: general, government, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Artificial Intelligence agents for biological research: a survey. A **.gov** website belongs to an official government organization in the United States. Inclusion in an NLM data" source context "Artificial Intelligence agents for biological research: a survey - PMC" Reference image 2: vis
openai.com
Et banebrydende samarbejde mellem Anthropic, NCBI, Broad Institute og Chan Zuckerberg Initiative (CZI) har afsløret en beskidt hemmelighed ved AI-drevet videnskab: nutidens mest kraftfulde AI-agenter er fuldstændig upålidelige til en opgave så simpel som at hente virale DNA-sekvenser fra en offentlig database. Forskningen, offentliggjort i juni 2026, viste, at modeller som Claude Sonnet 4 opnåede en sølle nøjagtighed på 16,9% ved denne rutineopgave. Men synderen er ikke AI'ens intelligens – det er infrastrukturen. Databaserne er designet til mennesker, der klikker sig gennem webformularer, ikke autonome agenter. Ved at bygge et deterministisk hentningslag kaldet gget virus opnåede holdet næsten 100% nøjagtighed øjeblikkeligt, hvilket beviser, at reparation af datarørene er den hurtigste vej til troværdig AI-biologi .
Hvorfor AI-agenter fejler på biologiske databaser
Laura Luebbert og hendes kolleger indrammede problemet med en stærk analogi: at bruge en AI-agent til at navigere i biologiske data er som at køre en moderne bil gennem en middelalderby. Bilen er teknisk avanceret, men vejene blev aldrig designet til den .
Samarbejdet testede flere førende AI-systemer – Claude, GPT-baserede modeller, Biomni Open Source og Edison Analysis – på den tilsyneladende ligefremme opgave at hente virale sekvensdata fra NCBI Virus, en go-to ressource for virologer, der sporer udbrud og udvikler diagnostik . Resultaterne var alarmerende.
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
What is the short answer to "AI-agenter fejler i basal biologi: Datainfrastrukturen er problemet"?
Et skelsættende studie fra Anthropic, NCBI, Broad Institute og Chan Zuckerberg Initiative fandt, at top AI modeller fejler katastrofalt ved hentning af virale sekvensdata, med en nøjagtighed helt nede på 16,9%, fordi...
What are the key points to validate first?
Et skelsættende studie fra Anthropic, NCBI, Broad Institute og Chan Zuckerberg Initiative fandt, at top AI modeller fejler katastrofalt ved hentning af virale sekvensdata, med en nøjagtighed helt nede på 16,9%, fordi... Det underliggende problem er, at biologisk datainfrastruktur mangler deterministiske, reproducerbare grænseflader – hvilket tvinger AI agenter til at navigere i ustabile webformularer og får den samme forespørgsel til...
What should I do next in practice?
Implikationerne rækker langt ud over virus: teamet argumenterer for, at NCBIs over 30 databaser kræver agent native ombygninger, og CZI presser separat på for fødereret datainfrastruktur i AI skala for at drive næste...
NCBI Virus og mange andre offentlige biologiske databaser blev bygget til interaktive, browserbaserede arbejdsgange. Forskere klikker gennem filtre, inspicerer resultater manuelt og stoler på visuelle cues. Denne grænsefladelogik er uforenelig med autonome agenter, der forventer strukturerede, programmerbare kommandoer .
Radikalt ikke-deterministiske resultater
Det mest fordømmende fund var inkonsistensen. Da forskerne bad Claude Sonnet 4 tre gange om at hente Ebolavirus-sekvenser mod en verificeret "ground truth" på 266, returnerede den 106 i første forsøg, 15 i andet og kun 5 i tredje. Ingen prompts blev ændret – kun outputtet gjorde .
Dette handler ikke kun om at mangle et par poster. I en simulation forvrængede en fejlbehæftet hentning en fylogenetisk analyse så alvorligt, at den estimerede oprindelsen af et Ebola-udbrud til 1922 i stedet for den korrekte dato i 2014. AI'en havde ikke hallucineret videnskaben – den var blevet fodret med et ødelagt datasæt og byggede pligtskyldigt en falsk konklusion oven på det .
Skrøbelig, fragmenteret infrastruktur
Biologiske data er spredt over snesevis af databaser med inkompatible identifikatorer, forskellige metadatastandarder og ingen versionskontrollerede API'er. Softwareingeniører stoler på pakkeadministratorer og versionerede endepunkter; computerbiologer er ofte tvunget til at scripte mod inkonsistente webgrænseflader, der ændrer sig uden varsel .
Den deterministiske løsning: gget virus
I stedet for at træne en bedre model, byggede holdet et bedre hentningslag. gget virus er en letvægts, deterministisk ramme, der formaliserer filtreringslogikken i NCBI Virus til et reproducerbart, programmerbart system .
Det fungerer ved at anvende metadatabegrænsninger før sekvensdownload, selektivt hente kun de strukturerede GenBank-poster, der matcher, og reducere dataoverførslen med over 98% for højvolumenforespørgsler, samtidig med at eksakt match-semantik bevares. Resultatet er det samme datasæt hver gang – en egenskab, som AI-agenter desperat har brug for, men som den gamle infrastruktur ikke kunne levere .
Effekten var øjeblikkelig og dramatisk. Da autonome AI-systemer brugte gget virus som deres hentningsbackend:
Steg nøjagtigheden til mindst 90,0% for alle testede modeller, med GPT-5.5 på 99,7%.
Stabilitetsmålinger steg til 0,92–1,00 over hele linjen.
Fejlstørrelsen, især den katastrofale slags, der ændrer videnskabelige konklusioner, kollapsede .
Konklusionen er entydig: den bindende begrænsning for AI-drevet biologi er ikke modellens evne til at ræsonnere – det er deterministisk dataadgang. Tilføj det rigtige hentningslag, og nutidens agenter kan allerede udføre pålideligt arbejde .
Genovervej biologisk datainfrastruktur til agent-æraen
Succeshistorien med gget virus er et proof of concept for et meget større skifte. Forskerne argumenterer for, at dette mønster ikke er begrænset til virologi – NCBI alene hoster over 30 databaser, der ville drage fordel af lignende deterministiske "wrappers" .
Fra menneskeorienteret til agent-native design
Biologiske databaser må udvikle sig til at eksponere veldokumenterede, versionerede API'er med standardiseret filtrering og reproducerbar forespørgselssemantik. Dette svarer til, hvad softwareudviklere får fra pakkeadministratorer og versionskontrolsystemer – kritisk infrastruktur, som biologisk videnskab i øjeblikket mangler .
Fremstødet for fødererede data i AI-skala
I en parallel indsats offentliggjorde Chan Zuckerberg Initiative en køreplan, der opfordrer til interoperable, samlede biologiske datasæt, der kan forespørges via kommandolinjegrænseflader og maskinlæsbare standarder. Deres vision: en verden, hvor forskere kan søge, analysere og downloade multimodale data i en enkelt fødereret forespørgsel, hvilket muliggør AI-skala opdagelse uden det nuværende hentningskaos .
CZI handler allerede på dette og udvikler en CLI til fødereret dataadgang og bygger Billion Cells Project, et skelsættende enkeltcelle-datasæt beregnet til at træne næste generations AI-modeller. Målet er grundlæggende infrastruktur, der gør biologiske data lige så tilgængelige for maskiner, som kodearkiver er for udviklere .
Lektionen er ikke begrænset til biologi
Kerneindsigten – at forældede, menneske-først grænseflader ødelægger AI-agenter – er universel inden for videnskabelig databehandling. Deterministiske, programmerbare adgangslag er ikke en luksus; de er en forudsætning for at lade autonome systemer deltage pålideligt i forskning. Løsningen er ikke at vente på en smartere model. Det er at opgradere vejene.
arxiv.org[PDF] A path towards AI-scale, interoperable biological data - arXiv
Comments
0 comments