AI-agenter kraschar mot biologins grundforskning: Därför är databaserna den verkliga flaskhalsen
En studie från Anthropic, NCBI, Broad Institute och Chan Zuckerberg Initiative visar att ledande AI modeller misslyckas katastrofalt med att hämta virusssekvensdata, med en träffsäkerhet på endast 16,9 %, eftersom de... Problemet är att den biologiska datainfrastrukturen saknar deterministiska gränssnitt, vilket får...
What do researchers from Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative reveal about why AI agents fail at retrievThe gap between AI and biology is not a failure of intelligence but of infrastructure — a lesson made clear by new research from Anthropic and leading scientific institutions.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What do researchers from Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative reveal about why AI agents fail at retriev. Article summary: In a collaboration between Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative (CZI), researchers demonstrated that state-of-the-art AI agents fail at retrieving biological data from public databases. Topic tags: general, government, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Artificial Intelligence agents for biological research: a survey. A **.gov** website belongs to an official government organization in the United States. Inclusion in an NLM data" source context "Artificial Intelligence agents for biological research: a survey - PMC" Reference image 2: vis
openai.com
Ett banbrytande samarbete mellan Anthropic, NCBI, Broad Institute och Chan Zuckerberg Initiative (CZI) har blottlagt en skamlig hemlighet inom AI-driven vetenskap: dagens mest kraftfulla AI-agenter är totalt opålitliga för en så enkel uppgift som att hämta virala DNA-sekvenser från en offentlig databas. Studien, publicerad i juni 2026, fann att modeller som Claude Sonnet 4 uppnådde en träffsäkerhet på så lite som 16,9 % för denna rutinuppgift. Men boven i dramat är inte AI:ns bristande intelligens – det är infrastrukturen. Databaserna byggdes för människor som klickar sig fram i webformulär, inte för autonoma agenter. Genom att bygga ett deterministiskt lager kallat gget virus kunde teamet uppnå nästan 100 % träffsäkerhet direkt, vilket bevisar att den snabbaste vägen till pålitlig AI-biologi går via bättre datarör .
Därför kraschar AI-agenter mot biologiska databaser
Laura Luebbert och hennes kollegor illustrerade problemet med en kraftfull liknelse: att använda en AI-agent för att navigera i biologisk data är som att köra en modern bil genom en medeltida stadskärna. Bilen är tekniskt avancerad, men vägarna designades aldrig för den .
Samarbetet testade flera ledande AI-system – Claude, GPT-baserade modeller, Biomni Open Source och Edison Analysis – på den till synes enkla uppgiften att hämta virussekvensdata från NCBI Virus, en central resurs för virologer som spårar utbrott och utvecklar diagnostik . Resultaten var alarmerande.
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
What is the short answer to "AI-agenter kraschar mot biologins grundforskning: Därför är databaserna den verkliga flaskhalsen"?
En studie från Anthropic, NCBI, Broad Institute och Chan Zuckerberg Initiative visar att ledande AI modeller misslyckas katastrofalt med att hämta virusssekvensdata, med en träffsäkerhet på endast 16,9 %, eftersom de...
What are the key points to validate first?
En studie från Anthropic, NCBI, Broad Institute och Chan Zuckerberg Initiative visar att ledande AI modeller misslyckas katastrofalt med att hämta virusssekvensdata, med en träffsäkerhet på endast 16,9 %, eftersom de... Problemet är att den biologiska datainfrastrukturen saknar deterministiska gränssnitt, vilket får AI agenter att returnera 106, 15 eller 5 resultat på exakt samma fråga.
What should I do next in practice?
Implikationerna sträcker sig bortom virologi: forskarna argumenterar för att NCBI:s alla 30+ databaser behöver agent anpassas, och CZI driver en parallell vision om federerad data för att driva nästa generations AI ba...
NCBI Virus och många andra offentliga biologiska databaser byggdes för interaktiva, webbläsarbaserade arbetsflöden. Forskare klickar sig igenom filter, inspekterar resultat manuellt och förlitar sig på visuella ledtrådar. Denna gränssnittslogik är oförenlig med autonoma agenter som förväntar sig strukturerade, programmerbara kommandon .
Radikalt icke-deterministiska resultat
Det mest fördömande fyndet var inkonsekvensen. När forskarna bad Claude Sonnet 4 tre gånger om att hämta Ebola-sekvenser mot en verifierad referensdatamängd på 266 poster, returnerade modellen 106 vid första försöket, 15 vid andra och endast 5 vid tredje. Inga instruktioner ändrades – bara resultatet .
Det handlar inte bara om att missa några poster. I en simulering förvrängde en felaktig hämtning en fylogenetisk analys så allvarligt att den uppskattade ursprunget för ett ebolautbrott till 1922 istället för det korrekta året 2014. AI:n hade inte hallucinerat fram vetenskapen – den hade matats med en trasig datamängd och byggde plikttroget en falsk slutsats ovanpå den .
Bräcklig, fragmenterad infrastruktur
Biologisk data är utspridd över dussintals databaser med inkompatibla identitetsbeteckningar, olika metadatastandarder och utan versionshanterade API:er. Mjukvaruingenjörer förlitar sig på pakethanterare och versionskontroll; beräkningsbiologer tvingas ofta skriva skript mot inkonsekventa webbgränssnitt som ändras utan förvarning .
Den deterministiska lösningen: gget virus
Istället för att träna en bättre modell byggde teamet ett bättre hämtningslager. gget virus är ett lättviktigt, deterministiskt ramverk som formaliserar filtreringslogiken från NCBI Virus till ett reproducerbart, programmeringsbart system .
Det fungerar genom att applicera metadatabegränsningar innan sekvenser laddas ner, selektivt hämta endast de strukturerade GenBank-poster som matchar, och minska dataöverföringen med över 98 % för högvolymsfrågor samtidigt som exakta matchningar bevaras. Resultatet är samma datamängd varje gång – en egenskap som AI-agenter desperat behöver men som den gamla infrastrukturen inte kunde leverera .
Effekten var omedelbar och dramatisk. När autonoma AI-system använde gget virus som backend för hämtning:
Steg träffsäkerheten till minst 90,0 % för alla testade modeller, där GPT-5.5 nådde 99,7 %.
Stabilitetsmåtten steg till 0,92–1,00 över hela linjen.
Felmagnituden, särskilt den katastrofala sorten som förskjuter vetenskapliga slutsatser, kollapsade .
Slutsatsen är entydig: den bindande begränsningen för AI-driven biologi är inte modellernas slutledningsförmåga – det är deterministisk dataåtkomst. Lägg till rätt hämtningslager, så kan dagens agenter redan utföra tillförlitligt arbete .
Omforma biologins datainfrastruktur för agenternas tidevarv
Framgången med gget virus är ett proof of concept för ett mycket större skifte. Forskarna hävdar att detta mönster inte är begränsat till virologi – enbart NCBI har över 30 databaser som skulle gynnas av liknande deterministiska omtag .
Från människo-orienterad till agent-anpassad design
Biologiska databaser måste utvecklas för att exponera väldokumenterade, versionshanterade API:er med standardiserad filtrering och reproducerbar frågesemantik. Detta är ekvivalenten till vad mjukvaruutvecklare får från pakethanterare och versionskontrollsystem – kritisk infrastruktur som biologisk vetenskap för närvarande saknar .
Kraftsamlingen för federerad, AI-skalbar data
I en parallell insats publicerade Chan Zuckerberg Initiative en färdplan som efterlyser interoperabla, poolade biologiska datamängder som kan nås via kommandoradsgränssnitt och maskinläsbara standarder. Deras vision: en värld där forskare kan söka, analysera och ladda ner multi-modala data i en enda federerad fråga, vilket möjliggör AI-skaliga upptäckter utan dagens hämtningskaos .
CZI agerar redan på detta, utvecklar ett CLI för federerad dataåtkomst och bygger Billion Cells Project, en milstolpe-datamängd med encellsdata avsedd att träna nästa generations AI-modeller. Målet är en grundläggande infrastruktur som gör biologisk data lika tillgänglig för maskiner som kodarkiv är för utvecklare .
Lärdomen är inte begränsad till biologi
Kärninsikten – att föråldrade, människo-först-gränssnitt knäcker AI-agenter – generaliserar över hela beräkningsvetenskapen. Deterministiska, programmerbara åtkomstlager är inte en lyx; de är en förutsättning för att låta autonoma system delta pålitligt i forskningen. Lösningen är inte att vänta på en smartare modell. Det är att rusta upp vägarna.
arxiv.org[PDF] A path towards AI-scale, interoperable biological data - arXiv
Comments
0 comments