Avsløringen som ryster KI-bransjen: De smarteste modellene bommer totalt på enkle biologioppgaver
En fersk studie fra Anthropic, NCBI, Broad Institute og Chan Zuckerberg Initiative avslører at KI agenter som Claude Sonnet 4 kun oppnår en treffsikkerhet på 16,9 % når de skal hente virale gensekvenser. Inkonsekvensen er skremmende: På tre identiske forsøk på å hente ebolavirus sekvenser returnerte Claude henholdsv...
What do researchers from Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative reveal about why AI agents fail at retrievThe gap between AI and biology is not a failure of intelligence but of infrastructure — a lesson made clear by new research from Anthropic and leading scientific institutions.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What do researchers from Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative reveal about why AI agents fail at retriev. Article summary: In a collaboration between Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative (CZI), researchers demonstrated that state-of-the-art AI agents fail at retrieving biological data from public databases. Topic tags: general, government, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Artificial Intelligence agents for biological research: a survey. A **.gov** website belongs to an official government organization in the United States. Inclusion in an NLM data" source context "Artificial Intelligence agents for biological research: a survey - PMC" Reference image 2: vis
openai.com
En banebrytende studie fra Anthropic, NCBI, Broad Institute og Chan Zuckerberg Initiative (CZI) har avdekket en skitten hemmelighet ved KI-drevet vitenskap: Dagens mest avanserte KI-agenter er fullstendig upålitelige for en oppgave så grunnleggende som å hente virale DNA-sekvenser fra en offentlig database. Forskningsarbeidet, publisert i juni 2026, viste at modeller som Claude Sonnet 4 kun oppnådde 16,9 % nøyaktighet på denne rutinejobben. Men synderen er ikke selve KI-en – det er infrastrukturen. Databasene er designet for forskere som klikker seg gjennom nettskjemaer, ikke for autonome agenter. Ved å bygge et deterministisk hentelag kalt gget virus, oppnådde teamet nær 100 % nøyaktighet umiddelbart. Dette beviser at det raskeste veien til pålitelig KI-biologi går gjennom å fikse «rørene» .
Hvorfor KI-agenter feiler på biologiske databaser
Laura Luebbert og kollegene hennes beskrev problemet med en kraftfull analogi: Å bruke en KI-agent til å navigere i biologiske data er som å kjøre en moderne bil gjennom en middelalderby. Bilen er teknisk sofistikert, men veiene ble aldri designet for den .
Samarbeidet testet flere ledende KI-systemer – Claude, GPT-baserte modeller, Biomni Open Source og Edison Analysis – på den tilsynelatende enkle oppgaven med å hente sekvensdata for virus fra NCBI Virus. Dette er en uvurderlig ressurs for virologer som sporer utbrudd og utvikler diagnostiske verktøy . Resultatene var skremmende lesning.
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
What is the short answer to "Avsløringen som ryster KI-bransjen: De smarteste modellene bommer totalt på enkle biologioppgaver"?
En fersk studie fra Anthropic, NCBI, Broad Institute og Chan Zuckerberg Initiative avslører at KI agenter som Claude Sonnet 4 kun oppnår en treffsikkerhet på 16,9 % når de skal hente virale gensekvenser.
What are the key points to validate first?
En fersk studie fra Anthropic, NCBI, Broad Institute og Chan Zuckerberg Initiative avslører at KI agenter som Claude Sonnet 4 kun oppnår en treffsikkerhet på 16,9 % når de skal hente virale gensekvenser. Inkonsekvensen er skremmende: På tre identiske forsøk på å hente ebolavirus sekvenser returnerte Claude henholdsvis 106, 15 og 5 treff – av totalt 266 forventede.
What should I do next in practice?
Løsningen var ikke å trene en smartere modell, men å bygge et deterministisk hentelag kalt «gget virus».
NCBI Virus, og mange andre offentlige biologiske databaser, ble bygget for en interaktiv, nettleserbasert arbeidsflyt. Forskere klikker på filtre, inspiserer resultater manuelt og støtter seg på visuelle ledetråder. Denne logikken er fullstendig inkompatibel med autonome agenter som forventer strukturerte, programmerbare kommandoer .
Radikal mangel på reproduserbarhet
Det mest graverende funnet var inkonsistensen. Da forskerne ba Claude Sonnet 4 tre ganger om å hente ebolavirus-sekvenser mot et verifisert fasitsvar på 266, returnerte modellen 106 treff på første forsøk, 15 på andre, og bare 5 på tredje. Ingen av spørsmålsstillingene ble endret – bare resultatet ble det .
Dette handler ikke bare om å gå glipp av noen få oppføringer. I én simulering forvridde en feilaktig datasamling en fylogenetisk analyse så kraftig at den estimerte opprinnelsen til et ebolautbrudd til 1922, i stedet for den korrekte datoen i 2014. KI-en hadde ikke hallusinert selve vitenskapen – den hadde blitt matet med et ødelagt datasett, og pliktoppfyllende bygget en falsk konklusjon på toppen av det .
Skjør og fragmentert infrastruktur
Biologiske data er spredt over dusinvis av databaser med inkompatible identifikatorer, ulike metadatastandarder og ingen versjonskontrollerte API-er. Programvareutviklere støtter seg på pakkeforvaltere og versjonerte endepunkter; beregningsbiologer er ofte tvunget til å skripte mot inkonsistente webgrensesnitt som endres uten forvarsel .
Den deterministiske løsningen: gget virus
I stedet for å trene en bedre modell, bygde teamet et bedre hentelag. gget virus er et lettvekts, deterministisk rammeverk som støper filtreringslogikken til NCBI Virus om til et reproduserbart, programmerbart system .
Verktøyet fungerer ved å håndheve metadatabegrensninger før sekvenser lastes ned, og så selektivt hente kun de strukturerte GenBank-oppføringene som samsvarer. Dette reduserer dataoverføringen med over 98 % for store spørringer, samtidig som det bevarer en eksakt treffsemantikk. Resultatet er nøyaktig samme datasett hver gang – en egenskap KI-agenter sårt trenger, men som den gamle infrastrukturen ikke kunne levere .
Effekten var umiddelbar og dramatisk. Da autonome KI-systemer brukte gget virus som sin bakende for datasettbygging:
Nøyaktigheten hoppet til minst 90,0 % for alle testede modeller, med GPT-5.5 på forbløffende 99,7 %.
Stabilitetsmålinger steg til 0,92–1,00 over hele linjen.
Feilmarginen, spesielt den katastrofale typen som forskyver vitenskapelige konklusjoner, kollapset .
Konklusjonen er entydig: Den begrensende faktoren for KI-drevet biologi er ikke modellenes resonneringsevne – det er deterministisk datatilgang. Legg til riktig hentelag, og dagens agenter kan allerede levere pålitelig arbeid .
En nytenkning av biologisk datainfrastruktur for agent-tidsalderen
Suksessen med gget virus er et prinsippbevis for et mye større skifte. Forskerne argumenterer for at dette mønsteret ikke er begrenset til virologi – NCBI alene er vert for over 30 databaser som ville dra nytte av lignende deterministiske innpakninger .
Fra menneskeorientert til agent-tilpasset design
Biologiske databaser må utvikle seg til å eksponere veldokumenterte, versjonerte API-er med standardisert filtrering og reproduserbar spørresemantikk. Dette tilsvarer det programvareutviklere får fra pakkeforvaltere og versjonskontrollsystemer – kritisk infrastruktur som biologisk vitenskap i dag mangler .
Fremstøtet for forente, KI-skalerte data
I en parallell innsats publiserte Chan Zuckerberg Initiative et veikart som etterlyser interoperable, sammenslåtte biologiske datasett som kan spørres via kommandolinjegrensesnitt og maskinlesbare standarder. Deres visjon er en verden der forskere kan søke, analysere og laste ned multimodale data i én enkelt, forent spørring, og dermed muliggjøre KI-skalert oppdagelse uten dagens hentekaos .
CZI handler allerede på denne visjonen. De utvikler et kommandolinjeverktøy for forent datatilgang og bygger «Billion Cells Project» – et banebrytende enkeltcelle-datasett på en milliard celler, ment for å trene neste generasjons KI-modeller. Målet er en grunnleggende infrastruktur som gjør biologiske data like tilgjengelige for maskiner som kodelagre er for utviklere .
Lærdommen er ikke begrenset til biologi
Kjerneinnsikten – at arvede, menneskeførste grensesnitt ødelegger for KI-agenter – gjelder på tvers av all beregningsvitenskap. Deterministiske, programmerbare tilgangslag er ikke en luksus; de er en forutsetning for å la autonome systemer delta pålitelig i forskning. Løsningen er ikke å vente på en smartere modell. Det er å oppgradere veiene.
arxiv.org[PDF] A path towards AI-scale, interoperable biological data - arXiv
Comments
0 comments