가장 큰 문제는 일관성의 부재였다. 연구진이 클로드 소네트 4에게 266개의 검증된 에볼라 바이러스 서열을 검색하도록 동일한 작업을 세 번 요청했을 때, 아무런 프롬프트 변화 없이도 첫 번째 시도에서는 106개, 두 번째는 15개, 세 번째 시도에서는 단 5개를 반환했다 .
이는 단순히 몇 개의 기록을 놓치는 문제가 아니다. 한 시뮬레이션에서는 결함 있는 검색이 계통발생학적 분석을 심각하게 왜곡하여, 에볼라 발병의 기원을 실제인 2014년이 아닌 1922년으로 추정하게 만들었다. AI가 과학적 환각을 일으킨 것이 아니라, 깨진 데이터 세트를 먹고 그 위에 충실하게 잘못된 결론을 세운 것이다 .
생물학 데이터는 수십 개의 데이터베이스에 흩어져 있으며, 서로 호환되지 않는 식별자, 상이한 메타데이터 표준, 버전 관리가 되지 않는 API로 가득 차 있다. 소프트웨어 엔지니어가 패키지 관리자와 버전 관리된 엔드포인트에 의존하는 반면, 컴퓨터 생물학자들은 예고 없이 변하는 일관성 없는 웹 인터페이스에 맞서 스크립트를 짜는 데 어려움을 겪고 있다 .
연구팀은 더 나은 모델을 훈련시키는 대신, 더 나은 검색 레이어를 구축했다. gget virus는 NCBI Virus의 필터링 로직을 재현 가능한 프로그래밍적 시스템으로 정형화한 가볍고 결정론적인 프레임워크다 .
이는 서열을 다운로드하기 전에 메타데이터 제약 조건을 적용하고, 일치하는 구조화된 GenBank 기록만을 선택적으로 가져옴으로써, 대용량 쿼리에서도 데이터 전송량을 98% 이상 줄이면서 정확한 일치 의미를 보존하는 방식으로 작동한다. 그 결과, 매번 동일한 데이터 세트가 생성된다. 이는 AI 에이전트가 절실히 필요로 하지만 구형 인프라가 제공하지 못했던 속성이다 .
그 영향은 즉각적이고 극적이었다. 자율 AI 시스템이 gget virus를 검색 백엔드로 사용했을 때:
이 교훈은 명백하다. AI가 이끄는 생물학의 진정한 장애물은 모델의 추론 능력이 아니라 결정론적 데이터 접근이다. 올바른 검색 레이어만 추가하면, 오늘날의 에이전트로도 이미 신뢰할 수 있는 작업을 수행할 수 있다 .
gget virus의 성공 사례는 훨씬 더 큰 전환을 위한 개념 증명이다. 연구진은 이러한 패턴이 바이러스학에만 국한된 것이 아니라고 주장한다. NCBI만 해도 유사한 결정론적 래퍼(wrapper)의 혜택을 볼 수 있는 데이터베이스가 30개 이상이다 .
생물학 데이터베이스는 잘 문서화되고 버전 관리가 되며 표준화된 필터링과 재현 가능한 쿼리 의미를 가진 API를 제공하도록 진화해야 한다. 이는 소프트웨어 개발자가 패키지 관리자와 버전 관리 시스템에서 얻는 것과 동등한 수준으로, 현재 생물학 과학에는 부재한 핵심 인프라다 .
이와 별도로, Chan Zuckerberg Initiative(CZI)는 상호 운용 가능하고 통합된 생물학 데이터 세트가 명령줄 인터페이스와 기계 판독 가능 표준을 통해 조회될 수 있어야 한다는 로드맵을 발표했다. 그들의 비전은 과학자들이 한 번의 연합 쿼리로 여러 모달리티의 데이터를 검색, 분석, 다운로드하여 현재의 검색 혼란 없이 AI 규모의 발견을 가능하게 하는 세상이다 .
CZI는 이미 실행에 옮겨, 연합 데이터 접근을 위한 CLI(명령줄 인터페이스)를 개발하고 차세대 AI 모델 훈련을 위한 획기적인 단일 세포 데이터 세트인 '10억 세포 프로젝트(Billion Cells Project)'를 구축하고 있다. 목표는 생물학 데이터를 개발자에게 코드 저장소가 그러하듯 기계가 자유롭게 접근할 수 있는 기반 인프라로 만드는 것이다 .
낡은 인간 우선 인터페이스가 AI 에이전트를 무력화한다는 핵심 통찰은 과학 컴퓨팅 전반으로 일반화된다. 결정론적이고 프로그래밍적인 접근 계층은 사치가 아니라, 자율 시스템이 연구에 안정적으로 참여하기 위한 전제 조건이다. 해결책은 더 똑똑한 모델을 기다리는 것이 아니라, 낡은 도로를 현대화하는 것이다.
Comments
0 comments