NCBI Virus и многие другие публичные биологические базы данных создавались для интерактивной работы в браузере. Ученые кликают по фильтрам, вручную проверяют результаты и полагаются на визуальные подсказки. Эта логика интерфейса абсолютно несовместима с автономными агентами, ожидающими структурированные, программные команды .
Самым убийственным открытием стала нестабильность. Исследователи трижды задали Claude Sonnet 4 запрос на поиск последовательностей вируса Эбола. При проверенном «золотом стандарте» в 266 последовательностей, модель выдала 106 при первой попытке, 15 — при второй и всего 5 — в третий раз. Промпты не менялись. Менялся только ответ .
И речь не просто о потери нескольких записей. В одном из симуляционных тестов ошибочная выдача так сильно исказила филогенетический анализ, что тот определил дату возникновения вспышки Эболы как 1922 год, хотя на самом деле она произошла в 2014-м. ИИ не «галлюцинировал» в научных выводах. Ему скормили «битый» набор данных, и он просто построил на его основе ложные умозаключения .
Биологические данные разбросаны по десяткам баз с несовместимыми идентификаторами, разными стандартами метаданных и без версионированных API. Инженеры-программисты привыкли к менеджерам пакетов и версионированным конечным точкам. Вычислительные биологи же часто вынуждены писать скрипты в расчете на непоследовательные веб-интерфейсы, которые меняются без предупреждения .
Вместо того чтобы тренировать более совершенную модель, команда построила улучшенный слой для извлечения данных. gget virus — это легковесная, детерминированная инфраструктура, которая переводит логику фильтрации NCBI Virus в воспроизводимую программную систему .
Принцип работы прост и надежен: он накладывает ограничения по метаданным до загрузки последовательностей, выборочно извлекает только структурированные записи GenBank, подходящие под условия, и сокращает объем передаваемых данных более чем на 98% при больших запросах. И при этом всегда гарантирует точное совпадение с критериями поиска. Результат — один и тот же набор данных при каждом запросе. Это именно то, в чем отчаянно нуждаются ИИ-агенты, но чего не могла дать старая инфраструктура .
Эффект оказался мгновенным и ошеломляющим. Когда автономные ИИ-системы начали использовать gget virus в качестве бэкенда для поиска:
Вывод однозначен: главное «бутылочное горлышко» для ИИ в биологии — не способность моделей рассуждать, а отсутствие детерминированного доступа к данным. Добавьте подходящий слой для получения информации, и современные агенты уже сейчас способны надежно работать .
Успех с gget virus — это всего лишь доказательство концепции для гораздо более масштабного сдвига. Исследователи утверждают, что эта закономерность касается не только вирусологии. Один только NCBI насчитывает более 30 баз данных, которым не помешали бы подобные детерминированные «обертки» .
Биологические базы данных обязаны эволюционировать. Им нужны хорошо задокументированные, версионированные API со стандартизированной фильтрацией и воспроизводимой семантикой запросов. Это аналог того, что разработчики ПО получают от менеджеров пакетов и систем контроля версий — критически важной инфраструктуры, которую биологическая наука пока не имеет .
Параллельно Инициатива Чана Цукерберга опубликовала дорожную карту с призывом к созданию интероперабельных, объединенных биологических датасетов, доступных для запросов через командную строку и машиночитаемые стандарты. Их видение: мир, в котором ученые могли бы искать, анализировать и загружать мультимодальные данные одним федеративным запросом, открывая путь для открытий в масштабах ИИ, но без нынешнего хаоса в добыче данных .
CZI уже действует: разрабатывает CLI для федеративного доступа к данным и запускает Проект «Миллиард клеток» (Billion Cells Project) — эпохальный набор данных об отдельных клетках, предназначенный для обучения ИИ-моделей следующего поколения. Цель — фундаментальная инфраструктура, которая сделает биологические данные такими же доступными для машин, как репозитории кода для разработчиков .
Ключевой вывод — устаревшие интерфейсы «сначала для человека» ломают ИИ-агентов — универсален для всех вычислительных наук. Детерминированные, программные слои доступа — это не роскошь, а обязательное условие для того, чтобы допустить автономные системы к надежному участию в исследованиях. Лекарство от проблемы — не в ожидании более умной модели. Лекарство — в модернизации дорог.
Comments
0 comments