NCBI Virus та багато інших публічних біологічних баз даних створювалися для інтерактивної роботи через браузер. Науковці натискають на фільтри, вручну перевіряють результати та покладаються на візуальні підказки. Ця логіка інтерфейсу несумісна з автономними агентами, які очікують структурованих програмних команд .
Найбільш нищівним відкриттям стала непослідовність. Коли дослідники тричі попросили Claude Sonnet 4 отримати послідовності вірусу Ебола (при перевіреній кількості в 266), він повернув 106 з першої спроби, 15 — з другої і лише 5 — з третьої. Підказки не змінювалися — змінювався лише результат .
І річ не просто в кількох пропущених записах. В одній симуляції помилковий пошук настільки спотворив філогенетичний аналіз, що він оцінив походження спалаху Еболи 1922 роком замість правильного 2014-го. ШІ не галюцинував — йому «згодували» зламаний набір даних, і він сумлінно побудував на його основі хибний висновок .
Біологічні дані розкидані десятками баз із несумісними ідентифікаторами, різними стандартами метаданих та відсутністю API з контролем версій. Програмісти користуються пакетними менеджерами та версійними кінцевими точками; обчислювальні біологи часто змушені писати скрипти для непослідовних вебінтерфейсів, які змінюються без попередження .
Замість того, щоб тренувати кращу модель, команда створила кращий рівень пошуку. gget virus — це легкий, детермінований фреймворк, який формалізує логіку фільтрації NCBI Virus у відтворювану програмну систему .
Він працює так: застосовує обмеження за метаданими перед завантаженням послідовностей, вибірково отримує лише структуровані записи GenBank, які відповідають критеріям, та зменшує обсяг передачі даних більш ніж на 98% для великих запитів, зберігаючи при цьому точну семантику збігу. Результат — той самий набір даних щоразу; це саме те, чого відчайдушно потребують ШІ-агенти, але чого не могла забезпечити стара інфраструктура .
Вплив був миттєвим і вражаючим. Коли автономні ШІ-системи використовували gget virus як пошуковий бекенд:
Висновок однозначний: головне обмеження для ШІ в біології — це не здатність моделі до міркувань, а детермінований доступ до даних. Додайте правильний рівень пошуку — і сьогоднішні агенти вже можуть надійно працювати .
Історія успіху gget virus — це доказ концепції для набагато більших змін. Дослідники стверджують, що ця закономірність не обмежується лише вірусологією — лише NCBI має понад 30 баз даних, які б виграли від подібних детермінованих обгорток .
Біологічні бази даних мають еволюціонувати, щоб надавати добре задокументовані, версійні API зі стандартизованою фільтрацією та відтворюваною семантикою запитів. Це еквівалент того, що розробники програмного забезпечення отримують від пакетних менеджерів та систем контролю версій — критична інфраструктура, якої біологічній науці наразі бракує .
У паралельних зусиллях Chan Zuckerberg Initiative опублікувала дорожню карту із закликом до створення сумісних, об’єднаних наборів біологічних даних, до яких можна звертатися через інтерфейси командного рядка та машиночитні стандарти. Їхнє бачення: світ, де науковці можуть шукати, аналізувати та завантажувати мультимодальні дані одним об’єднаним запитом, уможливлюючи відкриття масштабу ШІ без теперішнього хаосу з пошуком .
CZI вже діє, розробляючи CLI для об’єднаного доступу до даних та будуючи Billion Cells Project — знаковий набір даних окремих клітин, призначений для тренування ШІ-моделей наступного покоління. Мета — фундаментальна інфраструктура, яка робить біологічні дані такими ж доступними для машин, як репозиторії коду для розробників .
Основна думка — що застарілі інтерфейси, орієнтовані на людину, ламають ШІ-агентів — узагальнюється для всіх наукових обчислень. Детерміновані, програмні рівні доступу — це не розкіш, а передумова для того, щоб автономні системи могли надійно брати участь у дослідженнях. Виправлення не в очікуванні розумнішої моделі. Воно в модернізації доріг.
Comments
0 comments