NCBI Virus 和许多其他公共生物数据库是为交互式、基于浏览器的操作流程构建的。科学家们通过点击筛选、手动检查结果并依赖视觉提示来完成工作。这种界面逻辑与期望结构化、程序化命令的自主智能体完全不兼容。
最致命的发现是不一致性。当研究人员让 Claude Sonnet 4 重复三次检索埃博拉病毒序列(经过验证的准确结果应为 266 条)时,它第一次返回了 106 条,第二次 15 条,第三次仅剩 5 条。提示词没有任何改变——变的只有输出结果。
这不仅仅是遗漏几条记录那么简单。在一次模拟中,一个错误的检索严重扭曲了系统发育分析,导致它估算出的埃博拉疫情起源时间为 1922 年,而非正确的 2014 年。AI 并未在科学上产生“幻觉”——它只是被灌输了损坏的数据集,然后忠实地在其之上构建了一个错误的结论。
生物数据分散在数十个数据库中,这些数据库的标识符互不兼容,元数据标准各异,也没有版本控制的 API。软件工程师有包管理器和版本化的端点可用;而计算生物学家通常只能对着不一致的网络界面编写脚本,这些界面还可能会在没有通知的情况下改变。
它的工作原理是先应用元数据约束,然后再下载序列,只选择性获取匹配的结构化 GenBank 记录,在处理大批量查询时能将数据传输量减少 98% 以上,同时保留精确匹配的语义。其结果是,每次都能得到相同的数据集——这是 AI 智能体极度需要,但旧基础设施无法提供的特性。
其影响立竿见影且效果惊人。当自主 AI 系统使用 gget virus 作为其检索后端时:
在并行的工作中,Chan Zuckerberg Initiative 发布了一份路线图,呼吁实现可互操作、汇集的生物数据集,这些数据集可以通过命令行界面(CLI)和机器可读的标准进行查询。他们的愿景是:科学家能够在一个单一的联邦查询中搜索、分析和下载多模态数据,从而在没有混乱检索的情况下实现 AI 规模的发现。
CZI 已经付诸行动,正在开发用于联邦数据访问的 CLI,并启动了“十亿细胞项目”(Billion Cells Project),这是一个具有里程碑意义的单细胞数据集,旨在训练下一代 AI 模型。其目标是打造基础性的基础设施,让生物数据对机器来说,就像代码仓库对开发者一样触手可及。
核心洞察——即旧有的以人为本的界面会破坏 AI 智能体——适用于整个科学计算领域。确定性的、程序化的访问层不是奢侈品,而是让自主系统能够可靠地参与研究的先决条件。解决问题的办法不是坐等一个更聪明的模型出现,而是升级“道路”。
Comments
0 comments