研究入面最得人驚嘅發現,係AI嘅表現完全冇一致姓。研究員叫Claude Sonnet 4做同一個工作三次,就係「擷取伊波拉病毒序列」,對照組嘅標準答案應該係266條。結果呢?第一次佢俾返106條,第二次得15條,第三次更只得返5條。成個過程冇改過任何指令,但結果就好似擲骰仔咁 。
呢啲錯漏唔單止係「拎少咗幾個檔案」咁簡單。喺一次模擬測試入面,一個出錯嘅數據擷取,直接扭曲咗成個病毒演化分析,令到分析結果估算嘅伊波拉疫情起源年份,由正確嘅2014年,一下子推前咗去1922年。AI冇幻覺,冇老作啲科學出嚟——佢只係忠心耿耿咁,基於一份殘缺不全嘅數據,砌咗個錯晒嘅結論出嚟 。
而家嘅生物數據,散落喺幾十個唔同嘅數據庫,每個庫嘅識別碼唔相通、元數據標準又唔同,仲要好多時連一個有版本控制嘅API都冇。軟件工程師有Package Manager同版本控制系統,但計算生物學家好多時仲係要寫Script去對住啲唔知幾時會改嘅網頁介面,痛苦到極點 。
與其訓練一個更聰明嘅模型,研究團隊揀咗一條更直接嘅路:砌一個更好嘅數據存取層。佢哋開發嘅 gget virus 係一個輕量級、確定性嘅框架,將NCBI Virus嘅過濾邏輯,變成一套可以重複執行嘅程式化系統 。
佢嘅運作原理,係喺下載序列數據之前,先精準咁套用元數據嘅限制條件,只選擇性拎返符合要求嘅GenBank結構化記錄。對於數據量龐大嘅查詢,呢個方法可以減少超過98%嘅數據傳輸量,同時確保每一次拎出嚟嘅數據都一模一樣——呢種「確定性」,就係AI Agent最需要,但舊有基建偏偏俾唔到嘅嘢 。
效果係立竿見影嘅。當AI系統改用gget virus做佢哋嘅數據擷取後台之後:
生物數據庫必須進化,要提供有完善文檔、有版本控制嘅API,配以標準化嘅過濾同可重複執行嘅查詢語意。呢個就等於軟件開發人員用開嘅Package Manager同版本控制系統,係一種科研領域目前仲未普及嘅關鍵基礎設施 。
同時間,Chan Zuckerberg Initiative (CZI) 亦都發表咗一份路線圖,呼籲建立可互通、可整合嘅生物數據集,等科學家可以透過命令行介面 (CLI) 同機器可讀嘅標準去查詢。佢哋嘅願景係:科學家可以用一個「聯邦式查詢」,就搜尋、分析同下載到多模態嘅數據,令AI規模嘅科學發現得以實現,而唔使再深陷喺目前嘅擷取混亂之中 。
CZI已經坐言起行,開發緊一個用嚟聯邦式存取數據嘅CLI工具,同時開展咗「十億細胞計劃」(Billion Cells Project),呢個係一個標誌性嘅單細胞數據集,目的就係用嚟訓練下一代AI模型。終極目標,係要建立一個基礎設施,等生物數據對於機器嚟講,可以好似代碼庫對於開發人員咁方便存取 。
呢個核心洞見——「為人類而設嘅舊式介面會令AI Agent崩潰」——係可以喺成個科學計算領域通用嘅。確定性、程式化嘅存取層,並唔係乜嘢奢侈品,而係要讓自主系統能夠可靠咁參與科研工作嘅先決條件。解決方法,唔係等一個更聰明嘅模型出現。而係要即刻開始,將啲路起好佢。
Comments
0 comments