NCBI Virus và nhiều cơ sở dữ liệu sinh học công cộng khác được xây dựng cho quy trình làm việc tương tác, dựa trên trình duyệt. Các nhà khoa học nhấp qua các bộ lọc, kiểm tra thủ công kết quả và dựa vào các tín hiệu trực quan. Logic giao diện này hoàn toàn không tương thích với các tác nhân tự động vốn mong đợi các lệnh có cấu trúc và lập trình được .
Phát hiện đáng lo ngại nhất là sự thiếu nhất quán. Khi các nhà nghiên cứu yêu cầu Claude Sonnet 4 ba lần truy xuất các trình tự của virus Ebola so với một tập dữ liệu chuẩn xác thực gồm 266 trình tự, lần đầu nó trả về 106, lần thứ hai là 15, và lần thứ ba chỉ còn 5. Không có câu lệnh nào thay đổi – chỉ có đầu ra là thay đổi .
Đây không chỉ là chuyện bỏ sót một vài bản ghi. Trong một mô phỏng, một lần truy xuất lỗi đã làm sai lệch một phân tích phát sinh loài đến mức nó ước tính nguồn gốc của một đợt bùng phát Ebola là năm 1922 thay vì năm 2014 chính xác. AI không hề “ảo giác” về mặt khoa học – nó đã bị cung cấp một bộ dữ liệu hỏng và ngoan ngoãn xây dựng một kết luận sai lầm trên đó .
Dữ liệu sinh học nằm rải rác trên hàng chục cơ sở dữ liệu với các mã định danh không tương thích, các tiêu chuẩn siêu dữ liệu khác nhau và không có API (giao diện lập trình ứng dụng) được kiểm soát phiên bản. Trong khi các kỹ sư phần mềm dựa vào trình quản lý gói và các điểm cuối có phiên bản, các nhà sinh học tính toán thường phải vật lộn viết script cho các giao diện web không nhất quán và thay đổi mà không báo trước .
Thay vì huấn luyện một mô hình tốt hơn, nhóm nghiên cứu đã xây dựng một lớp truy xuất tốt hơn. gget virus là một khung làm việc nhẹ, mang tính tất định, chính thức hóa logic lọc của NCBI Virus thành một hệ thống lập trình có thể tái tạo .
Nó hoạt động bằng cách áp dụng các ràng buộc siêu dữ liệu trước khi tải xuống trình tự, chỉ tìm nạp có chọn lọc các bản ghi GenBank có cấu trúc phù hợp, và giảm hơn 98% lượng dữ liệu truyền tải cho các truy vấn khối lượng lớn trong khi vẫn bảo toàn ngữ nghĩa khớp chính xác. Kết quả là cùng một bộ dữ liệu được trả về mỗi lần – một thuộc tính mà các tác nhân AI vô cùng cần nhưng cơ sở hạ tầng cũ không thể cung cấp .
Tác động ngay lập tức và rất ấn tượng. Khi các hệ thống AI tự động sử dụng gget virus làm backend truy xuất:
Bài học rất rõ ràng: ràng buộc chính đối với sinh học ứng dụng AI không phải là khả năng suy luận của mô hình — mà là khả năng truy cập dữ liệu một cách tất định. Hãy thêm đúng lớp truy xuất, và các tác nhân AI ngày nay đã có thể làm việc một cách đáng tin cậy .
Câu chuyện thành công của gget virus là một bằng chứng về khái niệm cho một sự thay đổi lớn hơn nhiều. Các nhà nghiên cứu lập luận rằng mô hình này không chỉ giới hạn ở virus học — chỉ riêng NCBI đã có hơn 30 cơ sở dữ liệu sẽ được hưởng lợi từ các lớp bọc tất định tương tự .
Các cơ sở dữ liệu sinh học phải phát triển để lộ ra các API được lập tài liệu tốt, có phiên bản, với khả năng lọc được tiêu chuẩn hóa và ngữ nghĩa truy vấn có thể tái tạo. Điều này tương đương với những gì các nhà phát triển phần mềm nhận được từ trình quản lý gói và hệ thống kiểm soát phiên bản – những cơ sở hạ tầng quan trọng mà khoa học sinh học hiện đang thiếu .
Trong một nỗ lực song song, Sáng kiến Chan Zuckerberg (CZI) đã công bố một lộ trình kêu gọi các bộ dữ liệu sinh học có khả năng tương tác và được gộp chung, có thể được truy vấn qua giao diện dòng lệnh và các tiêu chuẩn máy có thể đọc được. Tầm nhìn của họ: một thế giới nơi các nhà khoa học có thể tìm kiếm, phân tích và tải xuống dữ liệu đa phương thức chỉ trong một truy vấn liên kết duy nhất, cho phép khám phá ở quy mô AI mà không còn sự hỗn loạn truy xuất như hiện tại .
CZI đang hành động dựa trên điều này, phát triển một giao diện dòng lệnh (CLI) để truy cập dữ liệu liên kết và xây dựng Dự án Tỷ Tế Bào (Billion Cells Project), một bộ dữ liệu đơn bào mang tính bước ngoặt nhằm huấn luyện các mô hình AI thế hệ tiếp theo. Mục tiêu là tạo ra cơ sở hạ tầng nền tảng giúp dữ liệu sinh học dễ dàng được máy móc truy cập như các kho mã nguồn đối với lập trình viên .
Cốt lõi của vấn đề — rằng các giao diện cũ kỹ hướng đến con người đang 'phá hỏng' các tác nhân AI — có tính khái quát hóa trên toàn bộ lĩnh vực khoa học tính toán. Các lớp truy cập tất định, có thể lập trình không phải là thứ xa xỉ; chúng là điều kiện tiên quyết để cho phép các hệ thống tự động tham gia một cách đáng tin cậy vào nghiên cứu. Cách khắc phục không phải là chờ đợi một mô hình thông minh hơn. Mà là nâng cấp những con đường.
Comments
0 comments