NCBI Virus ומאגרי מידע ציבוריים רבים אחרים נבנו עבור זרימות עבודה אינטראקטיביות מבוססות דפדפן. מדענים לוחצים על פילטרים, בודקים תוצאות באופן ידני ומסתמכים על רמזים ויזואליים. היגיון הממשק הזה אינו תואם לסוכנים אוטונומיים המצפים לפקודות מתוכנתות ומובנות .
הממצא המרשיע ביותר היה חוסר העקביות. כאשר החוקרים ביקשו מ-Claude Sonnet 4 שלוש פעמים לשלוף רצפים של נגיף האבולה אל מול בסיס אמת מאומת של 266 רצפים, הוא החזיר 106 בניסיון הראשון, 15 בשני ורק 5 בשלישי. ההנחיות לא השתנו – רק הפלט השתנה .
זה לא רק עניין של החמצת כמה רשומות. בסימולציה אחת, שליפה שגויה עיוותה ניתוח פילוגנטי (חקר התפתחות גנטית) בצורה כה חמורה, עד שהניתוח העריך את מקור התפרצות האבולה בשנת 1922 במקום התאריך הנכון – 2014. הבינה המלאכותית לא 'הזתה' את המדע – היא הוזנה במערך נתונים שבור ובנתה עליו מסקנה שגויה בנאמנות .
נתונים ביולוגיים מפוזרים על פני עשרות מאגרים עם מזהים לא תואמים, תקני מטא-דאטה שונים וממשקי API ללא בקרת גרסאות. מהנדסי תוכנה נהנים ממנהלי חבילות ומנקודות קצה מתועדות; ביולוגים חישוביים לעיתים קרובות נתקעים בכתיבת סקריפטים מול ממשקי רשת לא עקביים שמשתנים ללא התראה .
במקום לאמן מודל טוב יותר, הצוות בנה שכבת שליפה טובה יותר. gget virus היא מסגרת קלת-משקל ודטרמיניסטית שממסדת את לוגיקת הסינון של NCBI Virus למערכת מתוכנתת ניתנת לשחזור. היא פועלת על ידי החלת אילוצי מטא-דאטה לפני הורדת הרצפים, ולאחר מכן שולפת באופן סלקטיבי רק את רשומות ה-GenBank המובנות התואמות. התוצאה: צמצום של מעל 98% בהעברת הנתונים בשאילתות בנפח גבוה, תוך שמירה על סמנטיקה של התאמה מדויקת. המשמעות היא שאותו מערך נתונים מתקבל בכל פעם מחדש – תכונה שסוכני בינה מלאכותית זקוקים לה נואשות, אך התשתית הישנה לא סיפקה .
ההשפעה הייתה מיידית ודרמטית. כאשר מערכות הבינה המלאכותית האוטונומיות השתמשו ב-gget virus כתשתית השליפה שלהן:
המסקנה חד-משמעית: צוואר הבקבוק בביולוגיה מבוססת בינה מלאכותית אינו יכולת החשיבה של המודל – זו גישה דטרמיניסטית לנתונים. הוסיפו את שכבת השליפה הנכונה, והסוכנים של היום כבר יכולים לבצע עבודה אמינה .
סיפור ההצלחה של gget virus הוא הוכחת היתכנות לשינוי גדול בהרבה. החוקרים טוענים שהדפוס הזה אינו מוגבל לווירולוגיה – NCBI לבדו מארח מעל 30 מאגרי מידע שיפיקו תועלת ממעטפות דטרמיניסטיות דומות .
מאגרי מידע ביולוגיים חייבים להתפתח ולחשוף ממשקי API מתועדים היטב, בעלי בקרת גרסאות, עם סינון סטנדרטי וסמנטיקה של שאילתות ניתנות לשחזור. זוהי המקבילה למה שמפתחי תוכנה מקבלים ממנהלי חבילות ומערכות בקרת גרסאות – תשתית קריטית שלמדע הביולוגי פשוט אין כרגע .
במאמץ מקביל, יוזמת צ'אן צוקרברג פרסמה מפת דרכים הקוראת למערכי נתונים ביולוגיים מאוחדים ובעלי יכולת פעולה הדדית, שניתן לשאול באמצעות ממשקי שורת פקודה ותקנים קריאים למכונה. החזון שלהם: עולם שבו מדענים יכולים לחפש, לנתח ולהוריד נתונים רב-מודאליים בשאילתא מאוחדת אחת, ולאפשר גילויים בקנה מידה של בינה מלאכותית ללא הכאוס הנוכחי בשליפה .
ה-CZI כבר פועלת בתחום זה, מפתחת CLI (ממשק שורת פקודה) לגישה מאוחדת לנתונים ומקימה את פרויקט מיליארד התאים (Billion Cells Project) , מערך נתונים תקדימי של תא בודד שנועד לאמן מודלי AI מהדור הבא. המטרה היא תשתית בסיסית שהופכת נתונים ביולוגיים לנגישים למכונות באותה מידה שמאגרי קוד נגישים למפתחים .
התובנה המרכזית – שממשקים ישנים ממוקדי-אדם שוברים סוכני בינה מלאכותית – ניתנת להכללה בכל תחום המחשוב המדעי. שכבות גישה דטרמיניסטיות ומתוכנתות אינן מותרות; הן תנאי מוקדם לאפשר למערכות אוטונומיות להשתתף במחקר באופן אמין. התיקון אינו לחכות למודל חכם יותר. התיקון הוא לשדרג את הכבישים.
Comments
0 comments