IPW הוא פשוט ואלגנטי: הוא מחלק את הדיוק שמודל משיג במשימה נתונה בצריכת ההספק שלו בזמן ההסקה (inference) . זה מנוגד לפרקטיקה המקובלת של הערכת מודלי בינה מלאכותית במנותקת, תוך התעלמות מעלות האנרגיה ודרישות החומרה.
המדד לוכד תובנה מרכזית: המודל המסוגל ביותר הוא לא בהכרח היעיל או המעשי ביותר. מודל קטן הפועל על מחשב נייד עשוי לספק 95% מהדיוק של מודל ענן ענק תוך שימוש בחלקיק מצריכת האנרגיה .
אחת הממצאים המשמעותיים ביותר מבחינה כספית עוסקת במה שקורה כאשר לא בוחרים בין מקומי לענן, אלא משתמשים בשניהם בתבונה.
ניתוב אורקל (Oracle routing) — מערכת מושלמת תיאורטית המקצה כל שאילתה למודל הקטן ביותר המסוגל לטפל בה — יכול, תיאורטית, להפחית את צריכת האנרגיה ב-80.4%, את עומס החישוב ב-77.3%, ואת העלות ב-73.8% בהשוואה להפעלה עננית בלבד .
נתב מעשי וריאליסטי שנבחן במחקר משיג תוצאות דומות: הוא הפחית את צריכת האנרגיה ב-77.1%, את עומס החישוב ב-67.1% ואת העלות ב-60.2% בהתפלגויות תעבורה אמיתיות, תוך שמירה על דיוק דומה .
זו אינה אפשרות עתידנית. המחקר מוכיח שארכיטקטורות היברידיות של מקומי-ענן כבר מעשיות ויכולות להוזיל דרמטית את עלות הסקת הבינה המלאכותית.
מחקר סטנפורד אינו עושה תחזיות פיננסיות מפורשות לאף חברה. עם זאת, המגמה שהוא מתעד נושאת השלכות ברורות ומבניות על חברות תלויות ממשקי API בענן .
מודלים מקומיים מכסים כבר כ-89% מהשאילתות החד-שלביות בעלות נמוכה באופן דרמטי . ה-IPW השתפר פי 5.3 בשנתיים בלבד וממשיך להאיץ
. ניתוב חכם יכול לקצץ עלויות הסקת ענן ב-60% ומעלה עבור השאילתות הנותרות שנשלחות לענן
.
אם מגמה זו תהפוך למוטמעת בקנה מידה רחב, לקוחות יוכלו להחליף את רוב הפניות שלהם לממשקי API בענן בהסקה מקומית בעלות אפסית כמעט, תוך שמירת קריאות ענן רק לכ-11% מהמשימות הקשות ביותר שמודלים מקומיים עדיין לא מסוגלים לטפל בהן .
פרשנות המתייחסת למחקר ציינה כי עתיד הבינה המלאכותית עשוי לכלול מודלים 'קטנים, זולים ולא רווחיים' עבור חברות הבינה המלאכותית המובילות . התמריץ הכלכלי עובר לכיוון חלופות מקומיות עם משקלים פתוחים שמציעות תמחור נמוך מממשקי API בענן — דינמיקה שעשויה לעצב מחדש את המודלים העסקיים של חברות כמו OpenAI, Anthropic ו-xAI.
מחקר זה הוא נקודת מידע אחת במגמה רחבה יותר. דוח מדד הבינה המלאכותית 2025 של Stanford HAI מצא שעלות ההסקה עבור מערכת הפועלת ברמת GPT-3.5 צנחה פי יותר מ-280 בין נובמבר 2022 לאוקטובר 2024 . ברמת החומרה, העלויות ירדו ב-30% מדי שנה בעוד שיעילות האנרגיה השתפרה ב-40% כל שנה
.
מודלים במשקל פתוח גם מצמצמים את הפער מול מודלים סגורים, תוך הפחתת פער הביצועים מ-8% ל-1.7% בלבד בחלק מהמדדים בשנה אחת .
בעוד שהתוצאות מרשימות, חשוב לציין את היקף המחקר. המחקר בודק שאילתות חד-שלביות בלבד — תגובות צ'אט פשוטות ומשימות היגיון עצמאיות. הוא אינו מעריך מודלים מקומיים על שיחות רב-שלביות, היגיון בהקשר ארוך, או זרימות עבודה אוטונומיות מורכבות (agentic workflows), תחומים שבהם למודלי ענן יש עדיין יתרון משמעותי .
המודלים המקומיים שנבדקו (≤20B פרמטרים) גם אינם יכולים להשתוות למודלי הענן הטובים ביותר בבעיות הקשות ביותר. מחברי המחקר מבהירים זאת: הדיוק משתנה משמעותית לפי תחום, והנתון של 88.7% מסתיר ביצועים חלשים יותר בתחומים טכניים ומדעיים .
מחקר 'אינטליגנציה לוואט' של סטנפורד מספק ראיות אמפיריות חזקות לכך שבינה מלאכותית מקומית חצתה סף קריטי. עבור רוב השאילתות היומיומיות — מטלות יצירתיות, ניהול, מכירות, בידור — מודל קטן על מחשב נייד מספיק . קצב השיפור המהיר מצביע על כך שהכיסוי הזה רק יתרחב.
עבור עסקים, המסקנה ברורה: תשתית הבינה המלאכותית החסכונית ביותר היא יותר ויותר היברידית, המנתבת שאילתות פשוטות למודלים מקומיים ושומרת כושר עיבוד ענני למשימות הקשות ביותר. העידן של שליחת כל שאילתה למודל ענן ענק תמורת תשלום לפי אסימון (per-token fee) עשוי לקרב אל סופו.
Comments
0 comments