הבעיה היא שמטמון ה-KV הזה הוא זללן זיכרון אדיר. הוא מתנפח עם כל אסימון (Token) חדש, וצורך בשקט ג'יגה-בייטים של RAM או VRAM. לפי טת'ר, עבור מודל עם 4 מיליארד פרמטרים שעובד עם כ-262,000 אסימונים – שזה יכול להיות שעות של צ'אט או בסיס קוד שלם – מטמון ה-KV לבדו זולל בערך 8 ג'יגה-בייט של זיכרון. אם מריצים ארבעה סשנים כאלה במקביל, צורכים למעלה מ-32 ג'יגה-בייט של זיכרון, לפני שבכלל טוענים את המודל עצמו .
צמיחת הזיכרון הנפיצה הזו היא הסיבה העיקרית לכך שמשימות AI ארוכות הקשר – כמו ניתוח מסמך משפטי, סיכום פודקאסט, או תכנות עם עוזר שבאמת מבין את ההקשר – היו עד כה אסירות של תשתית ענן מרכזית עם שורות של מעבדים גרפיים (GPU) עתירי זיכרון .
TurboQuant ניגש לבעיה חזיתית עם טכניקה שנקראת קוונטיזציה אגרסיבית של מטמון KV (KV Cache Quantization). העיקרון דומה לדחיסת תמונה: מקריבים מעט דיוק מספרי תאורטי תמורת רווח מעשי עצום ביעילות הזיכרון .
כך זה עובד:
שחרור הקוד הפתוח של טת'ר הוא לא רק מאמר תאורטי. זו חבילה פרקטית הכוללת צינור עיבוד (Pipeline) מלא לקוונטיזציה, מתאמים (Adapters) לתשתיות הרצה נפוצות, ופרופילי פריסה מכווננים לעומסי עבודה שונים, מה שהופך אותו למוכן לשימוש של מפתחים בפרויקטים שלהם .
המשמעות האמיתית של TurboQuant מתבהרת כשמסתכלים על המקום שבו הוא חי: בתוך QVAC Fabric, סביבת זמן הריצה (Runtime) המרכזית של מודלי השפה בערכת הפיתוח QVAC SDK של טת'ר . QVAC, ראשי תיבות של יוזמת "המוח הריבוני" (Sovereign Mind), היא ערכת פיתוח קוד פתוח חוצת-פלטפורמות של טת'ר לבניית AI מקומי ובלתי-מרכזי
. היא מאגדת יכולות כמו השלמת טקסט, זיהוי דיבור, תרגום, זיהוי תווים אופטי (OCR), יצירת תמונות, וכיוונון עדין (Fine-tuning) על המכשיר, מאחורי ממשק API אחוד שנועד לרוץ באופן זהה על כל מכשיר או מערכת הפעלה
.
על ידי הסרת חומת זיכרון מטמון ה-KV, TurboQuant הוא יותר מסתם שיפור ביצועים. הוא מנוף אסטרטגי לחזון של טת'ר על AI שרץ על מכשירים אישיים, רשתות מקומיות, ותשתית עמית-לעמית (Peer-to-peer), ובכך מפחית את התלות של העולם בקומץ ענני ענק מרכזיים (Hyperscale Clouds) .
הפוליטיקה של המהלך מפורשת. מנכ"ל טת'ר, פאולו ארדואינו, ניסח את השחרור במונחים חדים: "אם AI בהקשר ארוך עובד רק בתוך מרכזי הנתונים הגדולים ביותר, אז הבינה המלאכותית תעוצב על ידי מי שמחזיק הכי הרבה חומרה" . TurboQuant נועד להיות תשובה פרקטית לריכוזיות הכוח הזו.
TurboQuant היה כוכב ההשקה של גרסה 0.12.0, אבל הוא לא הגיע לבד. העדכון הרחיב גם את היכולות המולטי-מודאליות של ערכת הפיתוח בדרכים משמעותיות, בהתבסס על ההודעה הרשמית והסיקור התומך :
@qvac/sdk על ידי שחרור TurboQuant כתוכנת קוד פתוח והטמעתו ישירות ב-QVAC SDK, טת'ר מהמרת שעתיד הבינה המלאכותית יוגדר במידה שווה על ידי היכן היא רצה – על המכשיר שלך, בידיים שלך – כמו על ידי מה היא יכולה לעשות.
Comments
0 comments