المشكلة أن ذاكرة KV هذه شرهة للذاكرة بشكل هائل. إنها تتضخم مع كل رمز (Token) جديد، وتستهلك بصمت غيغابايتات من ذاكرة الوصول العشوائي (RAM) أو ذاكرة بطاقة الرسوميات (VRAM). وفقاً لتيثير، بالنسبة لنموذج بـ 4 مليارات معامل (Parameter) يعمل مع حوالي 262,000 رمز — وهو ما قد يمثل ساعات من المحادثة أو قاعدة بيانات برمجية كاملة — فإن ذاكرة KV وحدها تلتهم حوالي 8 غيغابايت من الذاكرة. قم بتشغيل أربع جلسات من هذا القبيل في وقت واحد، وستواجه استهلاكاً يزيد عن 32 غيغابايت، قبل أن تقوم حتى بتحميل النموذج نفسه .
هذا النمو المتفجر للذاكرة هو السبب الرئيسي وراء بقاء مهام الذكاء الاصطناعي ذات السياق الطويل — مثل تحليل مستند قانوني، أو تلخيص بودكاست، أو البرمجة بمساعدة مساعد يفهم السياق حقاً — حبيسة البنية التحتية السحابية المركزية بما فيها من صفوف من وحدات معالجة الرسوميات عالية الذاكرة .
تعالج توربو كوانت هذه المشكلة مباشرة باستخدام تقنية تُعرف باسم التكميم العدواني لذاكرة KV المؤقتة (Aggressive KV Cache Quantization). الفكرة مشابهة لضغط صورة: تقايض جزءاً صغيراً جداً من الدقة العددية النظرية بمكاسب هائلة في كفاءة الذاكرة .
إليك آلية العمل:
إن إصدار تيثير المفتوح المصدر ليس مجرد ورقة بحثية نظرية، بل هو حزمة عملية تتضمن مسار تكميم كامل، ومحولات لأطر عمل الاستدلال الشائعة، وملفات تعريف نشر مضبوطة لمختلف أحمال العمل، مما يجعله جاهزاً للمطورين لتوصيله بمشاريعهم .
تتضح الأهمية الحقيقية لتوربو كوانت عندما تنظر إلى موطنها: داخل QVAC Fabric، محرك تشغيل نماذج اللغة الكبيرة الأساسي في منصة QVAC SDK من تيثير . ترمز QVAC إلى مبادرة "العقل السيد (Sovereign Mind)"، وهي منصة تطوير برمجيات مفتوحة المصدر ومتعددة الأنظمة من تيثير لبناء ذكاء اصطناعي محلي أولاً ولامركزي
. تجمع المنصة قدرات مثل إكمال النصوص، التعرف على الكلام، الترجمة، التعرف البصري على الأحرف (OCR)، توليد الصور، والضبط الدقيق على الجهاز خلف واجهة برمجة تطبيقات (API) موحدة يُقصد بها أن تعمل بشكل متماثل على أي جهاز أو نظام تشغيل
.
بإزالة جدار ذاكرة KV المؤقتة، فإن توربو كوانت هي أكثر من مجرد تحسين في الأداء. إنها عامل تمكين استراتيجي لرؤية تيثير للذكاء الاصطناعي الذي يعمل على الأجهزة الشخصية والشبكات المحلية والبنية التحتية للنظير (P2P)، مما يقلل من اعتماد العالم على عدد قليل من السحابات العملاقة المركزية .
السياسة هنا واضحة وصريحة. لقد صاغ الرئيس التنفيذي لشركة تيثير، باولو أردوينو، هذا الإصدار بعبارات قاطعة: "إذا كان الذكاء الاصطناعي طويل السياق يعمل فقط داخل أكبر مراكز البيانات، فإن الذكاء الاصطناعي سيتشكل بيد من يمتلك أكبر قدر من العتاد" . صُممت توربو كوانت لتكون إجابة عملية على هذا التركيز للسلطة.
كانت توربو كوانت نجمة الإصدار 0.12.0، لكنها لم تأتِ بمفردها. لقد وسّع هذا التحديث أيضاً قدرات المنصة متعددة الوسائط (Multimodal) بطرق كبيرة، وفقاً للإصدار الرسمي والتغطية الداعمة له :
@qvac/sdk بإصدار توربو كوانت كبرنامج مفتوح المصدر ودمجها مباشرة في QVAC SDK، تراهن تيثير على أن مستقبل الذكاء الاصطناعي سيتحدد بمكان تشغيله — على جهازك، بين يديك — بقدر ما يتحدد بما يمكنه فعله.
Comments
0 comments