مقياس IPW أنيق وبسيط: فهو يقسم الدقة التي يحققها النموذج في مهمة معينة على الطاقة التي يستهلكها أثناء الاستدلال . وهذا يتناقض مع الممارسة الشائعة لتقييم نماذج الذكاء الاصطناعي بمعزل عن الآخرين، متجاهلة تكلفة الطاقة ومتطلبات الأجهزة.
يلتقط هذا المقياس فكرة رئيسية: النموذج الأكثر قدرة ليس بالضرورة الأكثر كفاءة أو عملية. نموذج صغير يعمل على كمبيوتر محمول قد يوفر 95% من دقة نموذج سحابي عملاق بينما يستخدم جزءًا صغيرًا من الطاقة .
أحد النتائج الأكثر أهمية من الناحية المالية في الدراسة يتعلق بما يحدث عندما لا تختار بين المحلي والسحابة - بل تستخدم كليهما بذكاء.
التوجيه المثالي (Oracle routing)، وهو نظام افتراضي مثالي يعين كل استعلام لأصغر نموذج قادر، يمكن أن يقلل من الناحية النظرية استهلاك الطاقة بنسبة 80.4%، والطاقة الحاسوبية بنسبة 77.3%، والتكلفة بنسبة 73.8% مقارنة بالنشر السحابي فقط .
موجه عملي واقعي تم اختباره في أبحاث ذات صلة حقق نتائج مماثلة: فقد خفض الطاقة بنسبة 77.1%، والطاقة الحاسوبية بنسبة 67.1%، والتكلفة بنسبة 60.2% عبر توزيعات حركة المرور الحقيقية، مع الحفاظ على دقة مهمة مماثلة .
هذا ليس احتمالًا مستقبليًا. يوضح البحث أن البنى الهجينة المحلية السحابية قابلة للتطبيق بالفعل ويمكن أن تخفض بشكل كبير تكلفة تقديم استدلالات الذكاء الاصطناعي.
لا تقدم دراسة ستانفورد توقعات مالية صريحة لأي شركة. ومع ذلك، فإن المسار الذي توثقه له آثار هيكلية واضحة على شركات الذكاء الاصطناعي المعتمدة على واجهات برمجة التطبيقات السحابية .
تغطي النماذج المحلية بالفعل حوالي 89% من الاستعلامات أحادية الدورة بتكلفة أقل بشكل كبير . تحسن مؤشر IPW بمقدار 5.3 أضعاف في عامين فقط ولا يزال يتسارع
. يمكن للتوجيه الذكي أن يخفض تكاليف استدلال السحابة بنسبة 60% أو أكثر للاستعلامات المتبقية المرسلة إلى السحابة
.
إذا تم تفعيل هذا الاتجاه على نطاق واسع، يمكن للعملاء استبدال غالبية استعلامات واجهة برمجة التطبيقات السحابية الخاصة بهم باستدلال محلي يكاد يكون مجانيًا، مع حجز المكالمات السحابية فقط لأصعب 11% من المهام التي لا تستطيع النماذج المحلية التعامل معها بعد .
لاحظت التعليقات التي تفسر الدراسة أن مستقبل الذكاء الاصطناعي قد يتميز بنماذج 'صغيرة ورخيصة وغير مربحة' لشركات الذكاء الاصطناعي الرائدة . يتحول الحافز الاقتصادي نحو البدائل المحلية مفتوحة الوزن التي تقوض أسعار واجهات برمجة التطبيقات السحابية - وهو ديناميكي يمكن أن يعيد تشكيل نماذج الأعمال لشركات مثل OpenAI و Anthropic و xAI.
هذه الدراسة هي نقطة بيانات واحدة في اتجاه أكبر. وجد تقرير مؤشر الذكاء الاصطناعي لعام 2025 من ستانفورد أن تكلفة استدلال النظام الذي يعمل على مستوى GPT-3.5 انخفضت بأكثر من 280 ضعفًا بين نوفمبر 2022 وأكتوبر 2024 . على مستوى الأجهزة، انخفضت التكاليف بنسبة 30% سنويًا بينما تحسنت كفاءة الطاقة بنسبة 40% كل عام
.
كما تقلل النماذج مفتوحة الوزن الفجوة مع النماذج المغلقة، مما يقلل الفرق في الأداء من 8% إلى 1.7% فقط على بعض المعايير في عام واحد .
على الرغم من أن النتائج مثيرة للإعجاب، فمن المهم ملاحظة النطاق. تختبر الدراسة الاستعلامات أحادية الدورة فقط - ردود الدردشة البسيطة ومهام الاستدلال المستقلة. لا تقيم النماذج المحلية على المحادثات متعددة الأدوار، أو الاستدلال طويل السياق، أو سير العمل المعقد القائم على العوامل، وجميعها مجالات تحتفظ فيها النماذج السحابية بميزة كبيرة .
النماذج المحلية التي تم اختبارها (≤20B بارامتر) لا يمكنها أيضًا مطابقة أفضل النماذج السحابية في أصعب المشكلات. مؤلفو الدراسة واضحون بشأن هذا: تختلف الدقة بشكل كبير حسب المجال، ورقم 88.7% يخفي أداءً أضعف في المجالات التقنية والعلمية .
تقدم دراسة 'الذكاء لكل واط' من ستانفورد دليلاً تجريبيًا قويًا على أن الذكاء الاصطناعي المحلي قد تجاوز عتبة حرجة. بالنسبة لغالبية الاستعلامات اليومية - المهام الإبداعية والإدارة والمبيعات والترفيه - فإن النموذج الصغير على الكمبيوتر المحمول كافٍ بالفعل . وتيرة التحسين السريعة تشير إلى أن هذه التغطية ستستمر في التوسع.
بالنسبة للشركات، فإن الآثار واضحة: البنية التحتية الأكثر فعالية من حيث التكلفة للذكاء الاصطناعي هي بشكل متزايد بنية هجينة، توجه الاستعلامات البسيطة إلى النماذج المحلية وتحتفظ بقدرة السحابة لأصعب المهام. قد يكون عصر إرسال كل استعلام إلى نموذج سحابي ضخم مقابل رسم لكل رمز (token) على وشك الانتهاء.
Comments
0 comments