أما عند استخدام prompt caching، فيجب فصل السياق القابل لإعادة الاستخدام عن السؤال الجديد. الجزء الذي يُكتب في cache لمدة 5 دقائق يحسب بسعر 6.25 دولار لكل مليون توكن، والجزء الذي يُكتب لمدة ساعة يحسب بسعر 10 دولارات لكل مليون توكن، بينما تحسب مرات cache hit أو refresh بسعر 0.50 دولار لكل مليون توكن. الأسئلة الجديدة غير المخزنة تحسب كسعر إدخال عادي، والإجابة تحسب دائمًا كسعر إخراج.
إذا كان لديك ملف طويل تريد تلخيصه أو تحليله مرة واحدة فقط، فالحساب بسيط: الملف، وتعليمات النظام، والسؤال كلها ضمن توكنات الإدخال؛ أما إجابة النموذج فهي توكنات إخراج.
| السيناريو | الإدخال | الإخراج | التكلفة التقريبية |
|---|---|---|---|
| تلخيص ملف طويل نسبيًا | 100 ألف | 5 آلاف | نحو 0.625 دولار |
| تحليل ملف متوسط إلى كبير | 300 ألف | 8 آلاف | نحو 1.70 دولار |
| تحليل ملف ضخم | مليون | 10 آلاف | نحو 5.25 دولار |
مثال 300 ألف توكن إدخال و8 آلاف توكن إخراج:
300,000 / 1,000,000 × 5 = 1.50
8,000 / 1,000,000 × 25 = 0.20
الإجمالي = 1.70 دولارلكن عند الانتقال من نموذج أقدم إلى Opus 4.7، لا تفترض أن عدد التوكنات سيبقى كما هو. تشير وثائق التسعير إلى أن Opus 4.7 يستخدم tokenizer جديدًا، وقد يزيد عدد التوكنات للنص نفسه بما يصل إلى 35%.
لذلك، إذا كنت تتوقع 300 ألف توكن إدخال، فقد يكون التقدير المتحفظ 405 آلاف توكن. مع 8 آلاف توكن إخراج تصبح التكلفة التقريبية:
405,000 / 1,000,000 × 5 = 2.025
8,000 / 1,000,000 × 25 = 0.20
الإجمالي ≈ 2.23 دولارفي تطبيقات قراءة العقود، المستندات البحثية، قواعد المعرفة، أو ملفات العملاء الطويلة، الخطأ الشائع هو حساب تكلفة أول سؤال فقط. إذا كان المستخدم سيطرح أسئلة متتابعة على الملف نفسه، فإن إعادة إرسال الملف كاملًا في كل جولة قد ترفع التكلفة بسرعة. لذلك يجب إدخال prompt caching في نموذج الميزانية منذ البداية.
لنفترض الآتي:
| الطريقة | مكونات التكلفة | التكلفة التقريبية |
|---|---|---|
| الجولة الأولى: إنشاء cache لمدة 5 دقائق | 300 ألف × 6.25 دولار/MTok + ألفان × 5 دولارات/MTok + ألفان × 25 دولارًا/MTok | نحو 1.935 دولار |
| جولة لاحقة مع cache hit | 300 ألف × 0.50 دولار/MTok + ألفان × 5 دولارات/MTok + ألفان × 25 دولارًا/MTok | نحو 0.21 دولار |
| من دون cache: إعادة إرسال الملف كاملًا كل مرة | 302 ألف × 5 دولارات/MTok + ألفان × 25 دولارًا/MTok | نحو 1.56 دولار |
صحيح أن الجولة الأولى مع cache أغلى من إرسال الملف مرة واحدة بلا تخزين مؤقت، لكن عند السؤال الثاني تبدأ الكفة بالميل لصالح cache:
من دون cache، جولتان: 1.56 × 2 = 3.12 دولار تقريبًا
مع cache لمدة 5 دقائق، جولتان: 1.935 + 0.21 = 2.145 دولار تقريبًاالخلاصة العملية: في الملفات الطويلة، لا تنظر فقط إلى حجم الملف، بل اسأل: كم مرة سيُعاد استخدامه؟ هل تأتي الأسئلة اللاحقة داخل مدة صلاحية cache؟ وهل تضيف كل جولة محتوى جديدًا كبيرًا غير مخزن؟
ينطبق المنطق نفسه على المحادثات الطويلة. إذا كان التطبيق يرسل تاريخ المحادثة بالكامل في كل طلب، فقد تتحول تكلفة الإدخال إلى الجزء الأكبر من الفاتورة. السياق المستقر والقابل لإعادة الاستخدام هو المرشح الأول للتخزين المؤقت.
لنفترض الآتي:
| الطريقة | التكلفة التقريبية |
|---|---|
| من دون cache: 200 ألف تاريخ + ألف رسالة جديدة + ألفا إخراج في كل جولة | نحو 1.055 دولار / جولة |
| كتابة 200 ألف توكن في cache لمدة 5 دقائق: الجولة الأولى | نحو 1.305 دولار |
| بعد cache hit لمدة 5 دقائق | نحو 0.155 دولار / جولة |
| كتابة 200 ألف توكن في cache لمدة ساعة: الجولة الأولى | نحو 2.055 دولار |
| بعد cache hit لمدة ساعة | نحو 0.155 دولار / جولة |
الاختيار بين cache لمدة 5 دقائق أو ساعة ليس قرارًا محاسبيًا فقط، بل يعتمد على سلوك المستخدم:
تظهر المهام الدفعية في سيناريوهات مثل التحليل غير المتزامن، تصنيف مجموعات كبيرة من البيانات، تلخيص آلاف الملفات، أو معالجة سجلات دعم العملاء. لكن قبل أن تؤكد أن حسابك أو عقدك أو المنصة التي تستخدمها يتيح سعر batch pricing معينًا، لا تبنِ ميزانيتك الرسمية على خصم غير متحقق منه.
الطريقة المحافظة هي استخدام السعر العام للـ API المتزامن أولًا، ثم خفض الرقم لاحقًا إذا ثبت أن لديك سعرًا دفعيًا أو تعاقديًا مختلفًا.
التكلفة الإجمالية = إجمالي توكنات الإدخال / 1,000,000 × 5
+ إجمالي توكنات الإخراج / 1,000,000 × 25مثال: 10 آلاف مهمة، كل مهمة فيها ألفا توكن إدخال و500 توكن إخراج.
إجمالي الإدخال = 10,000 × 2,000 = 20,000,000 توكن
إجمالي الإخراج = 10,000 × 500 = 5,000,000 توكن
تكلفة الإدخال = 20 × 5 = 100 دولار
تكلفة الإخراج = 5 × 25 = 125 دولارًا
الإجمالي = 225 دولارًاهذا الرقم، 225 دولارًا، هو تقدير محافظ من دون أي خصم batch. إذا تأكد لاحقًا أن لديك سعرًا مختلفًا، استبدل الوحدات السعرية في المعادلة بالسعر الفعلي.
كذلك، إذا لم تكن تستخدم Anthropic Claude API مباشرة، بل تمر عبر منصة سحابية أو مزود توجيه نماذج، فقد تختلف الفاتورة. يعرض CloudPrice، وهو مصدر طرف ثالث، سعر Opus 4.7 في Anthropic / global عند 5 دولارات للإدخال و25 دولارًا للإخراج لكل مليون توكن، كما يعرض بعض رموز AWS Bedrock الإقليمية عند 5.50 دولار للإدخال و27.50 دولار للإخراج لكل مليون توكن. استخدم هذه البيانات كتنبيه للمراجعة، لا كبديل عن صفحة الفوترة في منصتك أو عقدك أو الوثائق الرسمية.
الحسابات النظرية مفيدة، لكنها غالبًا متفائلة إذا لم تكن لديك سجلات استخدام فعلية. قبل اعتماد الميزانية، ضع هامشًا لثلاثة أمور:
كهامش غير رسمي لإدارة الميزانية، يمكن استخدام الآتي:
| المرحلة | معامل ميزانية مقترح |
|---|---|
| تجربة أولية أو PoC | القيمة النظرية × 1.2 إلى 1.5 |
| إطلاق فعلي مع حركة مستقرة | القيمة النظرية × 1.35 إلى 1.6 |
| ترحيل من نموذج قديم إلى Opus 4.7 مع اعتماد كبير على السياق الطويل | القيمة النظرية × 1.5 إلى 1.8 |
هذه المعاملات ليست عرض سعر من Anthropic، بل طريقة محافظة لتجنب المفاجآت. بعد الإطلاق، يجب تحديث النموذج المالي بناءً على سجلات التوكنات، ونسبة cache hit، والفواتير الفعلية.
من دون cache:
التكلفة الشهرية ≈ عدد الطلبات اليومية × 30
× (متوسط توكنات الإدخال / 1,000,000 × 5
+ متوسط توكنات الإخراج / 1,000,000 × 25)مع cache، لا تجمع كل شيء في خانة واحدة. افصل البنود:
التكلفة الشهرية ≈ تكلفة الإدخال العادي
+ تكلفة cache write
+ تكلفة cache hit / refresh
+ تكلفة الإخراجاملأ هذه المتغيرات قبل التنفيذ:
| المتغير | مثال |
|---|---|
| متوسط توكنات الإدخال لكل طلب | 300,000 |
| متوسط توكنات الإخراج لكل طلب | 8,000 |
| عدد الطلبات اليومية | 1,000 |
| توكنات cache write | 300,000 لكل ملف |
| توكنات cache hit | 300,000 لكل مرة نجاح |
| نسبة cache hit | 60% |
| هامش انتقال tokenizer | حتى × 1.35 |
| هامش تشغيل إضافي | مثلًا × 1.35 إلى 1.6 |
لتحليل ملف طويل مرة واحدة، استخدم ببساطة 5 دولارات لكل مليون توكن إدخال و25 دولارًا لكل مليون توكن إخراج.
أما إذا كان الملف نفسه سيُسأل عنه أكثر من مرة، أو كانت المحادثة تحمل تاريخًا طويلًا في كل جولة، فاحسب prompt caching قبل تثبيت الميزانية. في مثال ملف 300 ألف توكن مع سؤال من ألفي توكن وإجابة من ألفي توكن، تنخفض الجولة اللاحقة عند نجاح cache hit لمدة 5 دقائق إلى نحو 0.21 دولار، بدلًا من نحو 1.56 دولار عند إعادة إرسال النص كاملًا.
وللمهام الدفعية، ابدأ بسعر API المتزامن العام إذا لم تكن قد تأكدت من خصم أو سعر خاص. وإذا كنت تنتقل من نموذج سابق إلى Opus 4.7، فاضرب تقدير توكنات الإدخال أولًا في هامش يصل إلى 1.35، ثم أضف هامش تشغيل مناسبًا. هذا لن يجعل الرقم نهائيًا، لكنه أقرب إلى فاتورة حقيقية من الاعتماد على السعر المعلن وحده.
Comments
0 comments