أهم ما في ترقية Vision في Claude Opus 4.7 ليس مجرد عبارة عامة مثل «النموذج يرى الصور بشكل أفضل». التغيير العملي هو أن Anthropic تقول إن Opus 4.7 هو أول نموذج من Claude يدعم الصور عالية الدقة، مع رفع الحد من 1568 بكسل / 1.15 ميغابكسل إلى 2576 بكسل / 3.75 ميغابكسل.[4]
بالنسبة إلى لقطات الشاشة والمستندات المصوّرة، هذا فرق كبير. الانتقال من 1.15 إلى 3.75 ميغابكسل يعني تقريبًا 3.26 مرة من عدد الميغابكسل، أي أن النموذج يستطيع استقبال تفاصيل بصرية أكثر قبل أن يبدأ التحليل والاستدلال.[4] وتظهر قيمة ذلك خصوصًا عندما تكون الصورة مليئة بنصوص صغيرة، جداول، تسميات داخل واجهة، أو تخطيط مزدحم.
ما الذي تغيّر في Vision داخل Opus 4.7؟
| التغيير | ما أعلنته Anthropic | المعنى العملي |
|---|---|---|
| صور بدقة أعلى | Opus 4.7 هو أول نموذج Claude يدعم الصور عالية الدقة، مع حد أعلى يبلغ 2576 بكسل / 3.75 ميغابكسل بدلًا من 1568 بكسل / 1.15 ميغابكسل.[ | يمكن إدخال صور تحتفظ بتفاصيل أكثر، خصوصًا في النصوص الصغيرة والواجهات المعقدة والمستندات الغنية بالمعلومات.[ |
| تركيز على لقطات الشاشة والمستندات | تقول Anthropic إن رفع الدقة مهم تحديدًا لاستخدام الحاسوب وفهم لقطات الشاشة وartifacts والمستندات.[ | هذه ليست ترقية عامة للصور الطبيعية فقط؛ بل تستهدف حالات استخدام عملية مثل تحليل الواجهات والملفات المصوّرة.[ |
| إدراك بصري منخفض المستوى | تذكر Anthropic تحسنًا في مهام مثل الإشارة إلى موضع، القياس، العد، وما يشبهها.[ | مفيد عندما تحتاج إلى سؤال النموذج عن عدد عناصر، موقع زر، أو تفاصيل صغيرة داخل صورة أو لقطة شاشة.[ |
| تحديد الموضع داخل الصورة | تصف Anthropic تحسنًا في image localization، بما في ذلك الصناديق المحيطة bounding boxes واكتشاف الأجسام في الصور الطبيعية.[ | مناسب للمهام التي تتطلب تحديد زر، حقل إدخال، رسم بياني، أو عنصر بعينه داخل الصورة.[ |
| إحداثيات 1:1 | الإحداثيات التي يعيدها النموذج أصبحت مطابقة 1:1 لبكسلات الصورة الفعلية.[ | يقلّ الاحتياج إلى حساب معامل التحجيم يدويًا عند ربط إجابة النموذج بالصورة الأصلية، خصوصًا في الأتمتة واستخدام الحاسوب.[ |
لماذا تهمّ 3.75 ميغابكسل؟
الفكرة ببساطة: عندما تُجبر لقطة شاشة أو صفحة مستند على التصغير كثيرًا كي تناسب حد الإدخال، قد تختفي تفاصيل مهمة قبل أن يراها النموذج أصلًا. الحروف الصغيرة، أرقام الجداول، أسماء الأزرار، وتسميات المحاور في الرسوم البيانية قد تتحول إلى كتل غير واضحة.
مع حد 2576 بكسل / 3.75 ميغابكسل، تستطيع الصورة الاحتفاظ بقدر أكبر من التفاصيل في التحليل الواحد.[4] هذا لا يعني أن كل صورة ضبابية أو مضغوطة بشدة ستصبح مقروءة فجأة، لكنه يعني أن الصور الأصلية الواضحة والمزدحمة بالمعلومات تحصل على فرصة أفضل لأن تصل تفاصيلها إلى النموذج بدل أن تضيع في التصغير.[
4]
لقطات الشاشة: الاختبار الحقيقي في التفاصيل الصغيرة
لقطة الشاشة عادة ليست صورة عادية. هي خليط من أزرار، قوائم، أيقونات، حقول إدخال، رسائل خطأ، جداول، أشرطة جانبية، وتسميات صغيرة. لذلك تشير Anthropic صراحة إلى أن دعم الصور عالية الدقة في Opus 4.7 مهم لاستخدام الحاسوب وفهم لقطات الشاشة.[4]
الأهم في سيناريوهات الأتمتة أن الإحداثيات التي يعيدها النموذج أصبحت 1:1 مع البكسلات الفعلية للصورة.[4] فإذا كان سير العمل يعتمد على النقر، السحب والإفلات، التحقق من موقع عنصر، أو تحديد منطقة داخل لقطة شاشة، يصبح ربط إجابة النموذج بالصورة الأصلية أبسط وأقل عرضة لأخطاء التحجيم.[
4]
المستندات والشرائح وartifacts: الفائدة في التخطيط المزدحم
المستندات والشرائح ليست نصًا فقط. غالبًا ما تحتوي على جداول، رسوم بيانية، حواشٍ، رؤوس صفحات، تذييلات، أعمدة متعددة، وتسميات صغيرة داخل المخططات. ولهذا تضع Anthropic المستندات وartifacts ضمن فئات المحتوى التي تستفيد من ترقية Vision في Opus 4.7.[4]
صفحة Claude Opus 4.7 لدى Anthropic تعرض النموذج أيضًا ضمن سياق تحسين الرؤية ومخرجات مهنية مثل الواجهات والشرائح والمستندات.[1] لذلك، إذا كان استخدامك يتضمن قراءة شرائح مصوّرة، تحليل تخطيط مستند، أو فحص محتوى داخل صورة وثيقة، فهذه الترقية تستحق الاختبار على أمثلة حقيقية من عملك.[
1][
4]
تحديد الموضع: ليس المهم أن يقرأ فقط، بل أن يشير بدقة
في كثير من الاستخدامات، لا يكفي أن يعرف النموذج أن هناك زرًا أو جدولًا أو رسمًا بيانيًا. المهم أيضًا أن يعرف أين يوجد ذلك العنصر داخل الصورة. Anthropic تذكر تحسينات في تحديد الموضع داخل الصورة، بما في ذلك الصناديق المحيطة واكتشاف الأجسام، إضافة إلى مهام مثل الإشارة والقياس والعد.[4]
في لقطات الشاشة، هذا قد يعني تحديد موضع زر أو حقل إدخال. وفي المستندات، قد يعني تحديد منطقة جدول، عمود بعينه، أو جزء محدد من رسم بياني. هذه الحالات قريبة جدًا من نوع التحسينات التي تصفها Anthropic في Opus 4.7.[4]
لا تقرأ الترقية كأنها وعد بنسبة OCR ثابتة
المصادر الرسمية المستخدمة هنا لا تقدم رقمًا منفصلًا يقول إن التعرف الضوئي على الحروف OCR في لقطات الشاشة أو المستندات تحسن بنسبة محددة.[1][
4] لذلك فالقراءة الأدق هي أن Opus 4.7 حصل على دعم صور أعلى دقة، وتحسينات في الإدراك البصري وتحديد الموضع، وأن Anthropic تصف ذلك بأنه مهم للقطات الشاشة وartifacts والمستندات.[
4]
بمعنى آخر: من المنطقي توقع نتائج أفضل عندما كانت الدقة هي عنق الزجاجة، خصوصًا في الصور الواضحة لكن الكثيفة بالتفاصيل. لكن لا توجد، في هذه المصادر الرسمية، نسبة عامة يمكن تعميمها على كل أنواع المستندات أو كل لقطات الشاشة.[1][
4]
كيف تختبر Opus 4.7 Vision في سير عمل حقيقي؟
إذا كنت تفكر في استخدام Opus 4.7 داخل منتج أو عملية داخلية، لا تكتفِ بصورة أو صورتين. جرّبه على مجموعات تمثل عملك الفعلي:
- صور عالية الدقة: استخدم الصورة نفسها بدقتها الأصلية ثم بنسخة مصغّرة، وقارن ما إذا كانت زيادة البكسلات تساعد في قراءة النصوص الصغيرة أو التفاصيل الدقيقة.[
4]
- لقطات شاشة لواجهات المستخدم: اطلب من النموذج تحديد الأزرار، حقول الإدخال، رسائل الخطأ، والقوائم أو المناطق المرتبطة بها.
- مستندات وشرائح: اختبر الجداول، التعليقات الصغيرة، الرسوم البيانية، والتخطيطات متعددة الأعمدة، لأن Anthropic تذكر المستندات وartifacts ضمن الفئات المستفيدة من ترقية Vision.[
4]
- الأتمتة: اطلب إحداثيات أو bounding boxes، ثم تحقق من أنها تطابق بكسلات الصورة الأصلية وفق آلية 1:1 التي أعلنتها Anthropic.[
4]
- OCR على بياناتك أنت: قِس نسبة الصواب والخطأ على مجموعة ممثلة من مستنداتك؛ فـ Anthropic لا تنشر في هذه المصادر رقم OCR مستقلًا للقطات الشاشة أو المستندات.[
1][
4]
الخلاصة
ترقية Vision في Claude Opus 4.7 مفيدة أكثر ما تكون عندما تحتوي الصورة على تفاصيل صغيرة كثيرة، أو عندما يحتاج التطبيق إلى تحديد مواقع دقيقة داخل الصورة. النقاط الثلاث الأهم: رفع حد الصور إلى 2576 بكسل / 3.75 ميغابكسل، تحسين الإدراك البصري وتحديد الموضع، وجعل الإحداثيات المعادة مطابقة 1:1 للبكسلات الفعلية.[4]
هذه ترقية واضحة للقطات الشاشة، المستندات، artifacts، واستخدامات الحاسوب. لكنها ليست بديلًا عن الاختبار العملي: إذا كان هدفك OCR أو أتمتة على نطاق إنتاجي، فالأفضل بناء benchmark صغير من بياناتك الفعلية بدل استنتاج نسبة تحسن ثابتة من إعلان الدقة وحده.[1][
4]




