studioglobal
الأكثر رواجًا في الاكتشاف
الإجاباتمنشور2 المصادر

رؤية Claude Opus 4.7 بدقة 3.75 ميغابكسل: ماذا تعني للقطات الشاشة والمستندات؟

رفع Claude Opus 4.7 حدّ الصور من 1568 بكسل / 1.15 ميغابكسل إلى 2576 بكسل / 3.75 ميغابكسل، أي نحو 3.3 أضعاف عدد الميغابكسل، وهو فرق مهم للواجهات والمستندات الكثيفة بالتفاصيل.[4] تقول Anthropic إن هذه الترقية مهمة خصوصًا لاستخدام الحاسوب وفهم لقطات الشاشة وartifacts والمستندات، مع تحسينات في الإدراك منخفض المستوى وتحد...

17K0
Minh họa Claude Opus 4.7 phân tích screenshot giao diện và tài liệu độ phân giải cao
Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệuHình minh họa AI về khả năng phân tích screenshot và tài liệu độ phân giải cao của Claude Opus 4.7.
موجّه الذكاء الاصطناعي

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệu?. Article summary: Claude Opus 4.7 Vision nâng cấp đáng kể nhất ở giới hạn ảnh đầu vào: 2576 px / 3.75 MP thay vì 1568 px / 1.15 MP, tức khoảng 3,3 lần số megapixel.. Topic tags: ai, anthropic, claude, computer vision, multimodal ai. Reference image context from search candidates: Reference image 1: visual subject "# Claude Opus 4.7 Is Here - Less Supervision, Better Vision. Anthropic releases Claude Opus 4.7 with 3x higher resolution vision, a new xhigh effort level, task budgets for cost co" source context "Claude Opus 4.7 Is Here - Less Supervision, Better Vision | Awesome Agents" Reference image 2: visual subject "Flat vector illustration on an orange background showing a sequence of small robots working left to right—thinking at a laptop, wri

openai.com

أهم ما في ترقية Vision في Claude Opus 4.7 ليس مجرد عبارة عامة مثل «النموذج يرى الصور بشكل أفضل». التغيير العملي هو أن Anthropic تقول إن Opus 4.7 هو أول نموذج من Claude يدعم الصور عالية الدقة، مع رفع الحد من 1568 بكسل / 1.15 ميغابكسل إلى 2576 بكسل / 3.75 ميغابكسل.[4]

بالنسبة إلى لقطات الشاشة والمستندات المصوّرة، هذا فرق كبير. الانتقال من 1.15 إلى 3.75 ميغابكسل يعني تقريبًا 3.26 مرة من عدد الميغابكسل، أي أن النموذج يستطيع استقبال تفاصيل بصرية أكثر قبل أن يبدأ التحليل والاستدلال.[4] وتظهر قيمة ذلك خصوصًا عندما تكون الصورة مليئة بنصوص صغيرة، جداول، تسميات داخل واجهة، أو تخطيط مزدحم.

ما الذي تغيّر في Vision داخل Opus 4.7؟

التغييرما أعلنته Anthropicالمعنى العملي
صور بدقة أعلىOpus 4.7 هو أول نموذج Claude يدعم الصور عالية الدقة، مع حد أعلى يبلغ 2576 بكسل / 3.75 ميغابكسل بدلًا من 1568 بكسل / 1.15 ميغابكسل.[4]يمكن إدخال صور تحتفظ بتفاصيل أكثر، خصوصًا في النصوص الصغيرة والواجهات المعقدة والمستندات الغنية بالمعلومات.[4]
تركيز على لقطات الشاشة والمستنداتتقول Anthropic إن رفع الدقة مهم تحديدًا لاستخدام الحاسوب وفهم لقطات الشاشة وartifacts والمستندات.[4]هذه ليست ترقية عامة للصور الطبيعية فقط؛ بل تستهدف حالات استخدام عملية مثل تحليل الواجهات والملفات المصوّرة.[4]
إدراك بصري منخفض المستوىتذكر Anthropic تحسنًا في مهام مثل الإشارة إلى موضع، القياس، العد، وما يشبهها.[4]مفيد عندما تحتاج إلى سؤال النموذج عن عدد عناصر، موقع زر، أو تفاصيل صغيرة داخل صورة أو لقطة شاشة.[4]
تحديد الموضع داخل الصورةتصف Anthropic تحسنًا في image localization، بما في ذلك الصناديق المحيطة bounding boxes واكتشاف الأجسام في الصور الطبيعية.[4]مناسب للمهام التي تتطلب تحديد زر، حقل إدخال، رسم بياني، أو عنصر بعينه داخل الصورة.[4]
إحداثيات 1:1الإحداثيات التي يعيدها النموذج أصبحت مطابقة 1:1 لبكسلات الصورة الفعلية.[4]يقلّ الاحتياج إلى حساب معامل التحجيم يدويًا عند ربط إجابة النموذج بالصورة الأصلية، خصوصًا في الأتمتة واستخدام الحاسوب.[4]

لماذا تهمّ 3.75 ميغابكسل؟

الفكرة ببساطة: عندما تُجبر لقطة شاشة أو صفحة مستند على التصغير كثيرًا كي تناسب حد الإدخال، قد تختفي تفاصيل مهمة قبل أن يراها النموذج أصلًا. الحروف الصغيرة، أرقام الجداول، أسماء الأزرار، وتسميات المحاور في الرسوم البيانية قد تتحول إلى كتل غير واضحة.

مع حد 2576 بكسل / 3.75 ميغابكسل، تستطيع الصورة الاحتفاظ بقدر أكبر من التفاصيل في التحليل الواحد.[4] هذا لا يعني أن كل صورة ضبابية أو مضغوطة بشدة ستصبح مقروءة فجأة، لكنه يعني أن الصور الأصلية الواضحة والمزدحمة بالمعلومات تحصل على فرصة أفضل لأن تصل تفاصيلها إلى النموذج بدل أن تضيع في التصغير.[4]

لقطات الشاشة: الاختبار الحقيقي في التفاصيل الصغيرة

لقطة الشاشة عادة ليست صورة عادية. هي خليط من أزرار، قوائم، أيقونات، حقول إدخال، رسائل خطأ، جداول، أشرطة جانبية، وتسميات صغيرة. لذلك تشير Anthropic صراحة إلى أن دعم الصور عالية الدقة في Opus 4.7 مهم لاستخدام الحاسوب وفهم لقطات الشاشة.[4]

الأهم في سيناريوهات الأتمتة أن الإحداثيات التي يعيدها النموذج أصبحت 1:1 مع البكسلات الفعلية للصورة.[4] فإذا كان سير العمل يعتمد على النقر، السحب والإفلات، التحقق من موقع عنصر، أو تحديد منطقة داخل لقطة شاشة، يصبح ربط إجابة النموذج بالصورة الأصلية أبسط وأقل عرضة لأخطاء التحجيم.[4]

المستندات والشرائح وartifacts: الفائدة في التخطيط المزدحم

المستندات والشرائح ليست نصًا فقط. غالبًا ما تحتوي على جداول، رسوم بيانية، حواشٍ، رؤوس صفحات، تذييلات، أعمدة متعددة، وتسميات صغيرة داخل المخططات. ولهذا تضع Anthropic المستندات وartifacts ضمن فئات المحتوى التي تستفيد من ترقية Vision في Opus 4.7.[4]

صفحة Claude Opus 4.7 لدى Anthropic تعرض النموذج أيضًا ضمن سياق تحسين الرؤية ومخرجات مهنية مثل الواجهات والشرائح والمستندات.[1] لذلك، إذا كان استخدامك يتضمن قراءة شرائح مصوّرة، تحليل تخطيط مستند، أو فحص محتوى داخل صورة وثيقة، فهذه الترقية تستحق الاختبار على أمثلة حقيقية من عملك.[1][4]

تحديد الموضع: ليس المهم أن يقرأ فقط، بل أن يشير بدقة

في كثير من الاستخدامات، لا يكفي أن يعرف النموذج أن هناك زرًا أو جدولًا أو رسمًا بيانيًا. المهم أيضًا أن يعرف أين يوجد ذلك العنصر داخل الصورة. Anthropic تذكر تحسينات في تحديد الموضع داخل الصورة، بما في ذلك الصناديق المحيطة واكتشاف الأجسام، إضافة إلى مهام مثل الإشارة والقياس والعد.[4]

في لقطات الشاشة، هذا قد يعني تحديد موضع زر أو حقل إدخال. وفي المستندات، قد يعني تحديد منطقة جدول، عمود بعينه، أو جزء محدد من رسم بياني. هذه الحالات قريبة جدًا من نوع التحسينات التي تصفها Anthropic في Opus 4.7.[4]

لا تقرأ الترقية كأنها وعد بنسبة OCR ثابتة

المصادر الرسمية المستخدمة هنا لا تقدم رقمًا منفصلًا يقول إن التعرف الضوئي على الحروف OCR في لقطات الشاشة أو المستندات تحسن بنسبة محددة.[1][4] لذلك فالقراءة الأدق هي أن Opus 4.7 حصل على دعم صور أعلى دقة، وتحسينات في الإدراك البصري وتحديد الموضع، وأن Anthropic تصف ذلك بأنه مهم للقطات الشاشة وartifacts والمستندات.[4]

بمعنى آخر: من المنطقي توقع نتائج أفضل عندما كانت الدقة هي عنق الزجاجة، خصوصًا في الصور الواضحة لكن الكثيفة بالتفاصيل. لكن لا توجد، في هذه المصادر الرسمية، نسبة عامة يمكن تعميمها على كل أنواع المستندات أو كل لقطات الشاشة.[1][4]

كيف تختبر Opus 4.7 Vision في سير عمل حقيقي؟

إذا كنت تفكر في استخدام Opus 4.7 داخل منتج أو عملية داخلية، لا تكتفِ بصورة أو صورتين. جرّبه على مجموعات تمثل عملك الفعلي:

  1. صور عالية الدقة: استخدم الصورة نفسها بدقتها الأصلية ثم بنسخة مصغّرة، وقارن ما إذا كانت زيادة البكسلات تساعد في قراءة النصوص الصغيرة أو التفاصيل الدقيقة.[4]
  2. لقطات شاشة لواجهات المستخدم: اطلب من النموذج تحديد الأزرار، حقول الإدخال، رسائل الخطأ، والقوائم أو المناطق المرتبطة بها.
  3. مستندات وشرائح: اختبر الجداول، التعليقات الصغيرة، الرسوم البيانية، والتخطيطات متعددة الأعمدة، لأن Anthropic تذكر المستندات وartifacts ضمن الفئات المستفيدة من ترقية Vision.[4]
  4. الأتمتة: اطلب إحداثيات أو bounding boxes، ثم تحقق من أنها تطابق بكسلات الصورة الأصلية وفق آلية 1:1 التي أعلنتها Anthropic.[4]
  5. OCR على بياناتك أنت: قِس نسبة الصواب والخطأ على مجموعة ممثلة من مستنداتك؛ فـ Anthropic لا تنشر في هذه المصادر رقم OCR مستقلًا للقطات الشاشة أو المستندات.[1][4]

الخلاصة

ترقية Vision في Claude Opus 4.7 مفيدة أكثر ما تكون عندما تحتوي الصورة على تفاصيل صغيرة كثيرة، أو عندما يحتاج التطبيق إلى تحديد مواقع دقيقة داخل الصورة. النقاط الثلاث الأهم: رفع حد الصور إلى 2576 بكسل / 3.75 ميغابكسل، تحسين الإدراك البصري وتحديد الموضع، وجعل الإحداثيات المعادة مطابقة 1:1 للبكسلات الفعلية.[4]

هذه ترقية واضحة للقطات الشاشة، المستندات، artifacts، واستخدامات الحاسوب. لكنها ليست بديلًا عن الاختبار العملي: إذا كان هدفك OCR أو أتمتة على نطاق إنتاجي، فالأفضل بناء benchmark صغير من بياناتك الفعلية بدل استنتاج نسبة تحسن ثابتة من إعلان الدقة وحده.[1][4]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ابحث وتحقق من الحقائق مع Studio Global AI

الوجبات السريعة الرئيسية

  • رفع Claude Opus 4.7 حدّ الصور من 1568 بكسل / 1.15 ميغابكسل إلى 2576 بكسل / 3.75 ميغابكسل، أي نحو 3.3 أضعاف عدد الميغابكسل، وهو فرق مهم للواجهات والمستندات الكثيفة بالتفاصيل.[4]
  • تقول Anthropic إن هذه الترقية مهمة خصوصًا لاستخدام الحاسوب وفهم لقطات الشاشة وartifacts والمستندات، مع تحسينات في الإدراك منخفض المستوى وتحديد الموضع داخل الصورة.[4]
  • الإحداثيات التي يعيدها النموذج أصبحت 1:1 مع بكسلات الصورة الأصلية، ما يجعلها أنسب لسير العمل الذي يتطلب النقر أو تحديد مناطق داخل لقطة شاشة.[4]

يسأل الناس أيضا

ما هي الإجابة المختصرة على "رؤية Claude Opus 4.7 بدقة 3.75 ميغابكسل: ماذا تعني للقطات الشاشة والمستندات؟"؟

رفع Claude Opus 4.7 حدّ الصور من 1568 بكسل / 1.15 ميغابكسل إلى 2576 بكسل / 3.75 ميغابكسل، أي نحو 3.3 أضعاف عدد الميغابكسل، وهو فرق مهم للواجهات والمستندات الكثيفة بالتفاصيل.[4]

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

رفع Claude Opus 4.7 حدّ الصور من 1568 بكسل / 1.15 ميغابكسل إلى 2576 بكسل / 3.75 ميغابكسل، أي نحو 3.3 أضعاف عدد الميغابكسل، وهو فرق مهم للواجهات والمستندات الكثيفة بالتفاصيل.[4] تقول Anthropic إن هذه الترقية مهمة خصوصًا لاستخدام الحاسوب وفهم لقطات الشاشة وartifacts والمستندات، مع تحسينات في الإدراك منخفض المستوى وتحديد الموضع داخل الصورة.[4]

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

الإحداثيات التي يعيدها النموذج أصبحت 1:1 مع بكسلات الصورة الأصلية، ما يجعلها أنسب لسير العمل الذي يتطلب النقر أو تحديد مناطق داخل لقطة شاشة.[4]

ما هو الموضوع ذو الصلة الذي يجب أن أستكشفه بعد ذلك؟

تابع مع "Claude Security من Anthropic: شرح النسخة التجريبية لفحص ثغرات الشيفرة بالذكاء الاصطناعي" لزاوية أخرى واستشهادات إضافية.

فتح الصفحة ذات الصلة

ما الذي يجب أن أقارنه بهذا؟

تحقق من هذه الإجابة مقابل "Grok 4.3 API: مليون توكن وسعر منخفض… كيف تراهن xAI على النماذج والصوت؟".

فتح الصفحة ذات الصلة

مواصلة البحث الخاص بك

محادثة بحثية

أنت

سؤال بحثي

Tìm kiếm và kiểm chứng thông tin: Vision của Opus 4.7 nâng cấp gì cho ảnh độ phân giải cao, screenshot và tài liệu?

Studio Global AI12 المصادر

إجابة مستشهد بها

Nếu bạn đang nói tới Claude Opus 4.7 của Anthropic, thì phần Vision được nâng cấp rõ nhất là hỗ trợ ảnh độ phân giải cao hơn rất nhiều, cộng với cải thiện ở việc đọc ảnh/screenshot/tài liệu và các tác vụ định vị chi tiết trong ảnh.[1][4] Tuy vậy, Anthropic chưa công bố benchmark tách riêng cho “screenshot” hay “document OCR” để định lượng chính xác mức tăng theo từng loại nội dung, nên phần đó chỉ có thể kết luận ở mức “được tối ưu hơn”, chưa có số đo chi tiết công khai.[1][4]

  • Opus 4.7 là model Claude đầu tiên có “high-resolution image support”.[4]

  • Giới hạn ảnh tăng lên 2576 px / 3.75 MP, so với mức cũ 1568 px / 1.15 MP.[4]

  • Điều này tương đương lượng điểm ảnh đầu vào tăng khoảng 3.3 lần, nên về thực tế model có nhiều chi tiết hơn để đọc chữ nhỏ, UI nhỏ và bố cục dày thông tin trong ảnh.[4]

  • Với ảnh độ phân giải cao, Anthropic nói nâng cấp này đặc biệt quan trọng cho các workflow “computer use” và cho việc hiểu screenshot, artifact và tài liệu.[4]

  • Nói ngắn gọn: screenshot giao diện, ảnh chụp màn hình có nhiều chữ nhỏ, và tài liệu nhiều chi tiết là đúng nhóm use case mà Anthropic nhắm tới khi nâng cấp Vision ở 4.7.[4]

  • Ngoài tăng độ phân giải, Anthropic còn nói Opus 4.7 cải thiện “low-level perception”, gồm các tác vụ như chỉ điểm, đo đạc, đếm và các tác vụ tương tự.[4]

  • Họ cũng nói khả năng “image localization” được cải thiện, gồm định vị bằng bounding box và phát hiện đối tượng trong ảnh tự nhiên.[4]

  • Với screenshot và tài liệu, cải tiến này hữu ích khi cần chỉ đúng vị trí nút, ô nhập liệu, biểu đồ hoặc vùng nội dung cụ thể trong ảnh.[4]

  • Một thay đổi kỹ thuật đáng chú ý là tọa độ model trả về nay là 1:1 với pixel thật của ảnh, nên không còn phải tự tính hệ số scale khi map tọa độ lên ảnh.[4]

  • Điểm này đặc biệt hữu ích cho automation/computer use và các bài toán click/chỉ vùng trên screenshot.[4]

  • Ở mức mô tả sản phẩm, Anthropic cũng nói Opus 4.7 có “substantially better vision”, có thể nhìn ảnh ở độ phân giải cao hơn, và nhờ đó cho kết quả tốt hơn trong các đầu ra chuyên nghiệp như interfaces, slides và docs.[1][2]

  • Trên trang sản phẩm, Anthropic tiếp tục mô tả Opus 4.7 mạnh hơn ở coding, vision và các tác vụ nhiều bước, đồng thời cho hiệu năng tốt trên slides và docs trong workflow doanh nghiệp.[2]

  • Điểm cần kiểm chứng thận trọng: Anthropic không nêu công khai một con số riêng như “OCR tốt hơn X%” cho screenshot hay tài liệu.[1][4]

  • Vì vậy, phát biểu an toàn nhất là: Vision của Opus 4.7 được nâng cấp bằng đầu vào ảnh sắc nét hơn, hiểu screenshot/tài liệu tốt hơn theo mô tả chính thức, và cải thiện ở định vị/nhận biết chi tiết; còn mức tăng chính xác theo từng hạng mục thì hiện chưa có số liệu công khai đủ để khẳng định.[1][4]

Nếu bạn muốn, mình có thể làm tiếp 1 trong 2 việc:

  • so sánh riêng Opus 4.7 với Opus 4.6 cho use case OCR/screenshot/document;
  • hoặc trích nguyên văn các đoạn official của Anthropic và diễn giải sang tiếng Việt ngắn gọn.

المصادر