studioglobal
ค้นพบเทรนด์
คำตอบเผยแพร่แล้ว2 แหล่งที่มา

Claude Opus 4.7 Vision กับเพดาน 3.75 MP: ภาพหน้าจอและเอกสารได้อะไร

Opus 4.7 เพิ่มขีดจำกัดภาพอินพุตจาก 1568 px / 1.15 MP เป็น 2576 px / 3.75 MP หรือราว 3.3 เท่าของจำนวนเมกะพิกเซล เหมาะกับภาพหน้าจอ UI และเอกสารที่มีรายละเอียดแน่น.[4] Anthropic ระบุว่ามีการปรับปรุง low level perception และ image localization เช่น การชี้ตำแหน่ง การวัด การนับ bounding box และการตรวจจับวัตถุ.[4] พิกัดที่...

17K0
Minh họa Claude Opus 4.7 phân tích screenshot giao diện và tài liệu độ phân giải cao
Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệuHình minh họa AI về khả năng phân tích screenshot và tài liệu độ phân giải cao của Claude Opus 4.7.
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệu?. Article summary: Claude Opus 4.7 Vision nâng cấp đáng kể nhất ở giới hạn ảnh đầu vào: 2576 px / 3.75 MP thay vì 1568 px / 1.15 MP, tức khoảng 3,3 lần số megapixel.. Topic tags: ai, anthropic, claude, computer vision, multimodal ai. Reference image context from search candidates: Reference image 1: visual subject "# Claude Opus 4.7 Is Here - Less Supervision, Better Vision. Anthropic releases Claude Opus 4.7 with 3x higher resolution vision, a new xhigh effort level, task budgets for cost co" source context "Claude Opus 4.7 Is Here - Less Supervision, Better Vision | Awesome Agents" Reference image 2: visual subject "Flat vector illustration on an orange background showing a sequence of small robots working left to right—thinking at a laptop, wri

openai.com

จุดที่น่าสนใจของ Claude Opus 4.7 Vision ไม่ได้อยู่แค่คำกว้าง ๆ ว่าโมเดลมองภาพได้ดีขึ้น แต่อยู่ที่ขีดจำกัดภาพอินพุตที่ Anthropic ขยายอย่างชัดเจน: Opus 4.7 เป็น Claude รุ่นแรกที่รองรับ high-resolution image support โดยเพิ่มเพดานจาก 1568 px / 1.15 MP เป็น 2576 px / 3.75 MP.[4]

สำหรับคนที่ใช้ AI อ่านภาพหน้าจอ เอกสาร หรือหน้า UI ที่อัดแน่นด้วยรายละเอียด นี่คือการเพิ่มจำนวนพิกเซลที่โมเดลได้เห็นก่อนเริ่มตีความ จาก 1.15 MP ไป 3.75 MP คิดเป็นประมาณ 3.26 เท่าของจำนวนเมกะพิกเซล จึงมีนัยสำคัญกับตัวอักษรเล็ก ตาราง ป้ายกำกับ เมนู และเลย์เอาต์ที่ข้อมูลหนาแน่น.[4]

สิ่งที่ Vision ใน Opus 4.7 เปลี่ยนไป

ประเด็นAnthropic ระบุไว้ความหมายในการใช้งาน
รับภาพความละเอียดสูงกว่าเดิมOpus 4.7 เป็น Claude รุ่นแรกที่มี high-resolution image support และเพิ่มขีดจำกัดเป็น 2576 px / 3.75 MP จาก 1568 px / 1.15 MP.[4]ภาพอินพุตสามารถเก็บรายละเอียดไว้ได้มากขึ้น โดยเฉพาะข้อความเล็ก UI ซับซ้อน และเอกสารที่มีข้อมูลหนาแน่น.[4]
เจาะกลุ่ม screenshot, artifact และเอกสารAnthropic ระบุว่าการเพิ่มความละเอียดนี้สำคัญเป็นพิเศษสำหรับ computer use และการทำความเข้าใจ screenshot, artifacts และ documents.[4]นี่ไม่ใช่แค่การปรับปรุงภาพทั่วไป แต่ตรงกับงานที่ต้องอ่านหน้าจอและเอกสารที่มีรายละเอียดมาก.[4]
Low-level perceptionAnthropic ระบุการปรับปรุงงานอย่างการชี้ตำแหน่ง การวัด การนับ และงานลักษณะใกล้เคียง.[4]มีประโยชน์เมื่อถามถึงตำแหน่ง จำนวน หรือรายละเอียดเล็ก ๆ ในภาพและภาพหน้าจอ.[4]
Image localizationOpus 4.7 ถูกอธิบายว่าดีขึ้นด้านการระบุตำแหน่งในภาพ รวมถึง bounding box และการตรวจจับวัตถุในภาพธรรมชาติ.[4]เหมาะกับงานที่ต้องหาปุ่ม ช่องกรอกข้อมูล กราฟ หรือวัตถุเฉพาะในภาพ.[4]
พิกัด 1:1 กับพิกเซลจริงพิกัดที่โมเดลส่งกลับตอนนี้เป็น 1:1 กับพิกเซลจริงของภาพ.[4]ลดภาระการคำนวณสเกลเองเมื่อต้องนำพิกัดจากคำตอบของโมเดลไปแมปกับภาพต้นฉบับ โดยเฉพาะงาน automation และ computer use.[4]

3.75 MP เปลี่ยนอะไรกับภาพอินพุต

หัวใจของการอัปเกรดคือ Opus 4.7 สามารถรับภาพที่มีขีดจำกัดสูงกว่าเดิมได้ หากก่อนหน้านี้ภาพหน้าจอหรือภาพเอกสารต้องถูกย่อมากเพื่อให้เข้าเงื่อนไขอินพุต ข้อความเล็กและรายละเอียดในอินเทอร์เฟซอาจหายไปก่อนที่โมเดลจะได้วิเคราะห์จริง ด้วยเพดาน 2576 px / 3.75 MP ภาพจึงมีโอกาสรักษารายละเอียดเชิงสายตาไว้ได้มากกว่าในรอบการวิเคราะห์เดียว.[4]

อย่างไรก็ตาม ควรตีความอย่างระมัดระวัง: นี่คือการเพิ่มปริมาณข้อมูลภาพที่โมเดลสามารถรับได้ ไม่ใช่คำรับประกันว่าภาพเบลอ ภาพถูกบีบอัดหนัก หรือเอกสารต้นฉบับคุณภาพต่ำจะอ่านได้ถูกต้องเสมอ ประโยชน์จะเด่นที่สุดเมื่อภาพต้นทางคมชัดอยู่แล้ว แต่มีรายละเอียดมากเกินกว่าขีดจำกัดเดิม.[4]

ทำไมภาพหน้าจอถึงได้ประโยชน์ชัด

ภาพหน้าจอมักมีองค์ประกอบเล็ก ๆ อยู่ติดกันจำนวนมาก เช่น ปุ่ม เมนู ไอคอน ช่องกรอกข้อมูล ตาราง ข้อความแจ้งเตือน แผงด้านข้าง หรือป้ายกำกับกราฟ Anthropic ระบุชัดว่า high-resolution image support ของ Opus 4.7 มีความสำคัญเป็นพิเศษต่อ computer use และการทำความเข้าใจ screenshot.[4]

สำหรับงาน automation สิ่งที่สำคัญไม่แพ้ความละเอียดคือพิกัดที่เป็น 1:1 กับพิกเซลจริงของภาพ.[4] ใน workflow ที่ต้องคลิก ลาก ตรวจตำแหน่ง หรือกำหนดพื้นที่บนภาพหน้าจอ จุดนี้ช่วยให้การนำพิกัดจากโมเดลไปใช้กับภาพต้นฉบับตรงไปตรงมาขึ้น แทนที่จะต้องคำนวณตัวคูณสเกลหลังจากภาพถูกย่อหรือปรับขนาด.[4]

เอกสาร สไลด์ และ artifact: ประโยชน์อยู่ที่เลย์เอาต์แน่น

เอกสารและสไลด์ไม่ได้มีแค่ข้อความยาว ๆ แต่ยังมีตาราง กราฟ คำอธิบายย่อย ป้ายแกน หัวกระดาษ ท้ายกระดาษ และคอลัมน์หลายชุด Anthropic จัด documents และ artifacts ไว้ในกลุ่มเนื้อหาที่ได้ประโยชน์จากการอัปเกรด Vision ของ Opus 4.7.[4]

หน้า Claude Opus 4.7 ของ Anthropic ยังวางโมเดลนี้ไว้ในบริบทของการปรับปรุงด้าน vision และผลงานเชิงมืออาชีพอย่าง interfaces, slides และ docs.[1] ดังนั้น หาก workflow ของคุณต้องอ่านสไลด์จากภาพหน้าจอ วิเคราะห์เลย์เอาต์เอกสาร หรือตรวจเนื้อหาในภาพเอกสาร การอัปเกรดนี้ควรถูกทดสอบกับข้อมูลจริงของคุณ ไม่ใช่ดูจากภาพตัวอย่างเพียงไม่กี่ภาพ.[1][4]

Localization: ไม่ใช่แค่อ่านออก แต่ต้องชี้ตำแหน่งให้ตรง

อีกส่วนสำคัญของ Vision ใน Opus 4.7 คือความสามารถด้านการระบุตำแหน่งในภาพที่ดีขึ้น Anthropic กล่าวถึงความสามารถอย่าง bounding box การตรวจจับวัตถุในภาพธรรมชาติ รวมถึงงาน perception ระดับรายละเอียด เช่น การชี้ตำแหน่ง การวัด และการนับ.[4]

ในภาพหน้าจอและเอกสาร การรู้ตำแหน่งมักสำคัญพอ ๆ กับการอ่านข้อความออก ตัวอย่างเช่น ไม่ใช่แค่รู้ว่ามีปุ่มหนึ่งอยู่ในอินเทอร์เฟซ แต่ต้องรู้ว่าปุ่มนั้นอยู่ตรงไหน หรือไม่ใช่แค่เห็นกราฟ แต่ต้องระบุพื้นที่กราฟหรือจุดข้อมูลที่ต้องการได้ สถานการณ์แบบนี้สอดคล้องกับทิศทางการอัปเกรดที่ Anthropic อธิบายสำหรับ Opus 4.7.[4]

ยังไม่ควรเรียกว่า OCR ดีขึ้นกี่เปอร์เซ็นต์

แหล่งข้อมูลทางการที่ใช้ในบทความนี้ไม่ได้ให้ benchmark แยกเฉพาะว่า OCR สำหรับภาพหน้าจอหรือเอกสารดีขึ้นกี่เปอร์เซ็นต์.[1][4] ดังนั้นถ้าจะพูดให้แม่นกว่า ควรบอกว่า Vision ของ Opus 4.7 ได้รับการอัปเกรดผ่านการรองรับภาพความละเอียดสูงขึ้น การปรับปรุง perception และ localization และ Anthropic ระบุว่าสิ่งนี้สำคัญกับ screenshot, artifact และเอกสาร.[4]

พูดอีกแบบคือ มีเหตุผลที่จะคาดหวังว่า Opus 4.7 จะรับมือกับภาพที่รายละเอียดแน่นได้ดีขึ้นเมื่อความละเอียดเป็นคอขวด แต่ยังไม่มีตัวเลขสาธารณะที่ละเอียดพอให้สรุปว่า OCR จะดีขึ้นในอัตราคงที่สำหรับภาพหน้าจอหรือเอกสารทุกประเภท.[1][4]

วิธีทดสอบ Opus 4.7 Vision ใน workflow จริง

ถ้าคุณกำลังพิจารณาใช้ Opus 4.7 ในผลิตภัณฑ์หรือกระบวนการภายใน ควรทดสอบเป็นชุดงาน ไม่ใช่ถามจากภาพตัวอย่างไม่กี่ภาพเท่านั้น:

  1. ภาพความละเอียดสูง: ใช้ภาพเดียวกันที่มีข้อความเล็กจำนวนมาก ทั้งเวอร์ชันต้นฉบับและเวอร์ชันที่ถูกย่อ เพื่อดูผลเมื่อโมเดลได้รับพิกเซลมากขึ้น.[4]
  2. ภาพหน้าจอ UI: ให้โมเดลระบุปุ่ม ช่องกรอกข้อมูล ข้อความผิดพลาด และพื้นที่ที่เกี่ยวข้องในอินเทอร์เฟซ.
  3. เอกสารหรือสไลด์: ตรวจความสามารถในการอ่านตาราง คำอธิบายขนาดเล็ก กราฟ และเลย์เอาต์หลายคอลัมน์ เพราะ documents และ artifacts เป็นกลุ่มที่ Anthropic กล่าวถึงในการอัปเกรด Vision.[4]
  4. Automation: ให้โมเดลส่งพิกัดหรือ bounding box แล้วตรวจว่าพิกัดนั้นแมปกับพิกเซลของภาพต้นฉบับได้ถูกต้องตามกลไก 1:1 ที่ Anthropic ประกาศไว้.[4]
  5. OCR: วัดอัตราถูกผิดด้วยชุดเอกสารที่เป็นตัวแทนของงานจริง เพราะ Anthropic ยังไม่ได้เผยตัวเลข OCR เฉพาะสำหรับภาพหน้าจอหรือเอกสารในแหล่งทางการเหล่านี้.[1][4]

สรุป

การอัปเกรด Vision ของ Claude Opus 4.7 มีค่ามากที่สุดเมื่อภาพมีรายละเอียดเล็กจำนวนมาก หรือเมื่อแอปพลิเคชันต้องระบุตำแหน่งในภาพอย่างแม่นยำ สามจุดที่ควรจำคือ ขีดจำกัดภาพเพิ่มเป็น 2576 px / 3.75 MP, ความสามารถ perception/localization ดีขึ้น และพิกัดที่ส่งกลับเป็น 1:1 กับพิกเซลจริงของภาพ.[4]

นี่เป็นการปรับปรุงที่ชัดเจนสำหรับภาพหน้าจอ เอกสาร artifact และงาน computer use แต่ถ้าเป้าหมายคือ OCR เอกสารในระดับผลิตภัณฑ์ ก็ควร benchmark กับข้อมูลจริงของคุณเอง แทนที่จะสรุปเป็นเปอร์เซ็นต์ตายตัวจากตัวเลขความละเอียดเพียงอย่างเดียว.[1][4]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • Opus 4.7 เพิ่มขีดจำกัดภาพอินพุตจาก 1568 px / 1.15 MP เป็น 2576 px / 3.75 MP หรือราว 3.3 เท่าของจำนวนเมกะพิกเซล เหมาะกับภาพหน้าจอ UI และเอกสารที่มีรายละเอียดแน่น.[4]
  • Anthropic ระบุว่ามีการปรับปรุง low level perception และ image localization เช่น การชี้ตำแหน่ง การวัด การนับ bounding box และการตรวจจับวัตถุ.[4]
  • พิกัดที่โมเดลส่งกลับเป็น 1:1 กับพิกเซลจริง ช่วยให้งาน computer use และ automation ที่ต้องคลิกหรือกำหนดพื้นที่บนภาพหน้าจอแมปตำแหน่งได้ตรงขึ้น.[4]

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Claude Opus 4.7 Vision กับเพดาน 3.75 MP: ภาพหน้าจอและเอกสารได้อะไร" คืออะไร

Opus 4.7 เพิ่มขีดจำกัดภาพอินพุตจาก 1568 px / 1.15 MP เป็น 2576 px / 3.75 MP หรือราว 3.3 เท่าของจำนวนเมกะพิกเซล เหมาะกับภาพหน้าจอ UI และเอกสารที่มีรายละเอียดแน่น.[4]

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

Opus 4.7 เพิ่มขีดจำกัดภาพอินพุตจาก 1568 px / 1.15 MP เป็น 2576 px / 3.75 MP หรือราว 3.3 เท่าของจำนวนเมกะพิกเซล เหมาะกับภาพหน้าจอ UI และเอกสารที่มีรายละเอียดแน่น.[4] Anthropic ระบุว่ามีการปรับปรุง low level perception และ image localization เช่น การชี้ตำแหน่ง การวัด การนับ bounding box และการตรวจจับวัตถุ.[4]

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

พิกัดที่โมเดลส่งกลับเป็น 1:1 กับพิกเซลจริง ช่วยให้งาน computer use และ automation ที่ต้องคลิกหรือกำหนดพื้นที่บนภาพหน้าจอแมปตำแหน่งได้ตรงขึ้น.[4]

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Security รุ่นเบต้า: Anthropic ใช้ AI สแกนช่องโหว่โค้ดองค์กรอย่างไร" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "Grok 4.3 API ของ xAI: 1M context ราคาต่ำ และเกมรุกสู่แพลตฟอร์มเสียง"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

Tìm kiếm và kiểm chứng thông tin: Vision của Opus 4.7 nâng cấp gì cho ảnh độ phân giải cao, screenshot và tài liệu?

Studio Global AI12 แหล่งที่มา

อ้างถึงคำตอบ

Nếu bạn đang nói tới Claude Opus 4.7 của Anthropic, thì phần Vision được nâng cấp rõ nhất là hỗ trợ ảnh độ phân giải cao hơn rất nhiều, cộng với cải thiện ở việc đọc ảnh/screenshot/tài liệu và các tác vụ định vị chi tiết trong ảnh.[1][4] Tuy vậy, Anthropic chưa công bố benchmark tách riêng cho “screenshot” hay “document OCR” để định lượng chính xác mức tăng theo từng loại nội dung, nên phần đó chỉ có thể kết luận ở mức “được tối ưu hơn”, chưa có số đo chi tiết công khai.[1][4]

  • Opus 4.7 là model Claude đầu tiên có “high-resolution image support”.[4]

  • Giới hạn ảnh tăng lên 2576 px / 3.75 MP, so với mức cũ 1568 px / 1.15 MP.[4]

  • Điều này tương đương lượng điểm ảnh đầu vào tăng khoảng 3.3 lần, nên về thực tế model có nhiều chi tiết hơn để đọc chữ nhỏ, UI nhỏ và bố cục dày thông tin trong ảnh.[4]

  • Với ảnh độ phân giải cao, Anthropic nói nâng cấp này đặc biệt quan trọng cho các workflow “computer use” và cho việc hiểu screenshot, artifact và tài liệu.[4]

  • Nói ngắn gọn: screenshot giao diện, ảnh chụp màn hình có nhiều chữ nhỏ, và tài liệu nhiều chi tiết là đúng nhóm use case mà Anthropic nhắm tới khi nâng cấp Vision ở 4.7.[4]

  • Ngoài tăng độ phân giải, Anthropic còn nói Opus 4.7 cải thiện “low-level perception”, gồm các tác vụ như chỉ điểm, đo đạc, đếm và các tác vụ tương tự.[4]

  • Họ cũng nói khả năng “image localization” được cải thiện, gồm định vị bằng bounding box và phát hiện đối tượng trong ảnh tự nhiên.[4]

  • Với screenshot và tài liệu, cải tiến này hữu ích khi cần chỉ đúng vị trí nút, ô nhập liệu, biểu đồ hoặc vùng nội dung cụ thể trong ảnh.[4]

  • Một thay đổi kỹ thuật đáng chú ý là tọa độ model trả về nay là 1:1 với pixel thật của ảnh, nên không còn phải tự tính hệ số scale khi map tọa độ lên ảnh.[4]

  • Điểm này đặc biệt hữu ích cho automation/computer use và các bài toán click/chỉ vùng trên screenshot.[4]

  • Ở mức mô tả sản phẩm, Anthropic cũng nói Opus 4.7 có “substantially better vision”, có thể nhìn ảnh ở độ phân giải cao hơn, và nhờ đó cho kết quả tốt hơn trong các đầu ra chuyên nghiệp như interfaces, slides và docs.[1][2]

  • Trên trang sản phẩm, Anthropic tiếp tục mô tả Opus 4.7 mạnh hơn ở coding, vision và các tác vụ nhiều bước, đồng thời cho hiệu năng tốt trên slides và docs trong workflow doanh nghiệp.[2]

  • Điểm cần kiểm chứng thận trọng: Anthropic không nêu công khai một con số riêng như “OCR tốt hơn X%” cho screenshot hay tài liệu.[1][4]

  • Vì vậy, phát biểu an toàn nhất là: Vision của Opus 4.7 được nâng cấp bằng đầu vào ảnh sắc nét hơn, hiểu screenshot/tài liệu tốt hơn theo mô tả chính thức, và cải thiện ở định vị/nhận biết chi tiết; còn mức tăng chính xác theo từng hạng mục thì hiện chưa có số liệu công khai đủ để khẳng định.[1][4]

Nếu bạn muốn, mình có thể làm tiếp 1 trong 2 việc:

  • so sánh riêng Opus 4.7 với Opus 4.6 cho use case OCR/screenshot/document;
  • hoặc trích nguyên văn các đoạn official của Anthropic và diễn giải sang tiếng Việt ngắn gọn.

แหล่งที่มา