จุดที่น่าสนใจของ Claude Opus 4.7 Vision ไม่ได้อยู่แค่คำกว้าง ๆ ว่าโมเดลมองภาพได้ดีขึ้น แต่อยู่ที่ขีดจำกัดภาพอินพุตที่ Anthropic ขยายอย่างชัดเจน: Opus 4.7 เป็น Claude รุ่นแรกที่รองรับ high-resolution image support โดยเพิ่มเพดานจาก 1568 px / 1.15 MP เป็น 2576 px / 3.75 MP.[4]
สำหรับคนที่ใช้ AI อ่านภาพหน้าจอ เอกสาร หรือหน้า UI ที่อัดแน่นด้วยรายละเอียด นี่คือการเพิ่มจำนวนพิกเซลที่โมเดลได้เห็นก่อนเริ่มตีความ จาก 1.15 MP ไป 3.75 MP คิดเป็นประมาณ 3.26 เท่าของจำนวนเมกะพิกเซล จึงมีนัยสำคัญกับตัวอักษรเล็ก ตาราง ป้ายกำกับ เมนู และเลย์เอาต์ที่ข้อมูลหนาแน่น.[4]
สิ่งที่ Vision ใน Opus 4.7 เปลี่ยนไป
| ประเด็น | Anthropic ระบุไว้ | ความหมายในการใช้งาน |
|---|---|---|
| รับภาพความละเอียดสูงกว่าเดิม | Opus 4.7 เป็น Claude รุ่นแรกที่มี high-resolution image support และเพิ่มขีดจำกัดเป็น 2576 px / 3.75 MP จาก 1568 px / 1.15 MP.[ | ภาพอินพุตสามารถเก็บรายละเอียดไว้ได้มากขึ้น โดยเฉพาะข้อความเล็ก UI ซับซ้อน และเอกสารที่มีข้อมูลหนาแน่น.[ |
| เจาะกลุ่ม screenshot, artifact และเอกสาร | Anthropic ระบุว่าการเพิ่มความละเอียดนี้สำคัญเป็นพิเศษสำหรับ computer use และการทำความเข้าใจ screenshot, artifacts และ documents.[ | นี่ไม่ใช่แค่การปรับปรุงภาพทั่วไป แต่ตรงกับงานที่ต้องอ่านหน้าจอและเอกสารที่มีรายละเอียดมาก.[ |
| Low-level perception | Anthropic ระบุการปรับปรุงงานอย่างการชี้ตำแหน่ง การวัด การนับ และงานลักษณะใกล้เคียง.[ | มีประโยชน์เมื่อถามถึงตำแหน่ง จำนวน หรือรายละเอียดเล็ก ๆ ในภาพและภาพหน้าจอ.[ |
| Image localization | Opus 4.7 ถูกอธิบายว่าดีขึ้นด้านการระบุตำแหน่งในภาพ รวมถึง bounding box และการตรวจจับวัตถุในภาพธรรมชาติ.[ | เหมาะกับงานที่ต้องหาปุ่ม ช่องกรอกข้อมูล กราฟ หรือวัตถุเฉพาะในภาพ.[ |
| พิกัด 1:1 กับพิกเซลจริง | พิกัดที่โมเดลส่งกลับตอนนี้เป็น 1:1 กับพิกเซลจริงของภาพ.[ | ลดภาระการคำนวณสเกลเองเมื่อต้องนำพิกัดจากคำตอบของโมเดลไปแมปกับภาพต้นฉบับ โดยเฉพาะงาน automation และ computer use.[ |
3.75 MP เปลี่ยนอะไรกับภาพอินพุต
หัวใจของการอัปเกรดคือ Opus 4.7 สามารถรับภาพที่มีขีดจำกัดสูงกว่าเดิมได้ หากก่อนหน้านี้ภาพหน้าจอหรือภาพเอกสารต้องถูกย่อมากเพื่อให้เข้าเงื่อนไขอินพุต ข้อความเล็กและรายละเอียดในอินเทอร์เฟซอาจหายไปก่อนที่โมเดลจะได้วิเคราะห์จริง ด้วยเพดาน 2576 px / 3.75 MP ภาพจึงมีโอกาสรักษารายละเอียดเชิงสายตาไว้ได้มากกว่าในรอบการวิเคราะห์เดียว.[4]
อย่างไรก็ตาม ควรตีความอย่างระมัดระวัง: นี่คือการเพิ่มปริมาณข้อมูลภาพที่โมเดลสามารถรับได้ ไม่ใช่คำรับประกันว่าภาพเบลอ ภาพถูกบีบอัดหนัก หรือเอกสารต้นฉบับคุณภาพต่ำจะอ่านได้ถูกต้องเสมอ ประโยชน์จะเด่นที่สุดเมื่อภาพต้นทางคมชัดอยู่แล้ว แต่มีรายละเอียดมากเกินกว่าขีดจำกัดเดิม.[4]
ทำไมภาพหน้าจอถึงได้ประโยชน์ชัด
ภาพหน้าจอมักมีองค์ประกอบเล็ก ๆ อยู่ติดกันจำนวนมาก เช่น ปุ่ม เมนู ไอคอน ช่องกรอกข้อมูล ตาราง ข้อความแจ้งเตือน แผงด้านข้าง หรือป้ายกำกับกราฟ Anthropic ระบุชัดว่า high-resolution image support ของ Opus 4.7 มีความสำคัญเป็นพิเศษต่อ computer use และการทำความเข้าใจ screenshot.[4]
สำหรับงาน automation สิ่งที่สำคัญไม่แพ้ความละเอียดคือพิกัดที่เป็น 1:1 กับพิกเซลจริงของภาพ.[4] ใน workflow ที่ต้องคลิก ลาก ตรวจตำแหน่ง หรือกำหนดพื้นที่บนภาพหน้าจอ จุดนี้ช่วยให้การนำพิกัดจากโมเดลไปใช้กับภาพต้นฉบับตรงไปตรงมาขึ้น แทนที่จะต้องคำนวณตัวคูณสเกลหลังจากภาพถูกย่อหรือปรับขนาด.[
4]
เอกสาร สไลด์ และ artifact: ประโยชน์อยู่ที่เลย์เอาต์แน่น
เอกสารและสไลด์ไม่ได้มีแค่ข้อความยาว ๆ แต่ยังมีตาราง กราฟ คำอธิบายย่อย ป้ายแกน หัวกระดาษ ท้ายกระดาษ และคอลัมน์หลายชุด Anthropic จัด documents และ artifacts ไว้ในกลุ่มเนื้อหาที่ได้ประโยชน์จากการอัปเกรด Vision ของ Opus 4.7.[4]
หน้า Claude Opus 4.7 ของ Anthropic ยังวางโมเดลนี้ไว้ในบริบทของการปรับปรุงด้าน vision และผลงานเชิงมืออาชีพอย่าง interfaces, slides และ docs.[1] ดังนั้น หาก workflow ของคุณต้องอ่านสไลด์จากภาพหน้าจอ วิเคราะห์เลย์เอาต์เอกสาร หรือตรวจเนื้อหาในภาพเอกสาร การอัปเกรดนี้ควรถูกทดสอบกับข้อมูลจริงของคุณ ไม่ใช่ดูจากภาพตัวอย่างเพียงไม่กี่ภาพ.[
1][
4]
Localization: ไม่ใช่แค่อ่านออก แต่ต้องชี้ตำแหน่งให้ตรง
อีกส่วนสำคัญของ Vision ใน Opus 4.7 คือความสามารถด้านการระบุตำแหน่งในภาพที่ดีขึ้น Anthropic กล่าวถึงความสามารถอย่าง bounding box การตรวจจับวัตถุในภาพธรรมชาติ รวมถึงงาน perception ระดับรายละเอียด เช่น การชี้ตำแหน่ง การวัด และการนับ.[4]
ในภาพหน้าจอและเอกสาร การรู้ตำแหน่งมักสำคัญพอ ๆ กับการอ่านข้อความออก ตัวอย่างเช่น ไม่ใช่แค่รู้ว่ามีปุ่มหนึ่งอยู่ในอินเทอร์เฟซ แต่ต้องรู้ว่าปุ่มนั้นอยู่ตรงไหน หรือไม่ใช่แค่เห็นกราฟ แต่ต้องระบุพื้นที่กราฟหรือจุดข้อมูลที่ต้องการได้ สถานการณ์แบบนี้สอดคล้องกับทิศทางการอัปเกรดที่ Anthropic อธิบายสำหรับ Opus 4.7.[4]
ยังไม่ควรเรียกว่า OCR ดีขึ้นกี่เปอร์เซ็นต์
แหล่งข้อมูลทางการที่ใช้ในบทความนี้ไม่ได้ให้ benchmark แยกเฉพาะว่า OCR สำหรับภาพหน้าจอหรือเอกสารดีขึ้นกี่เปอร์เซ็นต์.[1][
4] ดังนั้นถ้าจะพูดให้แม่นกว่า ควรบอกว่า Vision ของ Opus 4.7 ได้รับการอัปเกรดผ่านการรองรับภาพความละเอียดสูงขึ้น การปรับปรุง perception และ localization และ Anthropic ระบุว่าสิ่งนี้สำคัญกับ screenshot, artifact และเอกสาร.[
4]
พูดอีกแบบคือ มีเหตุผลที่จะคาดหวังว่า Opus 4.7 จะรับมือกับภาพที่รายละเอียดแน่นได้ดีขึ้นเมื่อความละเอียดเป็นคอขวด แต่ยังไม่มีตัวเลขสาธารณะที่ละเอียดพอให้สรุปว่า OCR จะดีขึ้นในอัตราคงที่สำหรับภาพหน้าจอหรือเอกสารทุกประเภท.[1][
4]
วิธีทดสอบ Opus 4.7 Vision ใน workflow จริง
ถ้าคุณกำลังพิจารณาใช้ Opus 4.7 ในผลิตภัณฑ์หรือกระบวนการภายใน ควรทดสอบเป็นชุดงาน ไม่ใช่ถามจากภาพตัวอย่างไม่กี่ภาพเท่านั้น:
- ภาพความละเอียดสูง: ใช้ภาพเดียวกันที่มีข้อความเล็กจำนวนมาก ทั้งเวอร์ชันต้นฉบับและเวอร์ชันที่ถูกย่อ เพื่อดูผลเมื่อโมเดลได้รับพิกเซลมากขึ้น.[
4]
- ภาพหน้าจอ UI: ให้โมเดลระบุปุ่ม ช่องกรอกข้อมูล ข้อความผิดพลาด และพื้นที่ที่เกี่ยวข้องในอินเทอร์เฟซ.
- เอกสารหรือสไลด์: ตรวจความสามารถในการอ่านตาราง คำอธิบายขนาดเล็ก กราฟ และเลย์เอาต์หลายคอลัมน์ เพราะ documents และ artifacts เป็นกลุ่มที่ Anthropic กล่าวถึงในการอัปเกรด Vision.[
4]
- Automation: ให้โมเดลส่งพิกัดหรือ bounding box แล้วตรวจว่าพิกัดนั้นแมปกับพิกเซลของภาพต้นฉบับได้ถูกต้องตามกลไก 1:1 ที่ Anthropic ประกาศไว้.[
4]
- OCR: วัดอัตราถูกผิดด้วยชุดเอกสารที่เป็นตัวแทนของงานจริง เพราะ Anthropic ยังไม่ได้เผยตัวเลข OCR เฉพาะสำหรับภาพหน้าจอหรือเอกสารในแหล่งทางการเหล่านี้.[
1][
4]
สรุป
การอัปเกรด Vision ของ Claude Opus 4.7 มีค่ามากที่สุดเมื่อภาพมีรายละเอียดเล็กจำนวนมาก หรือเมื่อแอปพลิเคชันต้องระบุตำแหน่งในภาพอย่างแม่นยำ สามจุดที่ควรจำคือ ขีดจำกัดภาพเพิ่มเป็น 2576 px / 3.75 MP, ความสามารถ perception/localization ดีขึ้น และพิกัดที่ส่งกลับเป็น 1:1 กับพิกเซลจริงของภาพ.[4]
นี่เป็นการปรับปรุงที่ชัดเจนสำหรับภาพหน้าจอ เอกสาร artifact และงาน computer use แต่ถ้าเป้าหมายคือ OCR เอกสารในระดับผลิตภัณฑ์ ก็ควร benchmark กับข้อมูลจริงของคุณเอง แทนที่จะสรุปเป็นเปอร์เซ็นต์ตายตัวจากตัวเลขความละเอียดเพียงอย่างเดียว.[1][
4]




