คำตอบเผยแพร่แล้ว29 เม.ย. 2026Last edited 6 พ.ค. 20262 แหล่งที่มา

Claude Opus 4.7 กับงานอ่านภาพเอกสาร: สกรีนช็อต PDF และรายงานได้อะไรเพิ่ม

Claude Opus 4.7 เพิ่มขีดจำกัดภาพจาก 1,568px／1.15MP เป็น 2,576px／3.75MP ช่วยให้งานอ่านสกรีนช็อตและเอกสารภาพมีโอกาสเห็นรายละเอียดเล็ก ๆ ได้ดีขึ้น แต่ Anthropic ยังไม่ได้เผย benchmark เฉพาะสำหรับ PDF หรือการดึงตารางโดยตร... กลุ่มงานที่น่าจะได้ประโยชน์มากคือ UI screenshot, PDF แบบสแกน, รายงานที่มีตัวอักษรเล็ก กราฟ ตาราง...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

17K0

抽象 AI 介面正在解析截圖、PDF 頁面與報表圖表，呈現 Claude Opus 4.7 的視覺文件能力升級 — Claude Opus 4.7 視覺升級：看截圖、PDF 與報表到底強在哪？Claude Opus 4.7 的文件進步主要來自更高解析圖片與更好的視覺定位，而非已公開的 PDF 專用 benchmark。
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 視覺升級：看截圖、PDF 與報表到底強在哪？. Article summary: Claude Opus 4.7 在文件與截圖任務的可查核升級，主要是視覺層：圖片上限從 1568px／1.15MP 提高到 2576px／3.75MP，並改善定位等能力；但官方未公布 PDF／表格抽取專項 benchmark。[1][8]. Topic tags: ai, anthropic, claude, multimodal ai, computer vision. Reference image context from search candidates: Reference image 1: visual subject "Opus 4.7 在高级软件工程任务上相比Opus 4.6 有显著提升，尤其是在最困难的任务上进步明显。用户反馈说，现在可以放心地把最难的编程工作——那种之前需要密切" source context "Claude Opus 4.7 发布：编程能力与视觉能力显著提升_模型_任务_测试" Reference image 2: visual subject "Opus 4.7 在高级软件工程任务上相比Opus 4.6 有显著提升，尤其是在最困难的任务上进步明显。用户反馈说，现在可以放心地把最难的编程工作——那种之前需要密切" source context "Claude Opus 4.7 发布：编程能力与视觉能力显著提升_模型_任务_测试" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for bro
openai.com

คำถามว่า Claude Opus 4.7 “อ่าน PDF เก่งขึ้นไหม” อาจต้องถามใหม่ให้เฉพาะขึ้นว่า เอกสารนั้นเป็นภาพที่ต้องมองรายละเอียดหรือเป็นข้อความสะอาด ๆ เพราะหลักฐานทางการที่ตรวจสอบได้ชี้ว่า การอัปเกรดรอบนี้อยู่ที่ความสามารถด้านการมองเห็นของโมเดล ไม่ใช่การประกาศเอนจิน PDF ใหม่โดยเฉพาะ ^[1]^[8]

พูดให้สั้นที่สุด: Opus 4.7 เหมาะขึ้นกับงานที่ต้องดูภาพละเอียด เช่น สกรีนช็อต หน้าเอกสารที่สแกน รายงานที่มีกราฟ ตาราง หรือ UI ที่มีตัวหนังสือเล็ก ๆ แต่ยังไม่ควรตีความว่า “ทุกงาน PDF และทุกงานดึงตารางแม่นขึ้นแบบมีตัวเลขยืนยันแล้ว” เพราะข้อมูลทางการที่ให้มาไม่ได้มี benchmark เฉพาะสำหรับ PDF understanding, report understanding หรือ table extraction แยกออกมา ^[1]^[8]

ข้อสรุปที่ตรวจสอบได้: เก่งขึ้นด้าน vision ไม่ใช่ PDF benchmark โดยตรง

เอกสารของ Anthropic ระบุว่า Claude Opus 4.7 เป็น Claude รุ่นแรกที่รองรับภาพความละเอียดสูง โดยเพิ่มขีดจำกัดภาพจาก 1,568px／1.15MP เป็น 2,576px／3.75MP ^[1] ขณะเดียวกัน บทความเปิดตัวของ Anthropic ระบุว่า Opus 4.7 มีความสามารถด้าน vision ที่ดีขึ้นอย่างชัดเจน และมีการปรับปรุงด้าน multimodal understanding หรือการเข้าใจข้อมูลหลายรูปแบบ เช่น ภาพร่วมกับข้อความ ^[8]

ดังนั้น การอัปเกรดนี้ควรมองเป็น “ชั้นรับภาพดีขึ้น” มากกว่า “ระบบอ่าน PDF ใหม่ทั้งหมด” จุดที่น่าจะเห็นผลคือการอ่านรายละเอียดในภาพ การเข้าใจเลย์เอาต์ที่มีทั้งภาพและข้อความ และการชี้ตำแหน่งขององค์ประกอบบนหน้าเอกสารหรือหน้าจอ ^[1]^[8]

1. ภาพละเอียดขึ้น: ตัวเล็ก กราฟแน่น และป้ายกำกับมีโอกาสอ่านได้ดีขึ้น

การเพิ่มความละเอียดสูงสุดจาก 1,568px／1.15MP เป็น 2,576px／3.75MP เป็นสเปกด้านภาพที่ชัดที่สุดในเอกสารทางการของ Opus 4.7 ^[1]

สำหรับงานเอกสาร นี่ไม่ใช่ตัวเลขสวย ๆ บนกระดาษเท่านั้น หลายครั้งที่โมเดลตอบผิดไม่ใช่เพราะไม่เข้าใจคำถาม แต่เพราะภาพต้นทางมีตัวอักษรเล็กเกินไป ตารางแน่นเกินไป เส้นกราฟหรือ legend อ่านยาก หรือข้อความเตือนใน UI อยู่ในมุมเล็ก ๆ การรับภาพที่ละเอียดขึ้นไม่ได้รับประกันว่าคำตอบจะถูกทุกครั้ง แต่ทำให้โมเดลมีข้อมูลภาพดิบมากขึ้น โดยเฉพาะในงานที่ต้องอ่านตัวเล็ก ดูป้ายกำกับกราฟ ระบุตำแหน่งช่องข้อมูล หรือเข้าใจเลย์เอาต์ซับซ้อน ^[1]

2. สกรีนช็อตและงานเอกสารถูกระบุเป็นกรณีใช้งานที่เกี่ยวข้องโดยตรง

เอกสารของ Anthropic เชื่อมโยงการรองรับภาพความละเอียดสูงกับ computer use, screenshot, artifact และ document understanding workflows โดยตรง ^[1] แปลเป็นภาษางานจริงคือ Opus 4.7 ไม่ได้ดีขึ้นเฉพาะกับ “รูปภาพทั่วไป” แต่มีนัยสำคัญกับภาพหน้าจอ หน้าเอกสาร อินเทอร์เฟซผลิตภัณฑ์ และรายงานที่มีองค์ประกอบภาพจำนวนมาก

สถานการณ์ใช้งาน	สิ่งที่อาจดีขึ้น	ข้อควรระวัง
UI screenshot	เห็นปุ่ม ช่องกรอกข้อมูล ข้อความผิดพลาด และโซนต่าง ๆ บนหน้าจอได้ดีขึ้น เพราะเอกสารทางการโยงภาพความละเอียดสูงกับ screenshot workflows ^[1]	หากนำไปสั่งงานอัตโนมัติ ควรตรวจสอบตำแหน่งและการตีความองค์ประกอบอีกชั้น
PDF แบบสแกนหรือภาพหน้าเอกสาร	มีโอกาสอ่านตัวเล็ก เลย์เอาต์แน่น ป้ายกำกับกราฟ และความสัมพันธ์ระหว่างบล็อกข้อมูลได้ดีขึ้น โดย Anthropic ระบุถึง document understanding workflows ^[1]	นี่เป็นการปรับปรุงด้านภาพ ไม่ใช่คะแนน PDF benchmark เฉพาะทาง
รายงานที่มีกราฟและตาราง	เหมาะกับเนื้อหาผสมภาพและข้อความมากขึ้น โดยบทความเปิดตัวกล่าวถึงการปรับปรุง multimodal understanding ^[8]	การคัดลอกตัวเลขและดึงตารางยังควรตรวจทานด้วยคนหรือระบบตรวจสอบ
แผนภาพเทคนิค	ช่วยในการวิเคราะห์องค์ประกอบ ป้ายชื่อ และความสัมพันธ์ของพื้นที่ในภาพได้ดีขึ้น เพราะ Anthropic ระบุว่า vision ดีขึ้น ^[8]	ภาพที่ซับซ้อนมากอาจต้องถามทีละส่วน แทนที่จะถามรวมทั้งหน้า

3. ไม่ใช่แค่มองชัดขึ้น แต่ชี้ วัด และนับได้ดีขึ้นด้วย

เอกสารของ Anthropic ระบุว่า Opus 4.7 ปรับปรุงความสามารถด้าน visual perception ระดับพื้นฐาน เช่น pointing, measuring และ counting ^[1] ฟังดูเหมือนเรื่องเล็ก แต่สำหรับงานเอกสารและสกรีนช็อต นี่คือแกนสำคัญมาก

Pointing: ชี้ว่าปุ่ม ช่องข้อมูล ป้ายชื่อ หรือบล็อกข้อความอยู่ตรงไหน ^[1]
Measuring: ประเมินระยะห่าง ขนาด หรือความสัมพันธ์เชิงตำแหน่งขององค์ประกอบในภาพ ^[1]
Counting: นับรายการ แถว เครื่องหมาย จุดข้อมูล หรือบล็อกที่ปรากฏในภาพ ^[1]

งานรายงานจำนวนมากไม่ได้ต้องการแค่สรุปใจความ แต่ถามรายละเอียดเชิงภาพ เช่น “ตัวเลขมุมขวาบนของกราฟที่สามคืออะไร”, “แถวไหนมีเครื่องหมายผิดปกติ”, หรือ “ผังงานนี้มีจุดตัดสินใจกี่จุด” คำถามแบบนี้พึ่งพาการจับตำแหน่งและการรับรู้รายละเอียดภาพมากพอ ๆ กับการให้เหตุผลทางภาษา ^[1]

4. พิกัด 1:1 กับพิกเซลจริง ทำให้งาน UI และ automation ตรงไปตรงมาขึ้น

Anthropic ระบุว่า image localization ของ Claude Opus 4.7 ดีขึ้น รวมถึง bounding-box localization และ detection ในภาพธรรมชาติ ^[1] สำหรับงานเอกสารและหน้าจอ หมายถึงโมเดลเหมาะขึ้นกับคำถามประเภท “บล็อกนี้อยู่ตรงไหน”, “กรอบตารางอยู่ช่วงใด”, หรือ “ปุ่มนี้อยู่บริเวณใดของภาพ”

อีกจุดที่มีผลจริงกับ workflow คือเอกสารระบุว่าพิกัดของ Opus 4.7 สอดคล้องกับพิกเซลจริงแบบ 1:1 ไม่ต้องแปลงสเกลเพิ่มเติม ^[1] ถ้าคุณต้องการให้โมเดลระบุตำแหน่งปุ่ม กรอบพื้นที่ตาราง จุดของข้อความผิดพลาด หรือส่งพิกัดต่อให้ระบบ automation การลดขั้นตอนแปลงพิกัดทำให้กระบวนการตรงกว่าเดิม ^[1]

5. PDF และรายงานต้องแยกตามชนิดของข้อมูล

PDF แบบสแกน หน้าเอกสารเป็นภาพ หรือรายงานที่ export เป็นรูป

ถ้า PDF มีลักษณะเป็นหน้าสแกน เป็นภาพหน้าเอกสาร หรือคุณแปลงหน้าเอกสารเป็นสกรีนช็อตแล้วส่งเข้าโมเดล การรองรับภาพความละเอียดสูงและการเชื่อมโยงกับ document understanding workflows ของ Opus 4.7 น่าจะมีประโยชน์ที่สุด ^[1]

งานที่ควรทดลอง ได้แก่ อ่านตัวเล็ก หา field เฉพาะ เข้าใจโครงหน้า แปลความกราฟ และระบุตำแหน่งของบล็อกข้อมูลในหน้าเอกสาร

รายงานที่มีกราฟ ตาราง และแผนภาพเทคนิค

ถ้ารายงานมีกราฟ ตารางในรูปภาพ แผนภาพเทคนิค หรือเลย์เอาต์ซับซ้อน การเพิ่มความละเอียดภาพ การปรับปรุง visual perception และ image localization จะมีคุณค่ามากขึ้น ^[1] บทความเปิดตัวของ Anthropic ยังกล่าวถึงการปรับปรุงด้าน vision และ multimodal understanding ด้วย ^[8]

แต่ถ้าเป้าหมายหลักคือการดึงตารางซับซ้อนออกมาเป็นข้อมูลเชิงโครงสร้างอย่างเสถียร เช่น CSV หรือฐานข้อมูล ควรทดสอบกับเอกสารจริงของคุณเองก่อน ข้อมูลทางการที่ใช้ในบทความนี้ยังไม่ได้ให้ benchmark เฉพาะด้าน table extraction จึงไม่ควรสรุปว่าการอัปเกรด vision เท่ากับการดึงตารางแม่นยำทุกกรณี ^[1]^[8]

PDF ที่เป็นข้อความสะอาด

ถ้าเอกสารเป็นข้อความสะอาด เลย์เอาต์ไม่ซับซ้อน และโจทย์คือสรุปหรือถามตอบจากข้อความ การอัปเกรดภาพความละเอียดสูงอาจไม่ใช่ปัจจัยหลัก จุดเด่นที่ตรวจสอบได้ของ Opus 4.7 คือภาพความละเอียดสูง การจับตำแหน่งในภาพ และความเข้าใจหลายรูปแบบ ไม่ใช่การประกาศระบบอ่าน PDF ข้อความแบบใหม่ ^[1]^[8]

6. ต้นทุน: ภาพละเอียดสูงไม่ใช่ของฟรี

Anthropic เตือนว่าภาพความละเอียดสูงใช้โทเคนมากขึ้น และถ้างานไม่ต้องการรายละเอียดภาพระดับนั้น ควร downsample หรือย่อภาพก่อน เพื่อควบคุมต้นทุน ^[1]

แนวทางใช้งานที่ปลอดภัยกว่าในทางปฏิบัติคือ:

ถ้าต้องอ่านตัวเล็ก ป้ายกราฟ หรือระบุตำแหน่งอย่างแม่นยำ ให้คงภาพความละเอียดสูงไว้ ^[1]
ถ้าต้องการเพียงสรุปภาพรวม และหน้าเอกสารไม่แน่นมาก ให้ลดความละเอียดก่อน เพื่อเลี่ยงโทเคนที่ไม่จำเป็น ^[1]
ถ้าไม่แน่ใจ ให้ทดลองด้วยภาพความละเอียดกลางก่อน หากพบว่าหลุดรายละเอียด ค่อยเพิ่มความละเอียดแล้วเทียบทั้งคุณภาพคำตอบและต้นทุน ^[1]

7. วิธีทดสอบว่าเหมาะกับ workflow เอกสารของคุณหรือไม่

อย่าทดสอบด้วยคำถามกว้าง ๆ ว่า “อ่าน PDF ได้ไหม” เพราะคำตอบจะไม่ช่วยตัดสินใจมากนัก ควรแยกงานจริงออกเป็นหลายประเภท เช่น สรุปเนื้อหา ดึงรายละเอียด ตรวจตัวเลข และระบุตำแหน่งบนหน้า

ขั้นตอนทดสอบที่แนะนำ:

เตรียมตัวอย่างที่แทนงานจริง เช่น UI screenshot, PDF แบบสแกน, รายงานที่มีกราฟ, ตารางแน่น ๆ และแผนภาพเทคนิค
เปรียบเทียบไฟล์นำเข้าหลายแบบ เช่น ภาพต้นฉบับ ภาพความละเอียดสูง ภาพบีบอัด และภาพที่ downsample แล้ว
แยกคำถามเป็น 3 กลุ่ม: สรุปภาพรวม, ดึงรายละเอียด, และถามตำแหน่งหรือพิกัด
ขอให้โมเดลบอกหลักฐานประกอบ เช่น บริเวณหน้าเอกสาร แถว/คอลัมน์ในตาราง ตำแหน่งกราฟ หรือพิกัด
ตรวจตัวเลขและตารางด้วยคน โดยเฉพาะตารางข้ามหน้า หัวตารางหลายชั้น เซลล์ที่ merge และค่าที่อ่านจากกราฟ
บันทึกต้นทุนโทเคนควบคู่กัน เพราะภาพความละเอียดสูงใช้โทเคนมากขึ้น ^[1]

บรรทัดสุดท้าย

Claude Opus 4.7 น่าสนใจขึ้นสำหรับงานสกรีนช็อต เอกสารสแกน PDF แบบภาพ รายงานที่มีกราฟ แผนภาพเทคนิค และเลย์เอาต์ซับซ้อน เพราะ Anthropic ยืนยันการปรับปรุงด้านภาพความละเอียดสูง, visual perception, image localization และพิกัด 1:1 กับพิกเซลจริง ^[1] Anthropic ยังระบุในบทความเปิดตัวว่า Opus 4.7 มี vision และ multimodal understanding ที่ดีขึ้น ^[8]

อย่างไรก็ตาม หลักฐานทางการที่ตรวจสอบได้สนับสนุนข้อสรุปว่า “อ่านภาพได้ดีขึ้น” มากกว่า “PDF parsing หรือ table extraction ดีขึ้นแบบมีตัวเลขเฉพาะทางยืนยันแล้ว” หากงานของคุณเกี่ยวข้องกับ PDF ข้อความล้วน รายงานด้าน compliance หรือการดึงตารางที่ต้องแม่นยำสูง วิธีที่น่าเชื่อถือที่สุดยังคงเป็นการทดสอบ A/B กับเอกสาร สกรีนช็อต และรายงานจริงของคุณเอง ก่อนนำ Opus 4.7 เข้า workflow ที่ใช้งานจริง ^[1]^[8]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

Claude Opus 4.7 เพิ่มขีดจำกัดภาพจาก 1,568px／1.15MP เป็น 2,576px／3.75MP ช่วยให้งานอ่านสกรีนช็อตและเอกสารภาพมีโอกาสเห็นรายละเอียดเล็ก ๆ ได้ดีขึ้น แต่ Anthropic ยังไม่ได้เผย benchmark เฉพาะสำหรับ PDF หรือการดึงตารางโดยตร...
กลุ่มงานที่น่าจะได้ประโยชน์มากคือ UI screenshot, PDF แบบสแกน, รายงานที่มีตัวอักษรเล็ก กราฟ ตาราง หรือแผนภาพเทคนิค เพราะเอกสารของ Anthropic เชื่อมโยงภาพความละเอียดสูงกับ screenshot และ document understanding workflows...
ภาพความละเอียดสูงใช้โทเคนมากขึ้น Anthropic จึงแนะนำให้ลดความละเอียดเมื่อไม่ต้องการรายละเอียดระดับภาพ และควรทดสอบ A/B กับเอกสารจริงของตนเองก่อนนำเข้ากระบวนการสำคัญ [1]

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Claude Opus 4.7 กับงานอ่านภาพเอกสาร: สกรีนช็อต PDF และรายงานได้อะไรเพิ่ม" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

ภาพความละเอียดสูงใช้โทเคนมากขึ้น Anthropic จึงแนะนำให้ลดความละเอียดเมื่อไม่ต้องการรายละเอียดระดับภาพ และควรทดสอบ A/B กับเอกสารจริงของตนเองก่อนนำเข้ากระบวนการสำคัญ [1]

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Security รุ่นเบต้า: Anthropic ใช้ AI สแกนช่องโหว่โค้ดองค์กรอย่างไร" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "Grok 4.3 API ของ xAI: 1M context ราคาต่ำ และเกมรุกสู่แพลตฟอร์มเสียง"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security รุ่นเบต้า: Anthropic ใช้ AI สแกนช่องโหว่โค้ดองค์กรอย่างไร

Claude Security คืออะไร: AI ของ Anthropic สำหรับสแกนช่องโหว่โค้ดองค์กร

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API ของ xAI: 1M context ราคาต่ำ และเกมรุกสู่แพลตฟอร์มเสียง

Grok 4.3 API: 1M context กับราคา $1.25/$2.50 เปลี่ยนการแข่งขันโมเดลและเสียงอย่างไร

Xiaomi Q5 น่าจะไม่ใช่ MIX 5: เบาะแสล่าสุดชี้ไปที่ Xiaomi 18

Xiaomi Q5 ใช่ MIX 5 ไหม? ข่าวหลุดล่าสุดชี้ไปที่ Xiaomi 18 มากกว่า

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta ใช้ AI ตรวจอายุ: Instagram และ Facebook จะเข้มกับบัญชีเด็กอย่างไร

การสนทนาการวิจัย

คุณ20 เม.ย. 2026

คำถามวิจัย

搜尋並查核事實：Claude Opus 4.7 看截圖、PDF、報表、文件的能力進步在哪裡？

Studio Global AI20 เม.ย. 202610 แหล่งที่มา

อ้างถึงคำตอบ

查核官方資料後，Claude Opus 4.7 在「看截圖、PDF、報表、文件」上的已知進步，核心不是新增獨立的 PDF/文件引擎，而是視覺能力本身變強：可吃更高解析圖片、看細節更準、找區域更好，所以對截圖、掃描 PDF、圖表表格、技術文件這類內容更有利。^[1]^[8] 目前我沒有看到官方公布一個專門針對「PDF/報表理解」的單一公開 benchmark；最能被證實的是下面這些改進。^[1]^[5]

Opus 4.7 是 Anthropic 第一個支援高解析圖片的 Claude 模型，最大圖片解析度從 1568px / 1.15MP 提高到 2576px / 3.75MP。^[1]
Anthropic 官方直接寫明，這個解析度提升特別重要於 computer use，以及 screenshot / artifact / document understanding workflows，也就是截圖、介面畫面、文件理解這類工作流。^[1]
除了更高解析度，Opus 4.7 還改進了低階視覺感知能力，包括 pointing、measuring、counting 這類任務。^[1]
官方也說它的 image localization 更好，包含自然影像的 bounding-box localization 與 detection 改進。^[1]
對看螢幕截圖來說，另一個很實際的變化是座標改成與實際像素 1:1 對應，不需要再做縮放換算；這會讓標註畫面位置、指出按鈕/欄位/區塊更直接。^[1]
Anthropic 在發表文中也總結說，Opus 4.7 的 vision「substantially better」，而且能以更高解析度看圖。^[8]
對 PDF 來說，Claude 原本就支援處理 PDF，能讀取其中的文字、圖片、圖表與表格；所以 4.7 的進步比較像是「視覺讀圖層面變強」，不是官方另外宣布了一個全新的 PDF 功能。^[5]^[1]
這表示受益最大的，很可能是掃描式 PDF、內嵌圖表的報表、含小字與密集版面的文件、技術示意圖、產品截圖等需要看清細節的內容；但這一點是根據官方功能描述做的合理推論，不是官方單獨公布的 PDF 專項分數。^[1]^[5]
官方早期測試回饋也提到，Opus 4.7 的 multimodal understanding 有明顯進步，例子包括讀 chemical structures 和複雜 technical diagrams。^[8]
代價是高解析圖片會消耗更多 tokens；如果不需要那麼高的圖像細節，Anthropic 建議先 downsample，以免成本上升。^[1]

如果你要一句話總結：Claude Opus 4.7 在看截圖、PDF、報表、文件上的進步，已知最扎實的事實是「看得更清楚、抓細節更準、定位區塊更好」；但目前官方沒有公開證明它在「純文字 PDF 解析」或「表格抽取」上有單獨、量化的大幅躍升。^[1]^[5]^[8]

如果你要，我下一步可以幫你把這些進步拆成 3 類場景做更具體比較：

截圖/UI 理解
掃描 PDF / 報表 / 表格
一般文件摘要與問答

แหล่งที่มา

[1] What's new in Claude Opus 4.7platform.claude.com
Claude Opus 4.7 introduces task budgets. This new tokenizer may use roughly 1x to 1.35x as many tokens when processing text compared to previous models (up to 35% more, varying by content), and /v1/messages/count tokens will return a different number of tok...
[8] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Skip to main contentSkip to footer. Developers can use claude-opus-4-7 via the Claude API. . . ![Image 5: logo](

ค้นพบเทรนด์