ถ้าพูดให้เป็นภาษาคนทำงานจริง จุดนี้ทำให้ Opus 4.7 น่าสนใจสำหรับงานที่ต้องอ่านข้อมูลยาวมาก เช่น โค้ดเบสขนาดใหญ่ เอกสารเทคนิคหลายสิบหรือหลายร้อยหน้า งานวิเคราะห์หลายขั้นตอน หรือเวิร์กโฟลว์แบบเอเจนต์ที่ต้องจำบริบทต่อเนื่องระหว่างทำงาน
ภาพจากเบนช์มาร์กสาธารณะก็ไปทางเดียวกัน โดย Vals AI จัดให้ Opus 4.7 เป็นอันดับ 1 ในหลายลีดเดอร์บอร์ดที่เกี่ยวกับโค้ดและงานแบบเอเจนต์
อย่างไรก็ตาม หลักฐานที่มีไม่พอจะบอกว่า Opus 4.7 คือโมเดลที่ดีที่สุดในทุกงาน Vals AI ยังจัด Opus 4.7 ต่ำกว่าอันดับ 1 ในหลายเบนช์มาร์ก และเอกสารเปิดตัวของ Anthropic เองระบุว่า Claude Mythos Preview มีความสามารถโดยรวมกว้างกว่า Opus 4.7
ความสามารถดิบที่สำคัญที่สุดของ Opus 4.7 คือขนาดบริบท Anthropic และ AWS ระบุว่ารองรับ context window 1 ล้านโทเคน และ output สูงสุด 128k โทเคน ขีดจำกัดเหล่านี้มีความหมายมากเมื่อต้องให้โมเดลอ่าน เก็บ และตอบจากอินพุตขนาดใหญ่มาก เช่น repository ขนาดใหญ่ รายงานยาว งานเทคนิคหลายไฟล์ หรือบันทึกการทำงานของเอเจนต์แบบละเอียด
แต่มีรายละเอียดที่ทีมพัฒนาควรทดสอบก่อนย้ายมาใช้จริง Anthropic ระบุว่า Opus 4.7 ใช้ tokenizer ใหม่ ซึ่งอาจนับจำนวนโทเคนมากกว่าโมเดลก่อนหน้าโดยประมาณ 1 เท่าถึง 1.35 เท่า ขึ้นอยู่กับเนื้อหา แปลแบบง่าย ๆ คือ prompt หรือ workflow ที่เคยพอดีกับ Claude รุ่นก่อน อาจต้องตรวจงบโทเคนใหม่เมื่อมาใช้ Opus 4.7
Anthropic วางตำแหน่ง Opus 4.7 ว่าเป็นการยกระดับที่สำคัญจาก Opus 4.6 สำหรับงานวิศวกรรมซอฟต์แวร์ขั้นสูงและงานซับซ้อนที่ทำต่อเนื่องเป็นเวลานาน เอกสารเปิดตัวยังเน้นว่าโมเดลทำตามคำสั่งได้ดีขึ้น ตรวจสอบตัวเองได้ดีขึ้น และมีความสม่ำเสมอมากขึ้นในงานเขียนโค้ดที่ยาก
ตัวเลขที่ชัดที่สุดในเอกสารเปิดตัวของ Anthropic คือผลที่รายงานโดยลูกค้า: ดีขึ้น 13% เมื่อเทียบกับ Opus 4.6 บนเบนช์มาร์กงานโค้ด 93 งาน รวมถึง 4 งานที่ Opus 4.6 และ Sonnet 4.6 แก้ไม่สำเร็จ ตัวเลขนี้มีน้ำหนัก แต่ควรอ่านในฐานะหลักฐานจากเอกสารเปิดตัว ไม่ใช่การตรวจสอบอิสระแบบกว้างเต็มรูปแบบ
ข้อมูลภายนอกจาก Vals AI ก็สนับสนุนภาพเดียวกัน Vals AI จัด Claude Opus 4.7 ไว้อันดับ 1/40 บน Vals Index, 1/41 บน SWE-bench, 1/52 บน Terminal-Bench 2.0 และ 1/26 บน Vibe Code Bench เมื่อนำมารวมกัน อันดับเหล่านี้ชี้ว่า Opus 4.7 แข่งขันได้โดดเด่นเป็นพิเศษในงานโค้ดเชิงปฏิบัติ งานเทอร์มินัล และการทำงานแบบเอเจนต์
หน้าเดียวกันของ Vals AI เป็นเหตุผลว่าทำไมต้องสรุปแบบมีเงื่อนไข Opus 4.7 ถูกจัดไว้ที่ 7/96 บน AIME, 13/103 บน LiveCodeBench และ 7/66 บน MMMU Pro นี่เป็นอันดับที่แข็งแรง แต่ไม่ใช่อันดับ 1
Vals AI ยังระบุด้วยว่าบางการรันเบนช์มาร์กอาจใช้ผู้ให้บริการและพารามิเตอร์ต่างกัน ดังนั้นอันดับเหล่านี้ควรใช้เป็นหลักฐานเชิงทิศทาง ไม่ใช่การเปรียบเทียบแบบควบคุมทุกปัจจัยจนเทียบกันได้เป๊ะ ๆ
Opus 4.7 ยังน่าสนใจสำหรับเวิร์กโฟลว์ที่มีรูปภาพจำนวนมาก Anthropic ระบุว่านี่เป็นโมเดล Claude รุ่นแรกที่รองรับภาพความละเอียดสูง โดยเพิ่มความละเอียดภาพสูงสุดเป็น 2576px / 3.75MP จากเดิม 1568px / 1.15MP
Anthropic ระบุว่าการเปลี่ยนแปลงนี้ช่วยปรับปรุงการรับรู้รายละเอียดระดับล่างและการระบุตำแหน่งภายในภาพ นั่นทำให้ Opus 4.7 เหมาะกับอินพุตภาพที่ต้องดูรายละเอียดมากกว่า Claude รุ่นก่อน แต่เอกสารสาธารณะพิสูจน์เรื่องการเพิ่มความละเอียดได้โดยตรงมากกว่าการการันตีว่าความแม่นยำจะดีขึ้นในทุกงาน vision จริง
แต่ยังไม่ควรพูดว่าเป็น Claude ที่ทรงพลังที่สุดทั้งหมด เพราะเอกสารเปิดตัวของ Anthropic เองระบุว่า Claude Opus 4.7 มีความสามารถโดยรวมกว้างน้อยกว่า Claude Mythos Preview ความต่างนี้สำคัญ: Opus 4.7 อาจเป็น Opus รุ่นใช้งานทั่วไปที่แข็งแกร่งที่สุด แต่ไม่ได้แปลว่าเป็นโมเดลที่ดีที่สุดของ Anthropic สำหรับทุกงาน
Opus 4.7 ดูเหมาะที่สุดเมื่อจุดแข็งที่มีเอกสารรองรับเป็นสิ่งสำคัญของงาน ได้แก่ งานโค้ดยาก ๆ การทำงานแบบเอเจนต์หลายขั้นตอน โค้ดเบสขนาดใหญ่ เอกสารยาวมาก และอินพุตภาพความละเอียดสูง
ในทางกลับกัน ไม่ควรเลือก Opus 4.7 เพียงเพราะชื่อดูเหมือนเป็นผู้ชนะทุกลีดเดอร์บอร์ด หากงานของคุณพึ่งพาเบนช์มาร์กกลุ่มที่ Vals AI ไม่ได้จัดให้ Opus 4.7 เป็นอันดับ 1 เช่น AIME, LiveCodeBench หรือ MMMU Pro วิธีที่รอบคอบกว่าคือทดสอบกับงานจริงของคุณก่อนนำไปใช้เป็นมาตรฐาน
จากหลักฐานสาธารณะที่มี Claude Opus 4.7 เป็นโมเดลที่ทรงพลังมาก มี context window 1 ล้านโทเคน รองรับ output สูงสุด 128k โทเคน และมีสัญญาณเบนช์มาร์กที่แข็งแรงเป็นพิเศษในงานโค้ดและเวิร์กโฟลว์แบบเอเจนต์
คำตอบสุดท้ายที่รอบคอบจึงไม่ใช่ “ดีที่สุดทุกอย่าง” แต่คือ Opus 4.7 ดูเป็นหนึ่งในโมเดลที่เปิดใช้ทั่วไปและแข็งแกร่งที่สุดสำหรับ coding agent งานบริบทยาว และงานภาพที่ต้องการความละเอียดสูง ขณะเดียวกัน การวางตำแหน่งโมเดลของ Anthropic และอันดับเบนช์มาร์กที่ผสมกันของ Vals AI ยังเปิดช่องให้โมเดลอื่นทำได้ดีกว่าในบางโดเมน
Comments
0 comments