แต่ต้องแยกสัญญาณออกจากข้อพิสูจน์ ข้อมูลส่วนนี้ยังเป็นเอกสารเปิดตัวจากผู้ขาย จึงบอกได้ว่า Anthropic ต้องการวาง Opus 4.7 ไว้ตรงไหน แต่ยังไม่พอจะพิสูจน์ว่าเหนือกว่าทุกโมเดลชั้นนำในการทดสอบระยะยาวที่เป็นกลาง
เอเจนต์ระยะยาวมักต้องถือข้อมูลจำนวนมากไว้พร้อมกัน ไม่ว่าจะเป็น codebase เอกสาร ผลลัพธ์จากเครื่องมือ การตัดสินใจก่อนหน้า และเงื่อนไขของโปรเจกต์ Anthropic และ Microsoft ต่างระบุว่า Opus 4.7 รองรับ context window 1 ล้านโทเคน ทำให้โมเดลนี้ดูเหมาะกับงานขนาดใหญ่และเวิร์กโฟลว์ที่ต้องคงบริบทนาน
อย่างไรก็ตาม ขนาดบริบทไม่เท่ากับความน่าเชื่อถือในการใช้บริบท หน้าต่างบริบทที่ใหญ่ขึ้นอาจทำให้งานบางอย่างเป็นไปได้ แต่ไม่ได้รับประกันว่าโมเดลจะดึงรายละเอียดที่ถูกต้องมาใช้ได้สม่ำเสมอหลังผ่านหลายขั้นตอน
สัญญาณเชิงตัวเลขที่จับต้องได้ที่สุดในแหล่งข้อมูลชุดนี้มาจาก Applied AI ซึ่งรายงานผ่านเอกสารของ Anthropic ว่า Opus 4.7 ทำคะแนนรวมสูงสุดร่วมใน benchmark ภายในสำหรับ research agent แบบ 6 โมดูลที่ 0.715 เพิ่มคะแนนโมดูล General Finance เป็น 0.813 จาก 0.767 ของ Opus 4.6 และมีประสิทธิภาพ long-context ที่สม่ำเสมอที่สุดในชุดที่ทดสอบ
รายงานพันธมิตรอื่น ๆ ก็ไปในทิศทางเดียวกัน Sourcegraph ระบุผลลัพธ์ที่แข็งแรงในงาน async workflow, automation, CI/CD และงานที่รันยาว ส่วน Cognition ระบุว่า Opus 4.7 ทำงานอย่างสอดคล้องได้เป็นชั่วโมงใน Devin และช่วยให้ทำงานสืบค้นเชิงลึกได้มากขึ้นกว่าเดิม
จุดแข็งของรายงานเหล่านี้คือมาจากบริบทผลิตภัณฑ์ที่ใช้เอเจนต์จริงอย่างหนัก จุดอ่อนก็ชัดเจนเช่นกัน: เป็นรายงานจากพันธมิตรหรือ benchmark ภายในที่เผยแพร่ผ่านช่องทางของ Anthropic ไม่ใช่ชุดทดสอบสาธารณะขนาดใหญ่ที่ผู้ประเมินอิสระเป็นผู้รัน
ข้อมูล benchmark สาธารณะบางส่วนช่วยสนับสนุนภาพรวมว่า Opus 4.7 แข็งแรงในทักษะข้างเคียงที่สำคัญต่อเอเจนต์ Vellum อธิบายหมวด benchmark เช่น SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0 และ MCP-Atlas สำหรับการใช้เครื่องมือในสเกลใหญ่ ส่วน LLM Stats รายงานว่า Opus 4.7 ได้ 87.6% บน SWE-bench Verified และ 94.2% บน GPQA พร้อมรองรับบริบท 1 ล้านโทเคน
ตัวเลขเหล่านี้เกี่ยวข้อง เพราะงานเขียนโค้ด การให้เหตุผล การใช้เทอร์มินัล และการเรียกใช้เครื่องมือมักเป็นแกนของเวิร์กโฟลว์แบบเอเจนต์ แต่ยังตอบไม่ครบเรื่องความน่าเชื่อถือระยะยาว คะแนน coding หรือ reasoning ที่สูงไม่เท่ากับหลักฐานว่าเอเจนต์จะทำงานต่อเนื่องหลายชั่วโมงหรือหลายวันได้โดยรับมือกับสถานะที่เปลี่ยน การเรียกเครื่องมือซ้ำ ๆ ความล้มเหลวบางส่วน และการกู้คืนจากความผิดพลาด
ถ้า workload ของคุณเกี่ยวกับ autonomous coding, research agent, automation ในองค์กร, การสืบสวนปัญหา CI/CD หรือการวิเคราะห์เอกสารหลายขั้นตอน Opus 4.7 ควรถูกนำเข้ารอบทดสอบจริงจากทั้งการวางตำแหน่งสาธารณะและรายงานพันธมิตรที่มีอยู่
แต่ข้อสรุปเชิงปฏิบัติคืออย่าตัดสินจากชื่อรุ่นหรือคะแนนรวมเพียงอย่างเดียว ควรเปรียบเทียบ Opus 4.7 กับโมเดลตัวเลือกอื่นภายใต้เงื่อนไขเดียวกัน เช่น
สำหรับเอเจนต์ระยะยาว คุณภาพคำตอบสุดท้ายเป็นแค่หนึ่งตัวชี้วัด ควรดูอัตราทำงานสำเร็จ ความล้มเหลวของ tool call การหลุดจากคำสั่ง ความผิดพลาดจากการจำบริบท การกู้คืนหลังเดินผิดทาง จำนวนครั้งที่ต้องให้มนุษย์ช่วย เวลาที่ใช้ และต้นทุนต่อหนึ่งงานที่สำเร็จ
Claude Opus 4.7 ดูแข็งแกร่งมากสำหรับงานเอเจนต์ AI ระยะยาว การรองรับ context 1 ล้านโทเคน การวางตำแหน่งอย่างชัดเจนของ Anthropic คำอธิบายใน Microsoft Foundry และรายงานพันธมิตรที่ Anthropic เผยแพร่ ล้วนชี้ว่าโมเดลนี้เป็นตัวเลือกระดับ frontier ที่ควรจับตา
แต่หลักฐานยังไม่พอให้พูดแรงกว่านั้น จากแหล่งข้อมูลสาธารณะที่ตรวจสอบได้ในชุดนี้ Opus 4.7 คือโมเดลที่ควรทดสอบอย่างจริงจังสำหรับ long-running agents ไม่ใช่ผู้ชนะที่ได้รับการพิสูจน์ชัดเจนบน benchmark อิสระแบบหลายชั่วโมงหรือหลายวัน
Comments
0 comments