studioglobal
ค้นพบเทรนด์
รายงานเผยแพร่แล้ว9 แหล่งที่มา

Claude Opus 4.7 แรงแค่ไหน? เก่งเรื่องโค้ดและเอเจนต์ แต่ยังไม่ควรฟันธงว่าอันดับหนึ่งทั้งตลาด

Claude Opus 4.7 อยู่ในกลุ่มโมเดลเชิงพาณิชย์ระดับแนวหน้า โดยเด่นในงาน coding, agent ระยะยาว และงานภาพบางประเภท; รองรับ 1M context / เอาต์พุตสูงสุด 128k และมีคะแนน SWE bench Verified ที่ถูกอ้างถึง 87.6% แต่หลักฐานสาธารณ... อัปเกรดที่กระทบการใช้งานจริง ได้แก่ adaptive thinking, ระดับ effort ใหม่ xhigh, task budgets bet...

17K0
Claude Opus 4.7 實力查核示意圖,呈現 AI 模型、程式碼與 benchmark 分析元素
Claude Opus 4.7 實力查核:1M 上下文、87.6% SWE-bench,但還不能稱全市場第一AI 生成的編輯示意圖;非 Anthropic 官方 benchmark 圖表。
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 實力查核:1M 上下文、87.6% SWE-bench,但還不能稱全市場第一. Article summary: Claude Opus 4.7 很強,尤其適合 coding、長流程 agents、專業工作與視覺任務;它支援 1M context、128k 最大輸出,AWS 與 benchmark 解讀轉述的 SWE bench Verified 成績為 87.6%,但公開證據仍不足以證明它已獨立成為全市場第一。[1][9][14]. Topic tags: ai, anthropic, claude, llm benchmarks, ai agents. Reference image context from search candidates: Reference image 1: visual subject "幾個值得關注的數據點: Agentic coding(SWE-bench Verified)拿到87.6%,目前同場最高。Agentic computer use 78.0%、scaled tool use 77.3%,也都排在第一。" source context "Claude Opus 4.7 發布 附上跟主流模型的 benchmark 對比。 幾個值得關注的數據點: Agentic coding(SWE-bench Verified)拿到 87.6%,目前同場最高。Agentic computer" Reference image 2: visual subject "[Skip to main content](https://www.anthropic.com/claude/opus#main-content)[Skip to footer](https://www.anthropic.com/claude/opus#footer). ![Image 1: Claude

openai.com

ถ้าถามแบบคนใช้งานจริงว่า Claude Opus 4.7 แรงแค่ไหน คำตอบสั้น ๆ คือ แรงมาก โดยเฉพาะงานเขียนและแก้โค้ด งานที่ให้ AI ทำหน้าที่เป็น agent ใช้เครื่องมือหลายรอบ และงานยาวที่ต้องคุมบริบทจำนวนมาก แต่คำว่า “เก่งสุดในตลาด” ยังควรใช้ด้วยความระมัดระวัง

จุดสำคัญของ Opus 4.7 ไม่ได้อยู่ที่คะแนน benchmark ตัวเดียว แต่อยู่ที่การที่ Anthropic ขยับสาย Opus ไปทางงานยากขึ้นอย่างชัดเจน ทั้ง context window ที่ยาวขึ้น การควบคุมการ reasoning สำหรับงาน agent ความเข้าใจภาพความละเอียดสูง และงานวิศวกรรมซอฟต์แวร์ระดับมืออาชีพ เอกสารของ Anthropic หน้าโปรดักต์ และประกาศบน AWS ต่างวาง Opus 4.7 ไว้ในกลุ่มงาน coding, long-running agents, professional work และงานหลายขั้นตอน [1][4][9][10]

อย่างไรก็ดี ความเก่งไม่ได้เท่ากับการพิสูจน์ว่าเป็นอันดับหนึ่งของทั้งตลาด หลักฐานสาธารณะที่มีในตอนนี้รองรับข้อสรุปที่รัดกุมกว่า คือ Claude Opus 4.7 แข่งขันได้สูงมากในงาน coding และ agentic tasks แต่คะแนนสำคัญจำนวนมากยังมาจาก Anthropic, AWS ที่อ้างข้อมูลการเปิดตัว, การทดสอบภายในของพาร์ตเนอร์ หรือบทวิเคราะห์ benchmark ยังไม่ใช่การจัดอันดับตลาดทั้งหมดแบบเป็นกลาง ทำซ้ำได้ และครอบคลุมทุกโมเดลหลัก [9][10][14][15]

ภาพรวม: โมเดลงานหนัก ไม่ใช่ตัวเลือกถูกสำหรับงานสั้น

Anthropic ระบุว่านักพัฒนาสามารถใช้ claude-opus-4-7 ผ่าน Claude API ได้ ส่วน AWS ก็ประกาศนำ Claude Opus 4.7 เข้า Amazon Bedrock และเรียกมันว่าโมเดล Opus ระดับสูงของ Anthropic สำหรับยกระดับงาน coding, long-running agents และ professional work [9][10]

ถ้ามองในเชิงการใช้งาน Opus 4.7 จึงไม่ใช่โมเดลเบาสำหรับงานสั้นราคาต่ำ เช่น ตอบข้อความง่าย ๆ หรือจัดหมวดหมู่จำนวนมากแบบต้นทุนต่ำเป็นหลัก หน้าโปรดักต์และเอกสารของ Anthropic วางมันไว้กับงานที่ยากกว่า เช่น วิศวกรรมซอฟต์แวร์มืออาชีพ workflow ของ agent ที่ซับซ้อน งานยาว งานความรู้ และการเข้าใจภาพ [1][4]

สำหรับผู้อ่านที่ไม่ได้อยู่ในวงการ AI ตลอดเวลา คำว่า context window หมายถึงปริมาณข้อมูลที่โมเดลสามารถรับเข้ามาพิจารณาในหนึ่งงาน ส่วน token คือหน่วยย่อยของข้อความที่ระบบใช้คำนวณความยาวและต้นทุน การมี context ยาวมากช่วยให้ใส่โค้ดหรือเอกสารได้มากขึ้น แต่ไม่ได้แปลว่าทุกคำตอบจะถูกขึ้นโดยอัตโนมัติ

อัปเกรดที่มีผลต่อการใช้งานจริง

เรื่องที่อัปเกรดข้อมูลที่เปิดเผยความหมายเชิงปฏิบัติ
Context ยาวและเอาต์พุตยาวรองรับ context window 1M token และเอาต์พุตสูงสุด 128k token [1]เหมาะขึ้นสำหรับ codebase ขนาดใหญ่ เอกสารยาว งานวิจัยที่ต้องเก็บบริบท และ agent หลายรอบ แต่ context ยาวไม่ได้รับประกันว่าทุกงานจะแม่นขึ้น
การควบคุม reasoningเอกสารระบุ adaptive thinking และระดับ effort ใหม่ xhigh [1]เปิดพื้นที่ให้โมเดลใช้ความพยายามมากขึ้นในงาน coding การวางแผน และ reasoning หลายขั้นตอน แต่ทีมควรวัดความหน่วงและต้นทุน token ใหม่
งบประมาณของ agentเพิ่ม task budgets beta เพื่อควบคุม token budget รวมของ agentic loop [1]สำคัญสำหรับ agent ที่ทำงานยาว เพราะทีมสามารถกำหนดขอบเขตการใช้ token และควบคุมต้นทุนได้ดีขึ้น
ภาพความละเอียดสูงAnthropic ระบุว่า Opus 4.7 เป็น Claude รุ่นแรกที่รองรับภาพความละเอียดสูง โดยเพิ่มเพดานภาพเป็น 2576px / 3.75MP จากเดิม 1568px / 1.15MP [1]มีประโยชน์กับเอกสารแน่น ๆ กราฟ แผนภาพ หน้าจอ UI และงานที่ต้องอ่านรายละเอียดภาพ แต่ภาพความละเอียดสูงก็ใช้ token มากขึ้น [1]
Tokenizer และต้นทุนTokenizer ใหม่อาจใช้ token กับข้อความมากกว่าโมเดลก่อนหน้าประมาณ 1x ถึง 1.35x หรือเพิ่มได้สูงสุดราว 35% และการนับ token จะต่างจาก Opus 4.6 [1]ถ้าจะนำขึ้น production ต้องคำนวณต้นทุน โควตา การแบ่ง context และ token budget ใหม่ ไม่ควรดูแต่ความสามารถของโมเดล

Benchmark: สัญญาณด้าน coding และ agent แข็งมาก

บทความเปิดตัวบน Amazon Bedrock ของ AWS และบทวิเคราะห์ของ Vellum อ้างคะแนนทางการของ Claude Opus 4.7 หลายรายการ เช่น SWE-bench Pro 64.3%, SWE-bench Verified 87.6%, Terminal-Bench 2.0 69.4% และ Finance Agent v1.1 64.4% [9][14]

ในกลุ่มนี้ SWE-bench Verified เป็นชุดทดสอบย่อย 500 ปัญหาจาก GitHub issue จริงที่มีมนุษย์ตรวจสอบ ใช้ประเมินความสามารถของโมเดลในการสร้าง patch เพื่อแก้ปัญหาซอฟต์แวร์จริงใน codebase ภาษา Python [7]

Benchmarkคะแนน Opus 4.7 ที่ถูกอ้างถึงควรตีความอย่างไร
SWE-bench Verified87.6%เป็นสัญญาณว่าแข็งมากในงานแก้โค้ดจริง แต่ผลยังขึ้นกับ prompt เครื่องมือ และวิธีตั้งค่าการทดสอบ [7][9][14]
SWE-bench Pro64.3%ชี้ไปที่ความสามารถในงานวิศวกรรมซอฟต์แวร์ที่ยากขึ้น เหมาะใช้เป็นสัญญาณด้าน coding ไม่ใช่การจัดอันดับผลิตภัณฑ์ทั้งหมด [9][14]
Terminal-Bench 2.069.4%สะท้อนงานที่เกี่ยวกับ terminal และการใช้เครื่องมือ จึงเกี่ยวข้องกับ workflow แบบ agent สูง [14]
Finance Agent v1.164.4%แสดงว่ามีคะแนนเชิงปริมาณในงาน agent เฉพาะทางด้านการเงิน แต่ยังเป็น benchmark เฉพาะชุดหนึ่ง [14]

คะแนนเหล่านี้พอรองรับข้อสรุปว่า Opus 4.7 ทำผลงานโดดเด่นใน benchmark ด้าน coding, agentic และงานวิชาชีพที่ถูกเลือกมาอ้าง [9][14] แต่ไม่ควรถูกย่อเหลือประโยคเดียวว่าเป็นอันดับหนึ่งทั้งตลาด เพราะอันดับของโมเดลขึ้นกับชุดทดสอบ วิธีเขียน prompt การออกแบบเครื่องมือ เวอร์ชันโมเดล วิธีให้คะแนน และการทำซ้ำโดยบุคคลที่สาม [14][15]

คะแนนจากบริษัทและพาร์ตเนอร์ควรอ่านอย่างไร

ประกาศของ Anthropic ยังอ้างผลจากพาร์ตเนอร์ เช่น GitHub รายงานว่าใน coding benchmark 93 ข้อ Opus 4.7 มีอัตราแก้งานสำเร็จเพิ่มขึ้น 13% เมื่อเทียบกับ Opus 4.6 อีก benchmark สำหรับ research agent รายงานว่า Opus 4.7 ได้คะแนนรวม 0.715 และโมดูล General Finance เพิ่มจาก 0.767 ใน Opus 4.6 เป็น 0.813 [10]

ข้อมูลแบบนี้มีค่า เพราะมักใกล้กับงานจริงมากกว่า benchmark เชิงวิชาการล้วน ๆ แต่ต้องแยกระดับหลักฐานให้ชัด Verdent ชี้ว่าตัวเลขจากพาร์ตเนอร์อย่าง Notion หรือ Rakuten เป็น benchmark ภายในหรือ benchmark เฉพาะองค์กร ไม่ใช่การทดสอบมาตรฐานข้ามโมเดลที่ควบคุมเงื่อนไขเท่ากัน [15]

พูดอีกแบบคือ คะแนนจากพาร์ตเนอร์ช่วยบอกว่า Opus 4.7 น่าทดลองมากใน workflow coding หรือ agent จริง แต่ยังไม่พอจะยืนยันลำพังว่ามันถูกพิสูจน์อย่างเป็นกลางแล้วว่าเป็นอันดับหนึ่งของทุกโมเดล [10][15]

ทำไมยังไม่ควรพูดว่าเก่งสุดทั้งตลาด

หนึ่ง ต้องนิยามก่อนว่าเก่งสุดในกลุ่มใด DataCamp และ VentureBeat รายงานว่า Anthropic ยังมีบริบทของ Mythos / Mythos Preview ที่เข้าถึงได้จำกัดกว่าและไม่ได้เปิดใช้กว้างแบบ Opus 4.7 ดังนั้นหากนับโมเดลที่ยังไม่เปิดใช้ทั่วไปเข้าไปด้วย Opus 4.7 ก็ไม่ควรถูกเข้าใจว่าเป็นโมเดลที่แข็งที่สุดของ Anthropic ในทุกกรณี [6][13]

สอง หลักฐานสาธารณะยังไม่ใช่การเทียบทุกโมเดลแบบเป็นกลางครบชุด Benchmark ทางการ เอกสารเปิดตัวบน AWS ความเห็นจากพาร์ตเนอร์ และบทวิเคราะห์จากบุคคลที่สามช่วยยืนยันได้ว่า Opus 4.7 แข็งมาก แต่ยังไม่เท่ากับการที่องค์กรอิสระทดสอบโมเดลหลักทั้งหมดด้วยเงื่อนไขเดียวกันและเผยแพร่ผลที่ทำซ้ำได้ [9][10][14][15]

สาม โมเดลที่เก่งที่สุดไม่จำเป็นต้องเหมาะที่สุดกับทุกงาน จุดยืนสาธารณะของ Opus 4.7 อยู่ที่ coding, agent ระยะยาว งานมืออาชีพ งานภาพ และงานหลายขั้นตอน ถ้าความต้องการคือจัดหมวดหมู่จำนวนมากในต้นทุนต่ำ ตอบแชตสั้น ๆ สรุปตามฟอร์แมตตายตัว หรือระบบที่ต้องการ latency ต่ำมาก โมเดลระดับสูงที่สุดอาจไม่ใช่ตัวเลือกที่คุ้มที่สุด [1][4][9]

งานแบบไหนควรลอง Opus 4.7 ก่อน

ถ้างานของคุณเกี่ยวกับการแก้ codebase ขนาดใหญ่ การแก้ bug ซับซ้อน การ refactor ข้ามหลายไฟล์ การใช้เครื่องมือต่อเนื่องนาน ๆ research agent การวิเคราะห์เอกสารวิชาชีพ หรือการอ่านกราฟ เอกสารหนาแน่น และภาพหน้าจอ UI ที่ต้องเห็นรายละเอียด Opus 4.7 เป็นหนึ่งในตัวเลือกที่ควรนำมาทดสอบก่อน [1][4][9][10]

แนวทางที่เป็นระบบกว่าคือสร้างชุดทดสอบของตัวเอง กำหนดงาน prompt เครื่องมือ ข้อมูล เกณฑ์ให้คะแนน และขั้นตอน human review ให้คงที่ จากนั้นวัดอัตราสำเร็จ เวลาที่คนต้องแก้เพิ่ม ปริมาณ token ความหน่วง และอัตราความผิดพลาดจากการใช้เครื่องมือ วิธีนี้สำคัญมากกับ agentic workflow เพราะ benchmark ภายในของพาร์ตเนอร์อาจไม่สะท้อน orchestration และสภาพข้อมูลของคุณ [15]

เรื่องต้นทุนก็ต้องคำนวณใหม่ Anthropic ระบุว่า tokenizer ใหม่ของ Opus 4.7 อาจทำให้ข้อความใช้ token เพิ่มได้สูงสุดราว 35% และภาพความละเอียดสูงก็เพิ่มการใช้ token หากจะรัน agent หลายขั้นตอน task budgets beta จึงเป็นฟีเจอร์ที่ควรนำเข้ามาทดสอบเพื่อคุม token budget รวม [1]

สรุปสุดท้าย

จากข้อมูลสาธารณะ Claude Opus 4.7 สมควรถูกเรียกว่าโมเดลที่แข็งมาก มันมี context window 1M token เอาต์พุตสูงสุด 128k token, adaptive thinking, ระดับ effort xhigh, task budgets beta, ความสามารถรับภาพความละเอียดสูง และถูกวางตำแหน่งโดย Anthropic กับ AWS สำหรับงานยากอย่าง coding, agent ระยะยาว และ professional work [1][4][9][10]

แต่ถ้าคำถามคือมันถูกพิสูจน์อย่างอิสระแล้วหรือยังว่าเป็นโมเดลที่เก่งที่สุดของทั้งตลาด คำตอบยังควรเผื่อพื้นที่ไว้มากกว่า ประโยคที่แม่นกว่าคือ Claude Opus 4.7 น่าจะอยู่ในแถวหน้าของโมเดลเชิงพาณิชย์ที่เปิดใช้ได้กว้าง โดยเฉพาะงาน coding, agent และงานยาว แต่หลักฐานสาธารณะที่มีตอนนี้ยังไม่พอสำหรับคำกล่าวอ้างแบบไม่มีเงื่อนไขว่าเป็นอันดับหนึ่งของทุกตลาดและทุกงาน [9][10][13][15]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • Claude Opus 4.7 อยู่ในกลุ่มโมเดลเชิงพาณิชย์ระดับแนวหน้า โดยเด่นในงาน coding, agent ระยะยาว และงานภาพบางประเภท; รองรับ 1M context / เอาต์พุตสูงสุด 128k และมีคะแนน SWE bench Verified ที่ถูกอ้างถึง 87.6% แต่หลักฐานสาธารณ...
  • อัปเกรดที่กระทบการใช้งานจริง ได้แก่ adaptive thinking, ระดับ effort ใหม่ xhigh, task budgets beta และการรับภาพความละเอียดสูง; ข้อแลกเปลี่ยนคือ tokenizer ใหม่อาจใช้ token ข้อความเพิ่มได้สูงสุดราว 35% [1]
  • วิธีประเมินที่ปลอดภัยกว่าไม่ใช่ดูคะแนนทางการอย่างเดียว แต่ควรนำ Opus 4.7 ไปทดสอบกับชุดงาน coding / agent ขององค์กรเอง พร้อมวัดอัตราสำเร็จ เวลาที่มนุษย์ต้องแก้ ความหน่วง และต้นทุน token [10][15]

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Claude Opus 4.7 แรงแค่ไหน? เก่งเรื่องโค้ดและเอเจนต์ แต่ยังไม่ควรฟันธงว่าอันดับหนึ่งทั้งตลาด" คืออะไร

Claude Opus 4.7 อยู่ในกลุ่มโมเดลเชิงพาณิชย์ระดับแนวหน้า โดยเด่นในงาน coding, agent ระยะยาว และงานภาพบางประเภท; รองรับ 1M context / เอาต์พุตสูงสุด 128k และมีคะแนน SWE bench Verified ที่ถูกอ้างถึง 87.6% แต่หลักฐานสาธารณ...

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

Claude Opus 4.7 อยู่ในกลุ่มโมเดลเชิงพาณิชย์ระดับแนวหน้า โดยเด่นในงาน coding, agent ระยะยาว และงานภาพบางประเภท; รองรับ 1M context / เอาต์พุตสูงสุด 128k และมีคะแนน SWE bench Verified ที่ถูกอ้างถึง 87.6% แต่หลักฐานสาธารณ... อัปเกรดที่กระทบการใช้งานจริง ได้แก่ adaptive thinking, ระดับ effort ใหม่ xhigh, task budgets beta และการรับภาพความละเอียดสูง; ข้อแลกเปลี่ยนคือ tokenizer ใหม่อาจใช้ token ข้อความเพิ่มได้สูงสุดราว 35% [1]

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

วิธีประเมินที่ปลอดภัยกว่าไม่ใช่ดูคะแนนทางการอย่างเดียว แต่ควรนำ Opus 4.7 ไปทดสอบกับชุดงาน coding / agent ขององค์กรเอง พร้อมวัดอัตราสำเร็จ เวลาที่มนุษย์ต้องแก้ ความหน่วง และต้นทุน token [10][15]

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

搜尋並查核事實:Claude Opus 4.7 有多強大?

Studio Global AI12 แหล่งที่มา

อ้างถึงคำตอบ

查核後,Claude Opus 4.7 不是傳聞,Anthropic 已在 2026-04-16 正式發布,並把它定位為目前「最強、且已廣泛可用」的 Claude 模型。[2][6] 但如果把尚未全面開放的內部模型也算進來,官方自己也明說 Claude Mythos Preview 整體能力更強,Opus 4.7 並不是 Anthropic 絕對最強的那一個。[2][6]

  • 就定位來看,Opus 4.7 主打進階軟體工程、AI agents、複雜多步驟任務與專業知識工作,並提供 1M context window。[2][6]
  • 相比 Opus 4.6,Anthropic 說 4.7 在最難的軟體工程任務上進步明顯,能更穩定處理長時間任務、更精準遵循指令,且更會先驗證自己的輸出再回報。[6]
  • 在視覺能力上,官方稱 4.7 可處理更高解析度影像,對技術圖表、化學結構等多模態內容更強。[2][6]
  • 作為參照,Anthropic 在 2026-02 對 Opus 4.6 的公開說法是:它已在 Terminal-Bench 2.0、Humanity’s Last Exam、GDPval-AA、BrowseComp 等評測居前;而 4.7 又被官方描述為整體優於 4.6 的後繼版,所以它大概率仍屬現階段商用頂級模型。[5][6]
  • 但目前我能查到的強證據,主要仍是 Anthropic 官方公告、產品頁與其挑選的早期合作夥伴評測,不是完整的獨立第三方橫向測試。[2][6]
  • 例如官方頁面收錄的合作方評測提到:GitHub 內部 93 題 coding benchmark 上,Opus 4.7 對 Opus 4.6 的任務解決率提升 13%;另有研究代理 benchmark 報告它總分達 0.715、在 General Finance 模組為 0.813 對 4.6 的 0.767。[2][6]
  • 不過這些數字來自合作夥伴內部評測與 Anthropic 官方頁面轉述,能證明「很強」,但還不足以單憑這些資料就斷言它已被獨立證明為全市場第一。[2][6]

如果你要一句話結論:Claude Opus 4.7 很強,且看起來是目前最強的「已廣泛可用」Claude 之一,特別強在 coding、agent 與長流程任務;但若要說它已客觀、獨立地證明是全市場最強,現有公開證據仍不足。[2][5][6]

如果你願意,我下一步可以幫你把它和 GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.6 做一個「實戰能力對比」版本。

คุณ

คำถามวิจัย

研究並查核事實:Claude Opus 4.7 有多強大?

Studio Global AI20 แหล่งที่มา

อ้างถึงคำตอบ

就目前可查到的公開資料看,Claude Opus 4.7 確實屬於前沿等級模型,特別強在程式開發、長流程 agent 任務、專業知識工作與視覺理解,而且 Anthropic 明確把它定位為目前「最強的廣泛可用 Claude 模型」。[1][5][15] 但如果問題是「它是否已被獨立證明為全市場最強」,答案要保留:Anthropic 自己也說 Claude Mythos Preview 更強,只是沒有像 Opus 4.7 那樣廣泛釋出,而我查到的強證據目前仍以官方材料、AWS 轉述與合作夥伴內部評測為主。[14][15]

Key findings

  • Anthropic 於 2026-04-16 正式發布 Claude Opus 4.7,並表示它已「generally available」,可在 Claude 產品、Claude API、Amazon Bedrock、Google Cloud Vertex AI 與 Microsoft Foundry 使用。[15]
  • Anthropic 的開發者文件把 Opus 4.7 定位為「截至目前最強的廣泛可用模型」,並說它在長時程 agentic work、知識工作、視覺任務與記憶任務上表現特別好。[1]
  • 這個模型支援 1M token context window、128k 最大輸出、adaptive thinking,以及新的 xhigh effort 等級;同時也引入 task budgets(beta)來控制 agentic loop 的整體 token 預算。[1]
  • 就「有多強」的核心能力來看,Anthropic 官方公告稱,Opus 4.7 相比 Opus 4.6 在進階軟體工程上有顯著提升,尤其是在最困難的任務上,且它更能穩定處理複雜、長時間任務,更精準遵循指令,並傾向先驗證自己的輸出再回報。[15]
  • 在產品定位上,Anthropic 官網寫得更直接:Opus 4.7 是一個面向專業軟體工程、複雜 agent 工作流與高風險企業任務的高階模型,主打在大程式碼庫、長流程與多步任務中的可靠性。[5]
  • 視覺能力是這次的重要升級之一。Anthropic 文件指出,Opus 4.7 是第一個支援高解析度影像的 Claude 模型,最高影像解析度提升到 2576px / 3.75MP,高於之前的 1568px / 1.15MP,並改善圖表、密集文件、UI 截圖、定位與低階感知任務的表現。[1]
  • 依 AWS 發布的 Amazon Bedrock 上線文章轉述 Anthropic 數據,Opus 4.7 的官方 benchmark 成績包含 SWE-bench Pro 64.3%、SWE-bench Verified 87.6%、Terminal-Bench 2.0 69.4%,以及 Finance Agent v1.1 64.4%。[14]
  • Anthropic 官網公告還列出多個合作夥伴內部評測:GitHub 表示在其 93 題 coding benchmark 上,Opus 4.7 對 Opus 4.6 的任務解決率提升 13%,其中有 4 題連 Opus 4.6 與 Sonnet 4.6 都沒解出;另一個研究代理 benchmark 則稱 Opus 4.7 的總分達 0.715,並在 General Finance 模組從 Opus 4.6 的 0.767 提升到 0.813。[15]
  • 不過,Anthropic 也明說 Opus 4.7 並不是它「絕對最強」的模型,因為 Claude Mythos Preview 更強;Opus 4.7 的重點是它屬於較廣泛可用的版本。[15]
  • 還有一個實務上的代價是成本與 token 使用。Anthropic 文件提醒,Opus 4.7 的新 tokenizer 在處理文字時,可能會比先前模型多用約 0% 到 35% 的 tokens,而高解析度圖片也會增加 token 消耗。[1]

Evidence notes

  • 目前最可靠的核心事實,主要來自 Anthropic 官方公告、Anthropic 開發者文件與 Anthropic 產品頁,因此像「是否存在」「是否已正式發布」「是否廣泛可用」「官方如何定位它」這幾點,可信度高。[1][5][15]
  • 具體分數型 benchmark 證據,雖然有 AWS 上線文與 Anthropic 公告可引用,但多數仍是 Anthropic 自述或合作夥伴內部評測,不等於完整的中立第三方橫向驗證。[14][15]
  • 我主要依據這幾個來源:Anthropic 開發者文件《What’s new in Claude Opus 4.7》[1]、Anthropic 產品頁《Claude Opus 4.7》[5]、AWS News Blog 的 Bedrock 上線文[14]、Anthropic 官方新聞稿《Introducing Claude Opus 4.7》[15]

Limitations / uncertainty

  • 對於「Claude Opus 4.7 是否已被獨立證明為全市場最強模型」這個更強的說法,Insufficient evidence。[14][15]
  • 我查到的公開材料裡,最硬的證據仍偏向官方與生態夥伴,而不是大量、成熟、可重現的第三方基準總表。[14][15]
  • 因此,更穩妥的結論是:它幾乎可以確定非常強,且很可能位於目前商用頂級模型第一梯隊;但若要下「無可爭議的全市場第一」結論,現階段公開證據還不夠。[1][14][15]

Summary

Claude Opus 4.7 很強,而且從官方可核實資料來看,它是 Anthropic 目前最強的「廣泛可用」Claude 模型,重點優勢在 coding、長流程 agents、長上下文推理、專業知識工作與高解析度視覺理解。[1][5][15] 但若把尚未廣泛釋出的 Claude Mythos Preview 也算進來,Opus 4.7 並非 Anthropic 絕對最強;若要宣稱它已被獨立驗證為整個市場最強,目前仍缺足夠公開證據。[14][15]

如果你要,我下一步可以幫你做一版「Claude Opus 4.7 vs GPT-5 / Gemini / Claude Sonnet」的實戰能力對比,分成 coding、研究、長任務與價格四個面向。

แหล่งที่มา