studioglobal
熱門探索內容
報告已發布9 個來源

Claude Opus 4.7 mạnh đến đâu? 1 triệu token, SWE-bench 87,6% và điều cần kiểm chứng

Claude Opus 4.7 thuộc nhóm mô hình thương mại tiền tuyến đáng chú ý, mạnh ở coding, agent chạy dài và tác vụ thị giác; hỗ trợ context 1 triệu token, đầu ra tối đa 128.000 token, còn điểm SWE bench Verified được trích... Các nâng cấp thực dụng gồm adaptive thinking, mức effort xhigh, task budgets beta và ảnh độ phân...

18K0
Claude Opus 4.7 實力查核示意圖,呈現 AI 模型、程式碼與 benchmark 分析元素
Claude Opus 4.7 實力查核:1M 上下文、87.6% SWE-bench,但還不能稱全市場第一AI 生成的編輯示意圖;非 Anthropic 官方 benchmark 圖表。
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 實力查核:1M 上下文、87.6% SWE-bench,但還不能稱全市場第一. Article summary: Claude Opus 4.7 很強,尤其適合 coding、長流程 agents、專業工作與視覺任務;它支援 1M context、128k 最大輸出,AWS 與 benchmark 解讀轉述的 SWE bench Verified 成績為 87.6%,但公開證據仍不足以證明它已獨立成為全市場第一。[1][9][14]. Topic tags: ai, anthropic, claude, llm benchmarks, ai agents. Reference image context from search candidates: Reference image 1: visual subject "幾個值得關注的數據點: Agentic coding(SWE-bench Verified)拿到87.6%,目前同場最高。Agentic computer use 78.0%、scaled tool use 77.3%,也都排在第一。" source context "Claude Opus 4.7 發布 附上跟主流模型的 benchmark 對比。 幾個值得關注的數據點: Agentic coding(SWE-bench Verified)拿到 87.6%,目前同場最高。Agentic computer" Reference image 2: visual subject "[Skip to main content](https://www.anthropic.com/claude/opus#main-content)[Skip to footer](https://www.anthropic.com/claude/opus#footer). ![Image 1: Claude

openai.com

Claude Opus 4.7 đáng chú ý không chỉ vì một con số benchmark. Điểm quan trọng hơn là Anthropic đang đẩy dòng Opus theo hướng context dài hơn, agent dễ kiểm soát hơn, thị giác độ phân giải cao hơn và năng lực xử lý công việc phần mềm tốt hơn. Tài liệu của Anthropic, trang sản phẩm và bài công bố của AWS đều đặt Opus 4.7 vào nhóm mô hình cao cấp cho coding, long-running agents, professional work và tác vụ nhiều bước.[1][4][9][10]

Nhưng “rất mạnh” không đồng nghĩa với “đã được chứng minh là số một toàn thị trường”. Kết luận thận trọng từ dữ liệu công khai hiện nay là: Claude Opus 4.7 rất cạnh tranh trong coding và agentic tasks; tuy nhiên, nhiều điểm số quan trọng vẫn đến từ Anthropic, AWS trích dẫn, đánh giá nội bộ của đối tác hoặc phần diễn giải benchmark, chưa đủ để tạo thành một bảng xếp hạng toàn thị trường độc lập và có thể tái lập.[9][10][14][15]

Trước hết: Opus 4.7 là mô hình cho việc khó, không phải lựa chọn rẻ cho tác vụ ngắn

Anthropic cho biết nhà phát triển có thể dùng claude-opus-4-7 qua Claude API; AWS cũng thông báo Claude Opus 4.7 đã có trên Amazon Bedrock và mô tả đây là mô hình Opus cao cấp của Anthropic cho coding, long-running agents và professional work.[9][10]

Nói cách khác, đây không phải kiểu mô hình nhẹ để xử lý hàng loạt tác vụ ngắn với chi phí thấp. Trên trang sản phẩm và tài liệu dành cho nhà phát triển, Anthropic đặt Opus 4.7 vào các bối cảnh khó hơn: kỹ thuật phần mềm chuyên nghiệp, workflow agent phức tạp, tác vụ kéo dài, công việc tri thức và hiểu hình ảnh.[1][4]

Những nâng cấp kỹ thuật đáng chú ý nhất

Nâng cấpThông tin công khaiÝ nghĩa khi dùng thật
Context dài và đầu ra dàiHỗ trợ cửa sổ ngữ cảnh 1 triệu token, đầu ra tối đa 128.000 token.[1]Phù hợp hơn với kho mã lớn, tài liệu dài, bối cảnh nghiên cứu và agent nhiều vòng. Tuy vậy, context dài không tự động bảo đảm mô hình đúng hơn trong mọi tác vụ.
Điều khiển suy luậnTài liệu nêu adaptive thinking và mức effort mới xhigh.[1]Có ích cho coding khó, lập kế hoạch và suy luận nhiều bước, nhưng thường cần đánh giá lại độ trễ và chi phí token.
Ngân sách cho agentCó task budgets beta để kiểm soát tổng ngân sách token của agentic loop.[1]Quan trọng với agent chạy dài, vì đội kỹ thuật có thể giới hạn phạm vi thực thi và chi phí.
Thị giác độ phân giải caoAnthropic nói Opus 4.7 là mô hình Claude đầu tiên hỗ trợ ảnh độ phân giải cao; mức tối đa tăng lên 2576px / 3,75MP, so với 1568px / 1,15MP trước đó.[1]Có lợi cho tài liệu dày chữ, biểu đồ, ảnh chụp giao diện và các tác vụ cần nhận diện chi tiết; ảnh độ phân giải cao cũng làm tăng lượng token sử dụng.[1]
Tokenizer và chi phíTokenizer mới có thể dùng khoảng 1x đến 1,35x số token khi xử lý văn bản so với mô hình trước, tức tối đa tăng khoảng 35%; cách đếm token cũng khác Opus 4.6.[1]Nếu đưa vào production, không nên chỉ nhìn năng lực. Cần tính lại chi phí, quota, cách chia context và ngân sách token.

Benchmark: tín hiệu mạnh nhất nằm ở coding và agent

Bài công bố trên Amazon Bedrock của AWS và phần diễn giải benchmark của Vellum trích dẫn các điểm số chính thức của Claude Opus 4.7, gồm SWE-bench Pro 64,3%, SWE-bench Verified 87,6%, Terminal-Bench 2.0 69,4% và Finance Agent v1.1 64,4%.[9][14]

Trong đó, SWE-bench Verified là tập con 500 vấn đề kỹ thuật phần mềm thật từ GitHub, đã được con người xác minh, dùng để đánh giá khả năng mô hình tạo bản vá cho codebase Python và giải quyết issue thực tế.[7]

BenchmarkĐiểm Opus 4.7 được công bố / trích dẫnNên hiểu thế nào
SWE-bench Verified87,6%Cho thấy năng lực rất mạnh ở bài toán sửa lỗi phần mềm thực tế, nhưng kết quả vẫn phụ thuộc prompt, công cụ và cấu hình đánh giá.[7][9][14]
SWE-bench Pro64,3%Gợi ý năng lực ở nhóm tác vụ kỹ thuật phần mềm khó hơn; nên xem là tín hiệu về coding, không phải bảng xếp hạng sản phẩm toàn diện.[9][14]
Terminal-Bench 2.069,4%Phản ánh năng lực làm việc với terminal và công cụ, liên quan nhiều đến workflow dạng agent.[14]
Finance Agent v1.164,4%Cho thấy có kết quả định lượng trong một nhóm tác vụ agent chuyên ngành, nhưng vẫn chỉ là một benchmark cụ thể.[14]

Những điểm số này đủ để nói Opus 4.7 nổi bật trong các bài kiểm tra coding, agentic và tác vụ chuyên môn mà bên công bố lựa chọn.[9][14] Nhưng không nên rút gọn thành “số một toàn thị trường”, vì thứ hạng mô hình phụ thuộc mạnh vào bộ test, prompt, thiết kế công cụ, phiên bản mô hình, cách chấm điểm và khả năng tái lập bởi bên thứ ba.[14][15]

Điểm số từ hãng và đối tác: hữu ích, nhưng cần đọc đúng mức

Thông cáo của Anthropic cũng nêu một số đánh giá từ đối tác. Chẳng hạn, GitHub báo cáo trên benchmark coding 93 câu hỏi của họ, Opus 4.7 có tỷ lệ giải quyết nhiệm vụ cao hơn Opus 4.6 là 13%; một benchmark research agent khác ghi nhận Opus 4.7 đạt tổng điểm 0,715, còn mô-đun General Finance tăng từ 0,767 của Opus 4.6 lên 0,813.[10]

Những dữ liệu như vậy có giá trị vì chúng gần với workflow thực tế hơn một số bài kiểm tra đơn lẻ. Tuy nhiên, mức độ bằng chứng vẫn cần phân biệt rõ. Verdent lưu ý rằng các con số từ những đối tác như Notion hoặc Rakuten là benchmark nội bộ hoặc độc quyền của từng bên, không phải phép thử chuẩn hóa, có kiểm soát, dùng để so sánh ngang nhiều mô hình.[15]

Nói ngắn gọn: điểm số của đối tác củng cố luận điểm rằng Opus 4.7 rất đáng thử trong workflow agent / coding thực tế, nhưng riêng chúng không đủ để khẳng định mô hình này đã được chứng minh trung lập là số một trong mọi mô hình.[10][15]

Vì sao chưa thể nói thẳng là “mạnh nhất thị trường”?

Thứ nhất, phải định nghĩa rõ “phổ biến sẵn có”. DataCamp và VentureBeat đều nhắc tới bối cảnh Mythos / Mythos Preview của Anthropic — một dòng mô hình bị hạn chế hơn và chưa mở rộng rãi. Vì vậy, nếu tính cả các mô hình chưa được phát hành rộng rãi, Opus 4.7 không nên được hiểu là mô hình mạnh nhất tuyệt đối trong toàn bộ danh mục Anthropic.[6][13]

Thứ hai, dữ liệu công khai chưa phải một cuộc so sánh độc lập hoàn chỉnh. Benchmark chính thức, bài lên sóng của AWS, phản hồi đối tác và phần diễn giải từ bên thứ ba đều cho thấy Opus 4.7 rất mạnh. Nhưng chúng không tương đương với một bảng tổng sắp có thể tái lập, do tổ chức độc lập chạy trên cùng điều kiện cho tất cả mô hình lớn.[9][10][14][15]

Thứ ba, “mạnh nhất” còn tùy việc cần làm. Opus 4.7 được định vị rõ ở coding, agent chạy dài, professional work, thị giác và tác vụ nhiều bước. Nếu nhu cầu là phân loại hàng loạt chi phí thấp, chăm sóc khách hàng ngắn, tóm tắt theo mẫu cố định hoặc tác vụ cần độ trễ cực thấp, mô hình cao cấp nhất chưa chắc là lựa chọn hợp lý nhất.[1][4][9]

Khi nào nên ưu tiên thử Opus 4.7?

Opus 4.7 đặc biệt đáng thử nếu công việc của bạn gồm sửa đổi kho mã lớn, xử lý bug phức tạp, refactor xuyên nhiều file, sử dụng công cụ trong thời gian dài, xây research agent, phân tích tài liệu chuyên môn hoặc đọc biểu đồ dày đặc và ảnh chụp giao diện cần nhiều chi tiết.[1][4][9][10]

Cách làm thực tế hơn là xây bộ đánh giá riêng: cố định nhiệm vụ, prompt, công cụ, dữ liệu, tiêu chí chấm điểm và quy trình kiểm tra thủ công. Sau đó đo tỷ lệ thành công, thời gian con người phải sửa lại, lượng token tiêu thụ, độ trễ và tỷ lệ lỗi khi gọi công cụ. Điều này đặc biệt quan trọng với agentic workflow, vì benchmark nội bộ của đối tác không nhất thiết phản ánh đúng cách bạn orchestration công cụ và dữ liệu.[15]

Chi phí cũng cần được tính lại từ đầu. Anthropic đã cảnh báo tokenizer mới của Opus 4.7 có thể làm lượng token văn bản tăng tối đa khoảng 35%, còn ảnh độ phân giải cao cũng sẽ tiêu thụ thêm token. Nếu chạy agent dài hơi, task budgets beta nên được đưa vào bài thử như một cơ chế kiểm soát tổng ngân sách token.[1]

Chốt lại

Dữ liệu công khai đủ để nói Claude Opus 4.7 “rất mạnh”. Mô hình này có cửa sổ ngữ cảnh 1 triệu token, đầu ra tối đa 128.000 token, adaptive thinking, mức effort xhigh, task budgets beta, đầu vào hình ảnh độ phân giải cao hơn, và được Anthropic cùng AWS đặt vào nhóm tác vụ khó như coding, agent dài hạn và công việc chuyên môn.[1][4][9][10]

Nhưng nếu câu hỏi là “nó đã được chứng minh độc lập là mô hình mạnh nhất toàn thị trường chưa?”, câu trả lời vẫn nên để ngỏ. Cách nói chính xác hơn là: Claude Opus 4.7 nhiều khả năng nằm trong nhóm đầu của các mô hình thương mại tiền tuyến đang được cung cấp rộng rãi, đặc biệt mạnh ở coding, agent và tác vụ dài; còn bằng chứng công khai hiện chưa đủ để ủng hộ tuyên bố vô điều kiện rằng nó là số một toàn thị trường.[9][10][13][15]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • Claude Opus 4.7 thuộc nhóm mô hình thương mại tiền tuyến đáng chú ý, mạnh ở coding, agent chạy dài và tác vụ thị giác; hỗ trợ context 1 triệu token, đầu ra tối đa 128.000 token, còn điểm SWE bench Verified được trích...
  • Các nâng cấp thực dụng gồm adaptive thinking, mức effort xhigh, task budgets beta và ảnh độ phân giải cao; đổi lại, tokenizer mới có thể làm lượng token văn bản tăng tối đa khoảng 35%.[1]
  • Cách đánh giá an toàn nhất không phải chỉ nhìn bảng điểm công bố, mà là đưa Opus 4.7 vào bộ test coding / agent của chính bạn, đo tỷ lệ thành công, thời gian sửa tay, độ trễ và chi phí token.[10][15]

大家也會問

「Claude Opus 4.7 mạnh đến đâu? 1 triệu token, SWE-bench 87,6% và điều cần kiểm chứng」的簡短答案是什麼?

Claude Opus 4.7 thuộc nhóm mô hình thương mại tiền tuyến đáng chú ý, mạnh ở coding, agent chạy dài và tác vụ thị giác; hỗ trợ context 1 triệu token, đầu ra tối đa 128.000 token, còn điểm SWE bench Verified được trích...

最值得優先驗證的重點是什麼?

Claude Opus 4.7 thuộc nhóm mô hình thương mại tiền tuyến đáng chú ý, mạnh ở coding, agent chạy dài và tác vụ thị giác; hỗ trợ context 1 triệu token, đầu ra tối đa 128.000 token, còn điểm SWE bench Verified được trích... Các nâng cấp thực dụng gồm adaptive thinking, mức effort xhigh, task budgets beta và ảnh độ phân giải cao; đổi lại, tokenizer mới có thể làm lượng token văn bản tăng tối đa khoảng 35%.[1]

接下來在實務上該怎麼做?

Cách đánh giá an toàn nhất không phải chỉ nhìn bảng điểm công bố, mà là đưa Opus 4.7 vào bộ test coding / agent của chính bạn, đo tỷ lệ thành công, thời gian sửa tay, độ trễ và chi phí token.[10][15]

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

搜尋並查核事實:Claude Opus 4.7 有多強大?

Studio Global AI12 個來源

附引用的答案

查核後,Claude Opus 4.7 不是傳聞,Anthropic 已在 2026-04-16 正式發布,並把它定位為目前「最強、且已廣泛可用」的 Claude 模型。[2][6] 但如果把尚未全面開放的內部模型也算進來,官方自己也明說 Claude Mythos Preview 整體能力更強,Opus 4.7 並不是 Anthropic 絕對最強的那一個。[2][6]

  • 就定位來看,Opus 4.7 主打進階軟體工程、AI agents、複雜多步驟任務與專業知識工作,並提供 1M context window。[2][6]
  • 相比 Opus 4.6,Anthropic 說 4.7 在最難的軟體工程任務上進步明顯,能更穩定處理長時間任務、更精準遵循指令,且更會先驗證自己的輸出再回報。[6]
  • 在視覺能力上,官方稱 4.7 可處理更高解析度影像,對技術圖表、化學結構等多模態內容更強。[2][6]
  • 作為參照,Anthropic 在 2026-02 對 Opus 4.6 的公開說法是:它已在 Terminal-Bench 2.0、Humanity’s Last Exam、GDPval-AA、BrowseComp 等評測居前;而 4.7 又被官方描述為整體優於 4.6 的後繼版,所以它大概率仍屬現階段商用頂級模型。[5][6]
  • 但目前我能查到的強證據,主要仍是 Anthropic 官方公告、產品頁與其挑選的早期合作夥伴評測,不是完整的獨立第三方橫向測試。[2][6]
  • 例如官方頁面收錄的合作方評測提到:GitHub 內部 93 題 coding benchmark 上,Opus 4.7 對 Opus 4.6 的任務解決率提升 13%;另有研究代理 benchmark 報告它總分達 0.715、在 General Finance 模組為 0.813 對 4.6 的 0.767。[2][6]
  • 不過這些數字來自合作夥伴內部評測與 Anthropic 官方頁面轉述,能證明「很強」,但還不足以單憑這些資料就斷言它已被獨立證明為全市場第一。[2][6]

如果你要一句話結論:Claude Opus 4.7 很強,且看起來是目前最強的「已廣泛可用」Claude 之一,特別強在 coding、agent 與長流程任務;但若要說它已客觀、獨立地證明是全市場最強,現有公開證據仍不足。[2][5][6]

如果你願意,我下一步可以幫你把它和 GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.6 做一個「實戰能力對比」版本。

研究問題

研究並查核事實:Claude Opus 4.7 有多強大?

Studio Global AI20 個來源

附引用的答案

就目前可查到的公開資料看,Claude Opus 4.7 確實屬於前沿等級模型,特別強在程式開發、長流程 agent 任務、專業知識工作與視覺理解,而且 Anthropic 明確把它定位為目前「最強的廣泛可用 Claude 模型」。[1][5][15] 但如果問題是「它是否已被獨立證明為全市場最強」,答案要保留:Anthropic 自己也說 Claude Mythos Preview 更強,只是沒有像 Opus 4.7 那樣廣泛釋出,而我查到的強證據目前仍以官方材料、AWS 轉述與合作夥伴內部評測為主。[14][15]

Key findings

  • Anthropic 於 2026-04-16 正式發布 Claude Opus 4.7,並表示它已「generally available」,可在 Claude 產品、Claude API、Amazon Bedrock、Google Cloud Vertex AI 與 Microsoft Foundry 使用。[15]
  • Anthropic 的開發者文件把 Opus 4.7 定位為「截至目前最強的廣泛可用模型」,並說它在長時程 agentic work、知識工作、視覺任務與記憶任務上表現特別好。[1]
  • 這個模型支援 1M token context window、128k 最大輸出、adaptive thinking,以及新的 xhigh effort 等級;同時也引入 task budgets(beta)來控制 agentic loop 的整體 token 預算。[1]
  • 就「有多強」的核心能力來看,Anthropic 官方公告稱,Opus 4.7 相比 Opus 4.6 在進階軟體工程上有顯著提升,尤其是在最困難的任務上,且它更能穩定處理複雜、長時間任務,更精準遵循指令,並傾向先驗證自己的輸出再回報。[15]
  • 在產品定位上,Anthropic 官網寫得更直接:Opus 4.7 是一個面向專業軟體工程、複雜 agent 工作流與高風險企業任務的高階模型,主打在大程式碼庫、長流程與多步任務中的可靠性。[5]
  • 視覺能力是這次的重要升級之一。Anthropic 文件指出,Opus 4.7 是第一個支援高解析度影像的 Claude 模型,最高影像解析度提升到 2576px / 3.75MP,高於之前的 1568px / 1.15MP,並改善圖表、密集文件、UI 截圖、定位與低階感知任務的表現。[1]
  • 依 AWS 發布的 Amazon Bedrock 上線文章轉述 Anthropic 數據,Opus 4.7 的官方 benchmark 成績包含 SWE-bench Pro 64.3%、SWE-bench Verified 87.6%、Terminal-Bench 2.0 69.4%,以及 Finance Agent v1.1 64.4%。[14]
  • Anthropic 官網公告還列出多個合作夥伴內部評測:GitHub 表示在其 93 題 coding benchmark 上,Opus 4.7 對 Opus 4.6 的任務解決率提升 13%,其中有 4 題連 Opus 4.6 與 Sonnet 4.6 都沒解出;另一個研究代理 benchmark 則稱 Opus 4.7 的總分達 0.715,並在 General Finance 模組從 Opus 4.6 的 0.767 提升到 0.813。[15]
  • 不過,Anthropic 也明說 Opus 4.7 並不是它「絕對最強」的模型,因為 Claude Mythos Preview 更強;Opus 4.7 的重點是它屬於較廣泛可用的版本。[15]
  • 還有一個實務上的代價是成本與 token 使用。Anthropic 文件提醒,Opus 4.7 的新 tokenizer 在處理文字時,可能會比先前模型多用約 0% 到 35% 的 tokens,而高解析度圖片也會增加 token 消耗。[1]

Evidence notes

  • 目前最可靠的核心事實,主要來自 Anthropic 官方公告、Anthropic 開發者文件與 Anthropic 產品頁,因此像「是否存在」「是否已正式發布」「是否廣泛可用」「官方如何定位它」這幾點,可信度高。[1][5][15]
  • 具體分數型 benchmark 證據,雖然有 AWS 上線文與 Anthropic 公告可引用,但多數仍是 Anthropic 自述或合作夥伴內部評測,不等於完整的中立第三方橫向驗證。[14][15]
  • 我主要依據這幾個來源:Anthropic 開發者文件《What’s new in Claude Opus 4.7》[1]、Anthropic 產品頁《Claude Opus 4.7》[5]、AWS News Blog 的 Bedrock 上線文[14]、Anthropic 官方新聞稿《Introducing Claude Opus 4.7》[15]

Limitations / uncertainty

  • 對於「Claude Opus 4.7 是否已被獨立證明為全市場最強模型」這個更強的說法,Insufficient evidence。[14][15]
  • 我查到的公開材料裡,最硬的證據仍偏向官方與生態夥伴,而不是大量、成熟、可重現的第三方基準總表。[14][15]
  • 因此,更穩妥的結論是:它幾乎可以確定非常強,且很可能位於目前商用頂級模型第一梯隊;但若要下「無可爭議的全市場第一」結論,現階段公開證據還不夠。[1][14][15]

Summary

Claude Opus 4.7 很強,而且從官方可核實資料來看,它是 Anthropic 目前最強的「廣泛可用」Claude 模型,重點優勢在 coding、長流程 agents、長上下文推理、專業知識工作與高解析度視覺理解。[1][5][15] 但若把尚未廣泛釋出的 Claude Mythos Preview 也算進來,Opus 4.7 並非 Anthropic 絕對最強;若要宣稱它已被獨立驗證為整個市場最強,目前仍缺足夠公開證據。[14][15]

如果你要,我下一步可以幫你做一版「Claude Opus 4.7 vs GPT-5 / Gemini / Claude Sonnet」的實戰能力對比,分成 coding、研究、長任務與價格四個面向。

來源