studioglobal
Khám phá xu hướng
Câu trả lờiĐã xuất bản10 nguồn

GPT-5.5 vs Claude Opus 4.7: benchmark nào quan trọng cho workload của bạn?

Không có người thắng tuyệt đối: GPT 5.5 dẫn rõ Terminal Bench 2.0 với 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; hãy chọn theo workload, không theo một bảng xếp hạng tổng. Ở reasoning khoa học, Claude Opus 4.7 chỉ nhỉnh nhẹ trên GPQA Diamond: 94,2% so với 93,6%, nên chênh lệch...

16K0
Minh họa so sánh benchmark GPT-5.5 và Claude Opus 4.7 cho coding, agent và reasoning
GPT-5.5 vs Claude Opus 4.7: benchmark nào đáng tin cho coding, agent và reasoningCác benchmark GPT-5.5 vs Claude Opus 4.7 nên được đọc theo workload: terminal agents, sửa issue phần mềm, tool orchestration và reasoning.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7: benchmark nào đáng tin cho coding, agent và reasoning?. Article summary: Không có người thắng tuyệt đối: GPT 5.5 nổi bật ở terminal/agentic coding với Terminal Bench 2.0 đạt 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; các số này nên dùng làm điểm lọc,.... Topic tags: ai, openai, anthropic, claude, chatgpt. Reference image context from search candidates: Reference image 1: visual subject "# So sánh GPT-5.5 với Claude Opus 4.7. GPT-5.5 và Claude Opus 4.7 là hai model AI hàng đầu ra mắt cách nhau chỉ một tuần tháng 4/2026, không có winner rõ ràng khi benchmarks chia t" source context "So sánh GPT-5.5 với Claude Opus 4.7 | Viết bởi vninfinity" Reference image 2: visual subject "# So sánh GPT-5.5 với Claude Opus 4.7. GPT-5.5 và Claude Opus 4.7 là hai model

openai.com

Các benchmark công khai hiện tại không ủng hộ một kết luận kiểu “GPT-5.5 tốt hơn Claude Opus 4.7” hay ngược lại. Tín hiệu rõ nhất là theo workload: GPT-5.5 mạnh hơn ở terminal, browsing và một số workflow agent; Claude Opus 4.7 mạnh hơn ở SWE-Bench Pro, MCP Atlas và một vài benchmark reasoning/tooling theo bảng tổng hợp [5][6][11].

Điểm cần nhớ: nhiều con số đến từ công bố nhà cung cấp hoặc bảng tổng hợp. LLM Stats còn ghi chú rằng điểm GPT-5.5 có thể là self-reported và chưa được xác minh độc lập [8]. Vì vậy, các benchmark dưới đây nên được dùng để lọc model vào vòng thử nghiệm, không phải để chốt model sản phẩm.

Kết luận nhanh theo benchmark

BenchmarkGPT-5.5Claude Opus 4.7Đọc kết quả như thế nào
Terminal-Bench 2.082,7%69,4%Lợi thế rõ cho GPT-5.5 ở workflow dòng lệnh. OpenAI mô tả benchmark này là bài test các tác vụ command-line phức tạp cần planning, iteration và phối hợp tool [5][11][23].
SWE-Bench Pro58,6%64,3%Claude Opus 4.7 dẫn ở benchmark sửa issue GitHub thực tế dạng khó; OpenAI cũng công bố GPT-5.5 đạt 58,6% ở bài này [5][11][23].
GPQA Diamond93,6%94,2%Claude nhỉnh hơn, nhưng chỉ 0,6 điểm phần trăm; không nên xem đây là lợi thế quyết định cho mọi bài toán reasoning [5][11].
BrowseComp84,4%79,3%GPT-5.5 dẫn trong cả bảng Vellum và Mashable [5][11].
GDPval84,9%80,3%GPT-5.5 dẫn trong bảng Vellum [5].
OSWorld-Verified78,7%78,0%GPT-5.5 chỉ nhỉnh nhẹ, nên cần kiểm tra lại trên workflow thực tế [5].
MCP Atlas75,3%79,1%Claude Opus 4.7 dẫn ở benchmark tool orchestration này trong bảng Vellum [5].
FrontierMath T1–351,7%43,8%GPT-5.5 dẫn trong bảng Vellum [5].
FinanceAgent v1.1Không có số đối chiếu đầy đủ trong nguồn được cung cấp64,4% trong DataCampLLM Stats xếp Claude dẫn FinanceAgent v1.1, nhưng nên thận trọng vì thiếu cặp số đầy đủ trong các nguồn trích dẫn ở đây [3][6].
Humanity’s Last ExamKhông nhất quán giữa nguồnKhông nhất quán giữa nguồnKhông nên dùng làm tie-breaker nếu chưa kiểm soát cùng điều kiện chạy; LLM Stats, Mashable và o-mega đưa tín hiệu khác nhau [6][9][11].

Nếu gom theo LLM Stats, Claude Opus 4.7 dẫn 6 trong 10 benchmark mà nguồn này nói cả hai nhà cung cấp báo cáo, còn GPT-5.5 dẫn 4. LLM Stats cũng tóm tắt rằng lợi thế của Claude tập trung ở các bài reasoning-heavy và review-grade, còn lợi thế của GPT-5.5 tập trung ở tool-use dài và shell-driven tasks [6]. Cách gom này hữu ích, nhưng không giải quyết được các hàng có dữ liệu mâu thuẫn như Humanity’s Last Exam [6][9][11].

Coding: Terminal-Bench và SWE-Bench không đo cùng một thứ

Với agentic coding trong terminal, GPT-5.5 là ứng viên mạnh hơn trên số liệu công khai hiện có. GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 ở 69,4% trong các bảng đối chiếu [5][11]. OpenAI mô tả Terminal-Bench 2.0 là benchmark cho các workflow command-line phức tạp cần lập kế hoạch, lặp lại và phối hợp công cụ [23].

Điều đó đặc biệt quan trọng nếu sản phẩm của bạn là CLI copilot, DevOps assistant, coding agent phải chạy test, đọc lỗi, sửa file rồi lặp lại. Với loại workload này, Terminal-Bench 2.0 đáng ưu tiên hơn các bài reasoning tổng quát.

Ngược lại, với sửa issue phần mềm thực tế, Claude Opus 4.7 dẫn trên SWE-Bench Pro: 64,3% so với 58,6% của GPT-5.5 [5][11]. OpenAI mô tả SWE-Bench Pro là bài đánh giá khả năng giải quyết issue GitHub thực tế [23]. Nếu workload giống bug fixing, thay đổi code trong repo thật hoặc review-grade software tasks hơn là điều khiển terminal dài, Claude Opus 4.7 nên được đưa vào vòng thử nghiệm đầu tiên.

Riêng SWE-Bench Verified chưa đủ sạch để chốt người thắng giữa hai model trong bộ nguồn này. MindStudio ghi Claude Opus 4.7 đạt 82,4%, trong khi APIyi và DataCamp ghi 87,6%; các nguồn được cung cấp không cho một cặp số GPT-5.5 vs Claude Opus 4.7 ổn định cho cùng hàng này [1][2][3].

Agent và workflow: GPT-5.5 dẫn nhiều bài, Claude vẫn có vùng mạnh

Ở nhóm workflow agent, GPT-5.5 có nhiều tín hiệu tích cực. Trong bảng Vellum, GPT-5.5 dẫn BrowseComp với 84,4% so với 79,3%, GDPval với 84,9% so với 80,3%, và OSWorld-Verified với 78,7% so với 78,0% [5]. Mashable cũng ghi GPT-5.5 dẫn BrowseComp với cùng cặp điểm 84,4% và 79,3% [11]. LLM Stats bổ sung rằng GPT-5.5 dẫn CyberGym, dù nguồn được trích không hiển thị điểm phần trăm trong snippet [6].

Claude Opus 4.7 vẫn có các vùng đáng chú ý. Trong bảng Vellum, Claude dẫn MCP Atlas với 79,1% so với 75,3% của GPT-5.5 [5]. LLM Stats xếp Claude dẫn FinanceAgent v1.1, còn DataCamp ghi Claude Opus 4.7 đạt 64,4% trên FinanceAgent v1.1 [3][6]. Anthropic cũng mô tả Claude Opus 4.7 là bản Opus mới mạnh hơn ở coding, agents, vision và tác vụ nhiều bước [28].

Vì vậy, nếu workflow của bạn thiên về shell, browsing hoặc OS-style automation, GPT-5.5 có lợi thế ban đầu. Nếu workload thiên về orchestration có cấu trúc, MCP hoặc tác vụ tài chính, Claude Opus 4.7 đáng được benchmark trực tiếp thay vì loại sớm.

Reasoning: GPQA sát, HLE chưa ổn định

Ở GPQA Diamond, Claude Opus 4.7 đạt 94,2% và GPT-5.5 đạt 93,6% trong các bảng đối chiếu [5][11]. Đây là lợi thế cho Claude, nhưng mức chênh 0,6 điểm phần trăm quá nhỏ để quyết định mọi use case reasoning. Với bài toán scientific QA, phân tích chuyên môn hoặc reasoning dài, lựa chọn hợp lý hơn là chạy cả hai model trên bộ câu hỏi thật của bạn.

Humanity’s Last Exam là phần nên đọc thận trọng nhất. LLM Stats nói Claude Opus 4.7 dẫn cả HLE không dùng tools và HLE có tools [6]. Mashable lại ghi GPT-5.5 đạt 40,6% so với 31,2% của Opus 4.7 ở HLE không tools, trong khi Claude đạt 54,7% so với 52,2% của GPT-5.5 ở HLE có tools [11]. o-mega đưa thêm một bộ số HLE khác [9]. Khi các nguồn không thống nhất, HLE không nên là tie-breaker trừ khi bạn tự chạy lại với cùng setup.

Nên chọn GPT-5.5 hay Claude Opus 4.7?

Chọn GPT-5.5 để thử trước nếu bạn ưu tiên agent chạy terminal, shell workflow, test loop hoặc automation nhiều bước, vì Terminal-Bench 2.0 nghiêng mạnh về GPT-5.5 [5][11][23]. GPT-5.5 cũng là lựa chọn đáng thử sớm cho browsing/search-style workflow, GDPval, OSWorld-Verified và FrontierMath T1–3 theo bảng Vellum [5][11].

Chọn Claude Opus 4.7 để thử trước nếu bạn ưu tiên sửa issue phần mềm kiểu SWE-Bench Pro, nơi Claude dẫn GPT-5.5 [5][11]. Claude cũng nên được đưa vào shortlist cho GPQA-style scientific reasoning, MCP/tool orchestration và finance-agent workflow, dựa trên GPQA Diamond, MCP Atlas, FinanceAgent v1.1 và nhận định tổng hợp của LLM Stats [3][5][6][11].

Cách an toàn nhất là không chọn chỉ từ leaderboard. Hãy chia workload của bạn thành bốn nhóm: coding trong repo, terminal/agent automation, reasoning không tool và workflow có tool. Với mỗi nhóm, chạy cùng prompt, cùng quyền truy cập tool, cùng sampling, cùng reasoning effort và cùng tiêu chí chấm. Benchmark công khai giúp biết nên bắt đầu từ đâu; eval nội bộ mới cho biết model nào đáng đưa vào sản phẩm, nhất là khi một số điểm công khai có thể là tự báo cáo hoặc chưa được xác minh độc lập [8].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Không có người thắng tuyệt đối: GPT 5.5 dẫn rõ Terminal Bench 2.0 với 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; hãy chọn theo workload, không theo một bảng xếp hạng tổng.
  • Ở reasoning khoa học, Claude Opus 4.7 chỉ nhỉnh nhẹ trên GPQA Diamond: 94,2% so với 93,6%, nên chênh lệch này không đủ để thay thế eval nội bộ.
  • Các nguồn công khai có điểm mâu thuẫn ở SWE Bench Verified và Humanity’s Last Exam, đồng thời một số điểm có thể là tự báo cáo hoặc chưa được xác minh độc lập.

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5 vs Claude Opus 4.7: benchmark nào quan trọng cho workload của bạn?" là gì?

Không có người thắng tuyệt đối: GPT 5.5 dẫn rõ Terminal Bench 2.0 với 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; hãy chọn theo workload, không theo một bảng xếp hạng tổng.

Những điểm chính cần xác nhận đầu tiên là gì?

Không có người thắng tuyệt đối: GPT 5.5 dẫn rõ Terminal Bench 2.0 với 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; hãy chọn theo workload, không theo một bảng xếp hạng tổng. Ở reasoning khoa học, Claude Opus 4.7 chỉ nhỉnh nhẹ trên GPQA Diamond: 94,2% so với 93,6%, nên chênh lệch này không đủ để thay thế eval nội bộ.

Tôi nên làm gì tiếp theo trong thực tế?

Các nguồn công khai có điểm mâu thuẫn ở SWE Bench Verified và Humanity’s Last Exam, đồng thời một số điểm có thể là tự báo cáo hoặc chưa được xác minh độc lập.

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

So sánh một cách toàn diện benchmarks của GPT-5.5 vs Claude Opus 4.7

Studio Global AI36 nguồn

Câu trả lời được trích dẫn

GPT-5.5 và Claude Opus 4.7 không có một bộ benchmark “chuẩn hóa, độc lập, cùng điều kiện” được công bố đầy đủ, nên so sánh dưới đây nên xem là tổng hợp có điều kiện. Nhìn chung: GPT-5.5 mạnh hơn ở tác vụ terminal/agentic thao tác môi trường, duyệt web, OS và một số benchmark kinh tế; Claude Opus 4.7 nhỉnh hơn ở coding dạng SWE-Bench Pro, reasoning nặng và agent tài chính theo các bảng tổng hợp hiện có [8][11].

Lưu ý về độ tin cậy

  • Nguồn chính thức của Anthropic có trang Claude Opus 4.7 và nói mô hình này cải thiện rõ ở tool calls, planning và agent decision-making, nhưng snippet công khai không cho đủ toàn bộ bảng số để đối chiếu trực tiếp với GPT-5.5 [3].
  • Nguồn OpenAI tìm được gồm GPT-5.5 System Card và tài liệu benchmark riêng như GeneBench, nhưng không thấy một trang chính thức duy nhất công bố toàn bộ bảng đối đầu GPT-5.5 vs Claude Opus 4.7 theo cùng format [1][9].
  • Vì vậy, các con số so sánh trực tiếp bên dưới chủ yếu dựa trên các nguồn tổng hợp/benchmark aggregator và bài phân tích bên thứ ba; cần coi là “tự báo cáo hoặc tổng hợp”, không phải kết quả kiểm định độc lập hoàn toàn [11][13].

Bảng benchmark chính

Nhóm benchmarkGPT-5.5Claude Opus 4.7Mô hình nhỉnh hơnNhận xét
Terminal-Bench 2.082.7%69.4%GPT-5.5GPT-5.5 dẫn khá xa ở tác vụ terminal/agentic trong môi trường dòng lệnh [8].
SWE-Bench Pro58.6%64.3%Claude Opus 4.7Claude Opus 4.7 nhỉnh hơn ở benchmark sửa lỗi/phát triển phần mềm thực tế dạng khó [8].
SWE-Bench VerifiedKhông đủ số nhất quán từ nguồn đối chiếu82.4% hoặc 87.6% tùy nguồnKhông kết luận chắcCó mâu thuẫn giữa nguồn bên thứ ba: một nguồn ghi Opus 4.7 đạt 82.4%, nguồn khác ghi 87.6% [4][6].
GPQA Diamond93.6%94.2%Claude Opus 4.7, rất sátChênh lệch nhỏ; một nguồn nhận định các frontier model gần như đã hội tụ trên GPQA Diamond [7][14].
GDPval84.9%80.3%GPT-5.5GPT-5.5 nhỉnh hơn ở đánh giá tác vụ kinh tế/công việc văn phòng theo bảng tổng hợp [8].
OSWorld-VerifiedCó lợi thế theo tổng hợpThấp hơn GPT-5.5GPT-5.5Nguồn tổng hợp nói GPT-5.5 dẫn ở OSWorld-Verified, nhưng snippet không hiển thị đầy đủ số [11].
CyberGymCó lợi thế theo tổng hợpThấp hơn GPT-5.5GPT-5.5Nguồn tổng hợp nói GPT-5.5 dẫn ở CyberGym, nhưng snippet không hiển thị đầy đủ số [11].
FinanceAgent v1.1Thấp hơn Opus 4.7 theo tổng hợpCao hơn GPT-5.5Claude Opus 4.7Nguồn tổng hợp nói Opus 4.7 dẫn ở FinanceAgent v1.1 [11].
MCP AtlasThấp hơn Opus 4.7 theo tổng hợpCao hơn GPT-5.5Claude Opus 4.7Nguồn tổng hợp nói Opus 4.7 dẫn ở MCP Atlas [11].
BrowseCompCao hơn Opus 4.7 theo tổng hợpThấp hơn GPT-5.5GPT-5.5Nguồn tổng hợp nói GPT-5.5 dẫn ở BrowseComp [11].
Humanity’s Last ExamNguồn mâu thuẫnNguồn mâu thuẫnKhông kết luận chắcLLM Stats nói Opus 4.7 dẫn HLE có và không có tools, trong khi một bài khác ghi GPT-5.5 cao hơn ở HLE và HLE with tools; đây là điểm không nên kết luận nếu chưa có bảng chính thức cùng điều kiện [11].

Kết luận theo từng loại tác vụ

  • Coding thực chiến: Claude Opus 4.7 có lợi thế trên SWE-Bench Pro với 64.3% so với GPT-5.5 là 58.6% [8]. Tuy nhiên GPT-5.5 lại vượt rõ ở Terminal-Bench 2.0 với 82.7% so với 69.4%, nên nếu tác vụ là agent thao tác terminal, chạy lệnh, điều hướng môi trường và tự động hóa, GPT-5.5 có vẻ mạnh hơn [8].

  • Reasoning khoa học/tri thức khó: Claude Opus 4.7 nhỉnh hơn trên GPQA Diamond với 94.2% so với GPT-5.5 khoảng 93.6%, nhưng mức chênh này nhỏ và có thể không đáng kể trong thực tế [7][14].

  • Agent và workflow công việc: GPT-5.5 dẫn ở GDPval với 84.9% so với Claude Opus 4.7 là 80.3%, đồng thời được tổng hợp là dẫn ở BrowseComp, OSWorld-Verified và CyberGym [8][11]. Claude Opus 4.7 được tổng hợp là dẫn ở MCP Atlas và FinanceAgent v1.1, tức có lợi thế ở một số workflow agent tài chính/điều phối công cụ [11].

  • Độ chắc chắn của so sánh: Chưa có đủ bằng chứng độc lập, cùng prompt, cùng sampling, cùng tool setup để nói mô hình nào “toàn diện hơn” một cách tuyệt đối. Kết luận thực dụng là GPT-5.5 có vẻ tốt hơn cho terminal agents, browsing/OS/cyber và một số workflow năng suất; Claude Opus 4.7 có vẻ tốt hơn cho SWE-Bench Pro, reasoning sát ngưỡng cao và một số agent tài chính [8][11].

Chọn mô hình nào?

  • Chọn GPT-5.5 nếu bạn ưu tiên:

    • Agent chạy terminal, automation, shell/tool execution [8].
    • Tác vụ OS, browsing, cyber hoặc workflow năng suất tổng quát [11].
    • Benchmark GDPval/công việc tri thức tổng quát [8].
  • Chọn Claude Opus 4.7 nếu bạn ưu tiên:

    • Coding kiểu sửa issue phức tạp trên repo thật, nhất là SWE-Bench Pro [8].
    • Reasoning khoa học khó, dù lợi thế trên GPQA Diamond là nhỏ [7][14].
    • Agent tài chính hoặc orchestration theo các benchmark như FinanceAgent v1.1 và MCP Atlas [11].
  • Nếu dùng cho sản phẩm thật, nên chạy eval nội bộ trên dữ liệu của bạn; benchmark công khai hiện tại chưa đủ đồng nhất để thay thế A/B test thực tế.

Nguồn

  • [1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai

    Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...

  • [2] Claude Opus 4.7 Benchmark Full Analysis: Empirical Data Leading ...help.apiyi.com

    Q1: What is Claude Opus 4.7? Claude Opus 4.7 is the flagship Large Language Model released by Anthropic on April 16, 2026. It leads in multiple benchmarks, including coding (SWE-bench Verified 87.6%), Agent tool invocation, and scientific reasoning (GPQA Di...

  • [3] Claude Opus 4.7 Benchmark: Memory & Effort Levels Testeddatacamp.com

    Note: Pricing is $5 per million input tokens and $25 per million output tokens which is identical to Opus 4.6. If you want to explore this model in depth, this article by DataCamp team is a good read. A few numbers worth knowing before we test it: Benchmark...

  • [5] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [6] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...

  • [8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com

    Show 18 more Self-reported by the model provider. Score may not be independently verified. Similar Models How GPT-5.5 compares to models with the closest performance across key benchmarks. GPT-5.5GPT-5.4Gemini 3.1 ProClaude Opus 4.7GPT-5.2 ProClaude Mythos...

  • [9] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...

  • [11] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [23] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [28] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...