studioglobal
인기 있는 발견
답변게시됨14 소스

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: ai mạnh ở việc gì?

Chưa nên xếp hạng bốn mô hình theo một bảng tổng duy nhất: GPT 5.5 và Claude Opus 4.7 có nhiều số liệu chung hơn, trong khi Kimi K2.6 dùng cả số từ model card và harness riêng, còn DeepSeek V4 thiếu nhiều benchmark co... GPT 5.5 là ứng viên nên thử trước cho tác vụ agent trong terminal: OpenAI công bố 82,7% trên Ter...

17K0
네 개의 AI 모델 벤치마크 점수를 비교하는 추상적인 대시보드 일러스트
GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다AI 생성 이미지. 네 모델의 공개 벤치마크 비교를 상징적으로 표현했습니다.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다. Article summary: 종합 1위는 보류가 맞습니다. 공개값 기준으로 GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%가 강하지만, 네 모델을 같은 하네스로 평가한 독립 비교는 부족합니다 [19][27][5].. Topic tags: ai, benchmarks, openai, chatgpt, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and Kimi K2.6 Changes Everything" Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownun

openai.com

Nhìn riêng các điểm benchmark công khai, việc xếp GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 thành một bảng vàng duy nhất là khá dễ gây hiểu lầm. GPT-5.5 và Claude Opus 4.7 có nhiều con số được đặt cạnh nhau hơn; Kimi K2.6 lại có số từ model card, tức tài liệu mô tả mô hình, và cả harness nội bộ; DeepSeek V4 thì thiếu nhiều điểm chung trên các benchmark coding lớn [1][2][5][6].

Cách đọc thực dụng hơn là: bạn đang cần mô hình cho việc gì, và nên thử mô hình nào trước. Benchmark là bài đo chuẩn; còn harness là bộ kịch bản chạy, cấp công cụ và chấm điểm. Hai mô hình có cùng tên benchmark nhưng chạy khác harness thì không nên xem như so găng tuyệt đối.

Kết luận nhanh theo từng loại việc

  • Agent coding trong terminal: nên bắt đầu với GPT-5.5. OpenAI công bố GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0; các bảng công khai đặt Claude Opus 4.7 ở 69,4% và Kimi K2.6 ở 66,7% [19][8][13][6].
  • Sửa lỗi từ issue GitHub thật: Claude Opus 4.7 là ứng viên số một để thử trước. Các nguồn công khai ghi SWE-Bench Pro 64,3% và SWE-Bench Verified 87,6%, trong khi GPT-5.5 đạt 58,6% trên SWE-Bench Pro [27][19].
  • Ngữ cảnh dài, đa phương thức: đưa Kimi K2.6 vào danh sách thử nghiệm nếu đầu vào gồm văn bản, hình ảnh, video hoặc cần tuyến ngữ cảnh 256k [7].
  • Gọi API hàng loạt, nhạy về chi phí: DeepSeek V4 đáng chú ý về giá. Mashable liệt kê mức 1,74 USD/triệu token đầu vào và 3,48 USD/triệu token đầu ra cho DeepSeek V4, so với GPT-5.5 là 5 USD/30 USD và Claude Opus 4.7 là 5 USD/25 USD [3]. Tuy vậy, báo cáo hallucination cao của Artificial Analysis là lý do phải có kiểm thử riêng trước khi dùng cho việc cần độ chính xác cao [2].

Bảng benchmark chính

Dấu nghĩa là trong các nguồn công khai được cung cấp chưa có con số đối ứng đủ trực tiếp cho cùng benchmark. Nó không có nghĩa mô hình đó không làm được tác vụ này.

BenchmarkGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4Cách đọc nhanh
Terminal-Bench 2.082,7% [19]69,4% [8][13]66,7% [6]Với workflow dòng lệnh, GPT-5.5 có điểm công khai cao nhất.
SWE-Bench Pro58,6% [19]64,3% [27]58,6% [1][6]Nhóm sửa mã và xử lý issue GitHub nghiêng về Claude Opus 4.7.
SWE-Bench Verified87,6% [27]80,2% [1][6]Trong nguồn hiện có, Claude và Kimi là hai mô hình có số rõ nhất.
GPQA Diamond93,6% [8][13]94,2% [8][13]GPT-5.5 và Claude rất sát nhau; số công khai nghiêng nhẹ về Claude.
HLE with tools52,2% [8]54,7% [8][29]54,0% [6]Claude và Kimi cao hơn, nhưng số của Kimi có thể không cùng điều kiện chạy [6].
BrowseComp84,4% [8][13]79,3% [8][13]Với tác vụ duyệt web và tìm thông tin, GPT-5.5 có điểm cao hơn.
OSWorld-Verified78,7% [13]78,0% [13]Chênh lệch giữa GPT-5.5 và Claude Opus 4.7 rất nhỏ.
MCP Atlas75,3% [13]79,1% [13]Với đánh giá kiểu kết nối công cụ/MCP, Claude Opus 4.7 nhỉnh hơn.

GPT-5.5: mạnh khi công việc sống trong terminal

OpenAI mô tả Terminal-Bench 2.0 là bài đo các workflow dòng lệnh phức tạp, đòi hỏi lập kế hoạch, lặp lại và phối hợp công cụ; còn SWE-Bench Pro đo khả năng giải quyết issue GitHub trong đời thực [19]. Với 82,7% ở Terminal-Bench 2.0 và 58,6% ở SWE-Bench Pro, GPT-5.5 là lựa chọn đáng thử trước cho các tác vụ như tái hiện lỗi trong CI, chạy script nhiều vòng, chỉnh sửa file, tạo bản vá và tự kiểm tra bằng lệnh shell [19].

Nhưng không nên suy ra GPT-5.5 thắng mọi bài coding. Ở SWE-Bench Pro, Claude Opus 4.7 được báo cáo 64,3%, cao hơn mức 58,6% của GPT-5.5 [19][27]. Nếu nhiệm vụ chính là đọc issue, tìm nguyên nhân và sửa repository theo kiểu SWE-Bench, Claude xứng đáng được thử song song hoặc thậm chí thử trước.

Claude Opus 4.7: hợp với sửa mã, rà soát và xử lý issue

DataCamp tổng hợp rằng Claude Opus 4.7 được đánh giá trên 14 benchmark bao gồm coding, suy luận, dùng công cụ, dùng máy tính và suy luận thị giác [27]. Trong nhóm agentic coding, Opus 4.7 đạt SWE-Bench Pro 64,3% và SWE-Bench Verified 87,6% [27].

Ở các so sánh chung với GPT-5.5, Claude Opus 4.7 cũng nhỉnh hơn trên GPQA Diamond, với 94,2% so với 93,6%, và trên MCP Atlas, với 79,1% so với 75,3% [8][13]. Chiều ngược lại, GPT-5.5 dẫn ở Terminal-Bench 2.0 và BrowseComp [8][13][19]. Vì vậy, Claude Opus 4.7 không phải đáp án mặc định cho mọi tác vụ agent, nhưng là ứng viên rất mạnh cho sửa lỗi, review, tái cấu trúc và các luồng cần đọc hiểu repository cẩn thận.

Kimi K2.6: điểm đáng chú ý là ngữ cảnh dài và đa phương thức

Kimi K2.6 được giới thiệu với SWE-Bench Pro 58,6% và SWE-Bench Verified 80,2%; một hướng dẫn khác cũng nêu Terminal-Bench 2.0 66,7% và HLE with tools 54,0% [1][6]. Tuy nhiên, nguồn đó nói các số K2.6 đến từ model card chính thức của Moonshot AI, và riêng SWE-Bench Pro có ghi chú về Moonshot in-house harness [6].

Vì thế, dù Kimi K2.6 và GPT-5.5 cùng xuất hiện với con số 58,6% trên SWE-Bench Pro, không nên kết luận đây là một trận hòa tuyệt đối trong cùng điều kiện chạy [1][6][19]. Lý do thuyết phục hơn để thử Kimi K2.6 là năng lực đầu vào văn bản, hình ảnh, video và tuyến ngữ cảnh 256k được giới thiệu công khai [7]. Với sản phẩm phải đọc tài liệu dài, ảnh chụp màn hình, video hoặc nhiều lớp ngữ cảnh cùng lúc, Kimi nên nằm trong nhóm thử nghiệm.

DeepSeek V4: giá hấp dẫn, nhưng phải kiểm chứng độ tin cậy

Trong các nguồn được cung cấp, DeepSeek V4 chưa có đủ số trực tiếp để điền công bằng vào những hàng như Terminal-Bench 2.0, SWE-Bench Pro, SWE-Bench Verified hay GPQA Diamond. Thay vào đó, Artificial Analysis cho biết DeepSeek V4 Pro Max đạt -10 trên AA-Omniscience, cải thiện 11 điểm so với V3.2, còn V4 Flash Max đạt -23 [2]. Cùng nguồn này báo cáo tỷ lệ hallucination của V4 Pro và V4 Flash lần lượt là 94% và 96%, kèm diễn giải rằng khi không biết, các mô hình này gần như luôn vẫn đưa ra câu trả lời [2].

Về cấu trúc, DataCamp mô tả DeepSeek V4 dùng kiến trúc Mixture of Experts. Bản Pro có tổng 1,6 nghìn tỷ tham số, 49 tỷ tham số hoạt động; bản Flash có tổng 284 tỷ tham số, 13 tỷ tham số hoạt động [4]. Về chi phí, mức giá API do Mashable tổng hợp cho DeepSeek V4 thấp hơn GPT-5.5 và Claude Opus 4.7 [3].

Điều đó khiến DeepSeek V4 đáng cân nhắc cho xử lý hàng loạt, tác vụ có bộ kiểm chứng nội bộ, hoặc các workflow mà chi phí/token là ràng buộc lớn. Nhưng với việc thiếu benchmark chung và có báo cáo hallucination cao, những sản phẩm đòi hỏi độ chính xác phải có đánh giá riêng, hậu kiểm và cơ chế phát hiện lỗi trước khi đưa vào vận hành [2][3][4].

Nên thử mô hình nào trước?

Ca sử dụngMô hình nên thử trướcLý do
Tự động hóa terminal, agent chạy shell, tái hiện lỗi CIGPT-5.5Terminal-Bench 2.0 ghi GPT-5.5 82,7%, Claude Opus 4.7 69,4% và Kimi K2.6 66,7% trong các nguồn công khai [19][8][13][6].
Sửa issue GitHub, code repair, tác vụ kiểu SWE-BenchClaude Opus 4.7Claude Opus 4.7 đạt SWE-Bench Pro 64,3% và SWE-Bench Verified 87,6% [27].
Duyệt web, tìm thông tin, tác vụ kiểu BrowseCompGPT-5.5BrowseComp ghi GPT-5.5 84,4% và Claude Opus 4.7 79,3% [8][13].
Tích hợp công cụ/MCPClaude Opus 4.7MCP Atlas ghi Claude Opus 4.7 79,1% và GPT-5.5 75,3% [13].
Ngữ cảnh rất dài, đầu vào đa phương thứcKimi K2.6Kimi K2.6 được giới thiệu là hỗ trợ văn bản, hình ảnh, video và tuyến ngữ cảnh 256k [7].
Gọi API số lượng lớn, nhạy về chi phíDeepSeek V4Giá token DeepSeek V4 thấp hơn GPT-5.5 và Claude Opus 4.7 theo Mashable, nhưng cần tính cả báo cáo hallucination cao của Artificial Analysis [2][3].

Vì sao chưa thể gọi tên nhà vô địch chung?

Thứ nhất, chưa có đủ so sánh độc lập đặt cả bốn mô hình vào cùng prompt, cùng quyền truy cập công cụ, cùng ngân sách suy luận và cùng bộ chấm điểm. GPT-5.5 và Claude Opus 4.7 có nhiều số chung hơn, nhưng Kimi K2.6 trộn số từ model card và harness riêng, còn DeepSeek V4 thiếu nhiều hàng benchmark đối ứng [1][2][5][6].

Thứ hai, cùng một tên benchmark vẫn có thể chạy khác điều kiện. Một phân tích về GPT-5.5 và Claude Opus 4.7 nhận xét các điểm số có thể so sánh về hình thức, nhưng không nhất thiết giống nhau về phương pháp luận [5]. Anthropic cũng nói rõ họ dùng Terminus-2 harness, tắt thinking và áp dụng điều kiện tài nguyên cụ thể khi đánh giá Terminal-Bench 2.0 [31].

Thứ ba, benchmark chỉ là một lát cắt của chất lượng sản phẩm. Khi đưa mô hình vào ứng dụng thật, bạn còn phải đo cách mô hình thất bại, hallucination, độ trễ, chi phí, độ ổn định khi gọi công cụ, chính sách an toàn và khả năng tái hiện log. ExplainX cũng cảnh báo rằng định nghĩa leaderboard, prompt và chính sách công cụ có thể làm điểm số thay đổi, nên không thể thay thế bộ đánh giá riêng của đội sản phẩm [28].

Điểm chốt

Nếu chỉ dựa trên bằng chứng công khai hiện có, chiến lược hợp lý là: GPT-5.5 cho agent coding trong terminal, Claude Opus 4.7 cho sửa mã và xử lý issue kiểu SWE-Bench, Kimi K2.6 cho ngữ cảnh dài đa phương thức, và DeepSeek V4 cho workload lớn nhạy về chi phí nhưng có kiểm chứng riêng [19][27][7][3]. Còn danh hiệu mô hình mạnh nhất toàn diện thì nên để ngỏ, vì điểm số có thể đổi theo prompt, quyền dùng công cụ, thiết lập suy luận và harness đánh giá [5][28][31].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • Chưa nên xếp hạng bốn mô hình theo một bảng tổng duy nhất: GPT 5.5 và Claude Opus 4.7 có nhiều số liệu chung hơn, trong khi Kimi K2.6 dùng cả số từ model card và harness riêng, còn DeepSeek V4 thiếu nhiều benchmark co...
  • GPT 5.5 là ứng viên nên thử trước cho tác vụ agent trong terminal: OpenAI công bố 82,7% trên Terminal Bench 2.0, trong khi các bảng công khai ghi Claude Opus 4.7 là 69,4% và Kimi K2.6 là 66,7% [19][8][13][6].
  • Claude Opus 4.7 nổi bật hơn ở sửa lỗi và xử lý issue GitHub: SWE Bench Pro 64,3% và SWE Bench Verified 87,6%, cao hơn mức SWE Bench Pro 58,6% của GPT 5.5 [27][19].
  • Kimi K2.6 đáng chú ý nếu cần đầu vào văn bản, ảnh, video và ngữ cảnh 256k; DeepSeek V4 có giá API thấp hơn nhưng cần kiểm thử riêng vì thiếu số chung và có báo cáo hallucination cao [7][2][3].

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: ai mạnh ở việc gì?"에 대한 짧은 대답은 무엇입니까?

Chưa nên xếp hạng bốn mô hình theo một bảng tổng duy nhất: GPT 5.5 và Claude Opus 4.7 có nhiều số liệu chung hơn, trong khi Kimi K2.6 dùng cả số từ model card và harness riêng, còn DeepSeek V4 thiếu nhiều benchmark co...

먼저 검증할 핵심 포인트는 무엇인가요?

Chưa nên xếp hạng bốn mô hình theo một bảng tổng duy nhất: GPT 5.5 và Claude Opus 4.7 có nhiều số liệu chung hơn, trong khi Kimi K2.6 dùng cả số từ model card và harness riêng, còn DeepSeek V4 thiếu nhiều benchmark co... GPT 5.5 là ứng viên nên thử trước cho tác vụ agent trong terminal: OpenAI công bố 82,7% trên Terminal Bench 2.0, trong khi các bảng công khai ghi Claude Opus 4.7 là 69,4% và Kimi K2.6 là 66,7% [19][8][13][6].

실무에서는 다음으로 무엇을 해야 합니까?

Claude Opus 4.7 nổi bật hơn ở sửa lỗi và xử lý issue GitHub: SWE Bench Pro 64,3% và SWE Bench Verified 87,6%, cao hơn mức SWE Bench Pro 58,6% của GPT 5.5 [27][19].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI34 소스

인용 답변

요약하면, 공개적으로 확인 가능한 “동일 조건” 벤치마크만 놓고 보면 GPT-5.5는 터미널/에이전트 코딩, Claude Opus 4.7은 SWE-Bench Pro·Verified와 추론 계열에서 강합니다. DeepSeek V4와 Kimi K2.6은 공개 수치가 흩어져 있어 4개 모델을 한 표로 공정하게 순위화하기에는 근거가 부족합니다.

항목GPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6
Terminal-Bench 2.082.7%69.4%공개 비교 근거 부족약 66%대로 보도됨
SWE-Bench Pro58.6%64.3%공개 비교 근거 부족58.6%
SWE-Bench Verified공개 수치 확인 부족87.6%공개 비교 근거 부족80.2%
GPQA Diamond0.94/1로 집계된 자료 있음94.2%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
HLEGPT-5.5와 Opus 4.7 비교 자료에서 항목 존재46.9%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
기타OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨
  • GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 [15].
  • Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 [3].
  • GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 [12].
  • Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 [15][4].
  • DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 [7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

  • 에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 [15].
  • 실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 [3][12].
  • 비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 [7][4].
  • 종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

  • [1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai

    SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...

  • [2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com

    How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai

    Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...

  • [8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [19] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com

    Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...

  • [28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai

    \Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...

  • [29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [31] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...