studioglobal
Khám phá xu hướng
Báo cáoĐã xuất bản12 nguồn

Claude Opus 4.7 vs GPT-5.5: benchmark 2026, DeepSeek V4 và Kimi K2.6 đang ở đâu?

Trong dữ liệu head to head, GPT 5.5 hơn Claude Opus 4.7 ở Terminal Bench 2.0, 82,7% so với 69,4%, còn Claude hơn ở SWE Bench Pro Public, 64,3% so với 58,6% [5]. Không có mẫu số chung cho mọi bài toán: Claude dẫn MCP Atlas và FinanceAgent v1.1, trong khi GPT 5.5 dẫn BrowseComp, GDPval, OfficeQA Pro và FrontierMath tr...

17K0
Ilustrasi perbandingan benchmark AI antara Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6
Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6Ilustrasi AI-generated untuk perbandingan benchmark model AI frontier 2026.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc

openai.com

Nhìn leaderboard AI năm 2026 rất dễ bị hoa mắt: cùng là benchmark coding, reasoning hay agent, nhưng chỉ cần khác phiên bản model, khác bộ test hoặc khác cách chạy là kết luận đã có thể lệch. Với bộ nguồn hiện có, phép so sánh chắc tay nhất là Claude Opus 4.7 với GPT-5.5, vì hai model này cùng xuất hiện trong các bảng benchmark của OpenAI và Vellum [5][2].

Ngược lại, DeepSeek V4 và Kimi K2.6 chưa có số liệu trực tiếp trong các nguồn được cung cấp. Những dữ liệu gần nhất chỉ nhắc đến DeepSeek V3.2, KimiK2.5 và Kimi K2 Thinking, nên không đủ để xếp hạng công bằng với Claude Opus 4.7 hoặc GPT-5.5 [1][13][6].

Tóm tắt nhanh

  • GPT-5.5 có tín hiệu mạnh nhất ở terminal/CLI, tác vụ văn phòng, browser/search và một số benchmark toán trong dữ liệu hiện có [5][2].
  • Claude Opus 4.7 nổi bật hơn ở SWE-Bench Pro Public, MCP Atlas/tool orchestration và FinanceAgent v1.1 trong các benchmark cùng bảng [5][2].
  • DeepSeek V4 và Kimi K2.6 chưa nên được đưa vào cùng một bảng xếp hạng trực tiếp nếu không có số benchmark đúng phiên bản model [1][13][6].

Những con số có thể đặt cạnh nhau

Bảng dưới đây chỉ ghép Claude Opus 4.7 và GPT-5.5 khi hai model được báo cáo trên cùng benchmark. GPT-5.5 Pro chỉ được nhắc đến khi nguồn tách riêng biến thể này [2].

Nhu cầu sản phẩmBenchmarkKết quả được báo cáoCách đọc
Sửa lỗi code trong repoSWE-Bench Pro PublicClaude Opus 4.7 64,3% vs GPT-5.5 58,6% [5]Claude dẫn ở benchmark này.
Agent terminal/CLITerminal-Bench 2.0GPT-5.5 82,7% vs Claude Opus 4.7 69,4% [5]GPT-5.5 có lợi thế rõ nhất ở nhóm terminal.
Công việc chuyên môn/văn phòngGDPval; OfficeQA ProGPT-5.5 84,9% vs Claude 80,3% ở GDPval; GPT-5.5 54,1% vs Claude 43,6% ở OfficeQA Pro [5]GPT-5.5 mạnh hơn trên hai thước đo công việc chuyên môn này.
Agent tài chínhFinanceAgent v1.1Claude 64,4% vs GPT-5.5 60,0% [5]Claude dẫn ở eval finance agent này.
Tác vụ máy tính/trình duyệtOSWorld-Verified; BrowseCompGPT-5.5 78,7% vs Claude 78,0% ở OSWorld; GPT-5.5 84,4% và GPT-5.5 Pro 90,1% vs Claude 79,3% ở BrowseComp [2]OSWorld gần như ngang nhau; GPT-5.5 cao hơn ở BrowseComp.
Điều phối công cụMCP AtlasClaude 79,1% vs GPT-5.5 75,3% [2]Claude có lợi thế trong kịch bản dùng nhiều tool/MCP.
Suy luận khoa học và toánGPQA Diamond; FrontierMath T1–3Claude 94,2% vs GPT-5.5 93,6% ở GPQA; GPT-5.5 51,7% và GPT-5.5 Pro 52,4% vs Claude 43,8% ở FrontierMath [2]GPQA rất sát nhau; GPT-5.5 dẫn ở FrontierMath.

Đọc benchmark thế nào để khỏi kết luận nhầm

1. Đừng trộn SWE-Bench Pro với SWE-bench Verified

OpenAI dùng SWE-Bench Pro Public trong bảng head-to-head GPT-5.5 và Claude Opus 4.7 [5]. Benchmark này không đồng nghĩa với SWE-bench Verified. BenchLM mô tả SWE-bench Verified là tập con đã được con người xác thực của SWE-bench, dùng để kiểm tra khả năng model xử lý issue GitHub thật từ các repo Python phổ biến như Django, Flask và scikit-learn [21].

Vì vậy, con số Claude 64,3% trên SWE-Bench Pro Public không nên được so thẳng với một điểm Claude khác trên SWE-bench Verified từ leaderboard khác nếu chưa đối chiếu tên benchmark, harness, thời điểm đánh giá và cấu hình model [5][21].

2. GPQA Diamond không còn là thước đo phân hạng sắc như trước

Vellum ghi Claude Opus 4.7 đạt 94,2% và GPT-5.5 đạt 93,6% trên GPQA Diamond [2]. The Next Web cũng báo Claude Opus 4.7 ở 94,2%, GPT-5.4 Pro ở 94,4% và Gemini 3.1 Pro ở 94,3%, rồi nhận định chênh lệch giữa các model frontier này nằm trong vùng nhiễu [17].

Nói cách khác, GPQA vẫn hữu ích như tín hiệu reasoning tổng quát, nhưng không nên là tiêu chí duy nhất để chọn model cho sản phẩm.

3. Leaderboard bên thứ ba có thể cho số khác nhau

Ngay trên SWE-bench Verified, điểm Claude Opus 4.7 cũng không hoàn toàn giống nhau giữa các nguồn. BenchLM báo Claude Opus 4.7 Adaptive đạt 87,6% vào ngày 24/4/2026 [21]. LLM Stats cũng nêu 87,6% [18]. Nhưng LM Council ghi Claude Opus 4.7 max ở 83,5% ±1,7 [10], còn MindStudio nói 82,4% [14].

Sự khác biệt này không tự động có nghĩa là một bên sai. Thường nó đến từ cấu hình model, harness đánh giá, ngày chạy test, số lần retry hoặc cách bật reasoning mode. Với nhóm engineering, điểm công khai nên được xem như danh sách rút gọn ban đầu, không phải thay thế cho bài test trên repo, dữ liệu và workflow thật của mình.

Claude Opus 4.7: nổi bật ở sửa repo và điều phối nhiều tool

Tín hiệu mạnh nhất của Claude Opus 4.7 nằm ở coding repair và agent dùng nhiều công cụ. Trong bảng của OpenAI, Claude vượt GPT-5.5 ở SWE-Bench Pro Public, 64,3% so với 58,6%, và ở FinanceAgent v1.1, 64,4% so với 60,0% [5]. Vellum cũng báo Claude dẫn ở MCP Atlas, 79,1% so với GPT-5.5 75,3% [2].

Anthropic còn nêu các đánh giá đối tác liên quan đến agentic workflows. Trong thông báo ra mắt Claude Opus 4.7, Anthropic trích Hebbia cho biết độ chính xác của tool calls và planning trong orchestrator agents tăng hai chữ số; Rakuten-SWE-Bench thì báo Opus 4.7 giải được số production tasks nhiều gấp 3 lần Opus 4.6, cùng mức tăng hai chữ số ở Code Quality và Test Quality [19]. Đây là tín hiệu sản phẩm đáng chú ý, nhưng vẫn khác với đánh giá độc lập trên workload nội bộ của từng tổ chức.

Nếu ưu tiên của bạn là autonomous repo repair, MCP hoặc workflow multi-tool dài hơi, Claude Opus 4.7 đáng được đưa vào vòng thử nghiệm đầu tiên. Tuy nhiên, kết quả công khai vẫn cần được kiểm chứng lại bằng test suite, permission model và cách tool call thật sự vận hành trong hệ thống của bạn.

GPT-5.5: mạnh ở terminal, browser/search, office và một số bài toán

Lợi thế rõ nhất của GPT-5.5 nằm ở Terminal-Bench 2.0. OpenAI báo GPT-5.5 đạt 82,7%, so với Claude Opus 4.7 ở 69,4% và Gemini 3.1 Pro ở 68,5% [5]. Trong cùng bảng, GPT-5.5 cũng cao hơn Claude ở GDPval wins/ties, 84,9% so với 80,3%, và OfficeQA Pro, 54,1% so với 43,6% [5].

Vellum bổ sung thêm bức tranh cho computer-use, search và reasoning. GPT-5.5 nhỉnh hơn Claude trên OSWorld-Verified, 78,7% so với 78,0%; cao hơn trên BrowseComp, 84,4% so với 79,3%; và cao hơn trên FrontierMath T1–3, 51,7% so với 43,8% [2]. Với BrowseComp, Vellum còn báo GPT-5.5 Pro đạt 90,1% [2].

Ở coding, bức tranh không một chiều. GPT-5.5 rất mạnh trên Terminal-Bench 2.0, nhưng thấp hơn Claude Opus 4.7 trên SWE-Bench Pro Public trong bảng của OpenAI [5]. OpenAI System Card cũng mô tả CoT-Control cho GPT-5.5, một suite đánh giá gồm hơn 13.000 task xây từ các benchmark như GPQA, MMLU-Pro, HLE, BFCL và SWE-Bench Verified [26]. Tuy vậy, nguồn này không đưa ra so sánh trực tiếp với DeepSeek V4 hoặc Kimi K2.6 [26].

DeepSeek V4 và Kimi K2.6: chưa đủ bằng chứng để xếp hạng

Với DeepSeek V4, các nguồn hiện có không cung cấp benchmark trực tiếp. Dữ liệu gần nhất lại là DeepSeek V3.2: MangoMind xếp DeepSeek V3.2 trong nhóm khuyến nghị coding tháng 4/2026 với 89,2% SWE-bench, thấp hơn Claude Opus 4.6 93,2% và GPT-5.4 Pro 91,1% [1]. Con số của DeepSeek V3.2 không thể dùng để kết luận hiệu năng của DeepSeek V4.

Với Kimi K2.6, tình hình tương tự. Stanford HAI nhắc KimiK2.5 nằm trong nhóm model đạt 70%–76% trên SWE-bench Verified tính đến tháng 2/2026 [13]. Siliconflow liệt kê Kimi K2 Thinking với GPQA 84,5 và SWE Bench 71,3 [6]. Cả hai đều không phải Kimi K2.6, nên chỉ có giá trị tham khảo bối cảnh hệ sinh thái Kimi, không phải bằng chứng benchmark trực tiếp cho model được hỏi.

Gợi ý kiểm thử cho nhóm sản phẩm

Nếu nhu cầu chính của bạn là...Model nên thử trướcCơ sở bằng chứngLưu ý
Coding agent chạy terminal/CLIGPT-5.5Terminal-Bench 2.0: GPT-5.5 82,7% vs Claude 69,4% [5]Test lại trong shell environment, permission model và CI/CD nội bộ.
Sửa lỗi repo tự độngClaude Opus 4.7, rồi GPT-5.5 làm đối chứngSWE-Bench Pro Public: Claude 64,3% vs GPT-5.5 58,6% [5]Đừng trộn với SWE-bench Verified nếu chưa khớp harness [21].
MCP hoặc điều phối nhiều toolClaude Opus 4.7MCP Atlas: Claude 79,1% vs GPT-5.5 75,3% [2]Kiểm chứng bằng tool schema, retry logic và access policy của bạn.
Browser/search agentGPT-5.5 hoặc GPT-5.5 ProBrowseComp: GPT-5.5 84,4%, GPT-5.5 Pro 90,1%, Claude 79,3% [2]BrowseComp không đại diện cho mọi nhu cầu nghiên cứu nội bộ.
Workflow tài chính/chuyên mônSplit test Claude và GPT-5.5Claude dẫn FinanceAgent v1.1, nhưng GPT-5.5 dẫn GDPval và OfficeQA Pro [5]MindStudio lưu ý khoảng cách từ benchmark finance đến tool triển khai thật thường nằm ở hạ tầng end-to-end, không chỉ ở intelligence của model [14].
Suy luận khoa học tổng quátKhông chọn chỉ dựa vào GPQAĐiểm GPQA Diamond của Claude và GPT-5.5 rất sát nhau trong bảng Vellum [2]Dùng eval riêng theo domain, nhất là khi nhiệm vụ khác đề benchmark.

Kết luận

Nếu chỉ dựa trên bằng chứng head-to-head hiện có, GPT-5.5 là ứng viên mạnh hơn cho terminal/CLI agent, browser/search, office tasks và một số benchmark toán [5][2]. Claude Opus 4.7 là ứng viên nổi bật hơn cho SWE-Bench Pro Public, MCP/tool orchestration và FinanceAgent v1.1 [5][2].

DeepSeek V4 và Kimi K2.6 chưa thể được xếp hạng công bằng với hai model trên trong bộ nguồn này. Dữ liệu hiện có nói về các phiên bản khác — DeepSeek V3.2, KimiK2.5 và Kimi K2 Thinking — nên các tuyên bố rằng DeepSeek V4 hoặc Kimi K2.6 vượt Claude Opus 4.7 hay GPT-5.5 chưa được hỗ trợ bằng số benchmark trực tiếp ở đây [1][13][6].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Trong dữ liệu head to head, GPT 5.5 hơn Claude Opus 4.7 ở Terminal Bench 2.0, 82,7% so với 69,4%, còn Claude hơn ở SWE Bench Pro Public, 64,3% so với 58,6% [5].
  • Không có mẫu số chung cho mọi bài toán: Claude dẫn MCP Atlas và FinanceAgent v1.1, trong khi GPT 5.5 dẫn BrowseComp, GDPval, OfficeQA Pro và FrontierMath trong các bảng hiện có [2][5].
  • DeepSeek V4 và Kimi K2.6 chưa có benchmark trực tiếp trong các nguồn này; dữ liệu gần nhất chỉ nói về DeepSeek V3.2, KimiK2.5 và Kimi K2 Thinking [1][13][6].

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "Claude Opus 4.7 vs GPT-5.5: benchmark 2026, DeepSeek V4 và Kimi K2.6 đang ở đâu?" là gì?

Trong dữ liệu head to head, GPT 5.5 hơn Claude Opus 4.7 ở Terminal Bench 2.0, 82,7% so với 69,4%, còn Claude hơn ở SWE Bench Pro Public, 64,3% so với 58,6% [5].

Những điểm chính cần xác nhận đầu tiên là gì?

Trong dữ liệu head to head, GPT 5.5 hơn Claude Opus 4.7 ở Terminal Bench 2.0, 82,7% so với 69,4%, còn Claude hơn ở SWE Bench Pro Public, 64,3% so với 58,6% [5]. Không có mẫu số chung cho mọi bài toán: Claude dẫn MCP Atlas và FinanceAgent v1.1, trong khi GPT 5.5 dẫn BrowseComp, GDPval, OfficeQA Pro và FrontierMath trong các bảng hiện có [2][5].

Tôi nên làm gì tiếp theo trong thực tế?

DeepSeek V4 và Kimi K2.6 chưa có benchmark trực tiếp trong các nguồn này; dữ liệu gần nhất chỉ nói về DeepSeek V3.2, KimiK2.5 và Kimi K2 Thinking [1][13][6].

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6: benchmark 2026 nói gì?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "DeepSeek V4: không chỉ là 1M token, mà là bài toán MoE và API".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI32 nguồn

Câu trả lời được trích dẫn

Berdasarkan bukti yang tersedia, benchmark yang paling bisa dibahas secara konkret hanya untuk Claude Opus 4.7. Untuk GPT-5.5, bukti yang tersedia hanya satu unggahan X tanpa angka benchmark lengkap; untuk DeepSeek V4 dan Kimi K2.6 tidak ada bukti benchmark langsung dalam sumber yang diberikan. Karena itu, perbandingan empat model ini belum bisa dibuat secara kuat; Insufficient evidence untuk klaim komparatif penuh.

Key findings

  • Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats [7].

  • Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard [4].

  • Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier [6].

  • Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified [7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% [1].

  • Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 [3].

  • Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 [31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer [31].

  • Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 [2]. Insufficient evidence.

  • Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 [1]. Insufficient evidence.

Perbandingan ringkas

ModelBukti benchmark langsungAngka yang tersediaKekuatan kesimpulan
Claude Opus 4.7AdaSWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100Sedang, tetapi perlu validasi sumber primer
GPT-5.5Sangat terbatasTidak ada angka; hanya klaim relatif via XLemah
DeepSeek V4Tidak adaTidak adaInsufficient evidence
Kimi K2.6Tidak adaTidak adaInsufficient evidence

Evidence notes

  • Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain [1].

  • LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model [2][3][4][5][6][7].

  • Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan [5].

  • MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 [2].

Limitations / uncertainty

  • Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.

  • Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.

  • Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik [31].

  • Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web [6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Claude Opus 4.7 adalah satu-satunya model dalam daftar yang memiliki bukti benchmark cukup konkret: 87.6% pada SWE-bench Verified, 94.2% pada GPQA, dan skor BenchLM 97/100 menurut sumber pihak ketiga [7][4]. GPT-5.5 hanya memiliki bukti lemah berupa klaim relatif dari X tanpa angka lengkap [31]. DeepSeek V4 dan Kimi K2.6 tidak memiliki data benchmark langsung dalam evidence yang tersedia, sehingga status benchmark keduanya adalah Insufficient evidence.

Nguồn

  • [1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com

    5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....

  • [2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [5] Introducing GPT-5.5 | OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com

    Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...

  • [10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...

  • [14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai

    This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...

  • [17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [19] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

  • [21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...

  • [26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...