studioglobal
Khám phá xu hướng
Báo cáoĐã xuất bản7 nguồn

GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6: mana yang paling cocok?

Tidak ada satu juara umum: Claude Opus 4.7 memimpin GPQA Diamond 94,2% dan HLE tanpa tool 46,9%; GPT 5.5 Pro memimpin HLE dengan tool 57,2% dan BrowseComp 90,1%; GPT 5.5 unggul di Terminal Bench 2.0 dengan 82,7% [2]. DeepSeek V4 menarik dari sisi biaya/kinerja karena digambarkan mendekati state of the art dengan bia...

17K0
Minh họa so sánh benchmark giữa GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026Benchmark các mô hình AI lớn nên được đọc theo tác vụ: reasoning, tool use, terminal, coding và chi phí.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026. Article summary: Không có mô hình thắng tuyệt đối: Claude Opus 4.7 dẫn GPQA Diamond ở 94.2% và HLE không tool, GPT 5.5 Pro dẫn HLE có tool ở 57.2%, còn GPT 5.5 dẫn Terminal Bench 2.0 ở 82.7%.. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "# 2026年4月最新四大模型横评:Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4,差距到底有多大?. # 同周发布四大旗舰,差距到底有多大?Kimi K2.6 / Claude Opus 4.7 / GPT-5.5 / DeepSeek V4 深度横评. **2026 年 4 月的第三周,AI" source context "2026年4月最新四大模型横评:Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4,差距到底有多大? - 七牛云行业应用 - 博客园" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4h

openai.com

Benchmark AI 2026 sebaiknya dibaca sebagai peta kemampuan, bukan papan klasemen tunggal. Dari sumber yang tersedia, pilihan paling masuk akal adalah memilih model sesuai beban kerja: Claude Opus 4.7 unggul untuk reasoning tanpa tool dan SWE-Bench Pro; GPT-5.5 Pro paling menonjol untuk tool use dan browsing; GPT-5.5 punya sinyal terkuat di terminal; DeepSeek V4 menarik dari sisi biaya/kinerja tetapi membawa catatan soal hallucination; sedangkan Kimi K2.6 punya beberapa skor menarik, namun belum tersedia dalam matriks perbandingan yang benar-benar seragam dengan semua pesaing [1][2][3][8][9].

Ringkasan benchmark utama

Tanda — berarti sumber yang dirujuk tidak menyediakan angka pembanding langsung untuk model tersebut pada benchmark yang sama. Itu bukan berarti skornya nol.

BenchmarkGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Pemimpin dalam data ini
GPQA Diamond93,6%94,2%90,1%— di tabel langsung; LLM Stats mencatat GPQA 0,91Claude Opus 4.7 [2][8]
Humanity’s Last Exam, tanpa tool41,4%43,1%46,9%37,7%Claude Opus 4.7 [2]
Humanity’s Last Exam, dengan tool52,2%57,2%54,7%48,2%GPT-5.5 Pro [2]
Terminal-Bench 2.082,7%69,4%67,9%GPT-5.5 [2]
SWE-Bench Pro / SWE Pro58,6%64,3%55,4%LLM Stats mencatat 0,59Claude Opus 4.7 [2][3]
BrowseComp84,4%90,1%79,3%83,4%DocsBot mencatat 83,2%GPT-5.5 Pro dalam tabel VentureBeat [2][9]
MCP Atlas / MCPAtlas Public75,3%79,1%73,6%Claude Opus 4.7 [2]

Tabel ini menjelaskan mengapa klaim satu model menang total terlalu menyederhanakan masalah. Claude Opus 4.7 memimpin beberapa benchmark reasoning dan software engineering dalam data pembanding langsung. GPT-5.5 Pro memimpin benchmark yang melibatkan tool dan browsing. GPT-5.5 memimpin Terminal-Bench 2.0. Kimi K2.6 muncul terutama lewat sumber terpisah seperti LLM Stats dan DocsBot, bukan dalam satu tabel penuh yang menyandingkan semua model pada kondisi yang sama [2][3][8][9].

Reasoning berat: Claude Opus 4.7 masih paling kuat

Untuk pembaca yang tidak mengikuti benchmark LLM setiap hari, GPQA adalah kumpulan soal pilihan ganda sulit dari pakar biologi, fisika, dan kimia; LLM Stats menggambarkannya sebagai soal yang sangat sulit dan tidak mudah dijawab hanya dengan pencarian web biasa [8]. Dalam tabel pembanding VentureBeat, Claude Opus 4.7 mencapai 94,2% pada GPQA Diamond, di atas GPT-5.5 pada 93,6% dan DeepSeek-V4-Pro-Max pada 90,1% [2]. Selisih Claude dan GPT-5.5 memang tipis, tetapi dalam data itu Claude tetap berada di posisi teratas [2].

Claude Opus 4.7 juga memimpin Humanity’s Last Exam tanpa tool dengan 46,9%, dibanding GPT-5.5 Pro 43,1%, GPT-5.5 41,4%, dan DeepSeek-V4-Pro-Max 37,7% [2]. Jika pekerjaan utama Anda adalah menjawab pertanyaan pengetahuan sulit, reasoning ilmiah, atau evaluasi tanpa alat bantu eksternal, data yang tersedia lebih condong ke Claude Opus 4.7 [2].

Kimi K2.6 tetap punya sinyal positif pada GPQA. LLM Stats mencatat Kimi K2.6 di 0,91, sementara Claude Opus 4.7 dan GPT-5.5 sama-sama ditampilkan pada 0,94 setelah pembulatan di leaderboard tersebut [8]. Namun, itu bukan tabel GPQA Diamond langsung yang sama seperti di VentureBeat, sehingga lebih aman membacanya sebagai data pendukung, bukan bukti perbandingan mutlak [2][8].

Tool use dan browsing: GPT-5.5 Pro paling menonjol

Begitu benchmark mengizinkan penggunaan tool, urutannya berubah. Pada Humanity’s Last Exam dengan tool, GPT-5.5 Pro mencapai 57,2%, mengungguli Claude Opus 4.7 pada 54,7%, GPT-5.5 pada 52,2%, dan DeepSeek-V4-Pro-Max pada 48,2% [2].

BrowseComp juga condong ke GPT-5.5 Pro dalam tabel VentureBeat. GPT-5.5 Pro mencetak 90,1%, GPT-5.5 84,4%, DeepSeek-V4-Pro-Max 83,4%, dan Claude Opus 4.7 79,3% [2]. DocsBot mencatat Kimi K2.6 pada 83,2% untuk BrowseComp, tetapi angka itu berasal dari halaman perbandingan tersendiri antara Kimi K2.6 dan DeepSeek-V4 Pro, bukan dari matriks lengkap VentureBeat [9].

Jadi, untuk beban kerja yang banyak bergantung pada browsing, orkestrasi tool, atau riset web, GPT-5.5 Pro adalah pilihan yang paling kuat dalam kumpulan data yang dikutip [2].

Terminal dan agent CLI: GPT-5.5 unggul jelas

Terminal-Bench 2.0 penting untuk menilai agen AI yang benar-benar bekerja di lingkungan shell, bukan hanya menjawab pertanyaan. Benchmark ini digambarkan mengukur kemampuan menyelesaikan workflow CLI nyata, termasuk manipulasi file, menjalankan skrip, debugging, dan koordinasi tool [5].

Dalam tabel VentureBeat, GPT-5.5 mencapai 82,7% pada Terminal-Bench 2.0, jauh di atas Claude Opus 4.7 pada 69,4% dan DeepSeek-V4-Pro-Max pada 67,9% [2]. Jika use case Anda adalah agen yang menjalankan command line, memperbaiki error lewat terminal, mengotomatisasi repositori, atau menangani workflow shell multi-langkah, inilah keunggulan GPT-5.5 yang paling jelas dalam data saat ini [2][5].

Software engineering: Claude Opus 4.7 memimpin SWE-Bench Pro

SWE-Bench Pro adalah sinyal penting untuk tugas rekayasa perangkat lunak yang lebih kompleks. LLM Stats menggambarkannya sebagai versi lanjutan SWE-Bench yang menguji tugas software engineering dunia nyata, dengan kebutuhan reasoning panjang dan pemecahan masalah multi-langkah [3].

Dalam tabel VentureBeat, Claude Opus 4.7 mencapai 64,3% pada SWE-Bench Pro / SWE Pro, lebih tinggi daripada GPT-5.5 pada 58,6% dan DeepSeek-V4-Pro-Max pada 55,4% [2]. LLM Stats juga menempatkan Claude Opus 4.7 pada 0,64, GPT-5.5 pada 0,59, Kimi K2.6 pada 0,59, dan DeepSeek-V4-Pro-Max pada 0,55 di SWE-Bench Pro [3].

Walau format angkanya berbeda, sinyal utamanya sama: Claude Opus 4.7 memimpin kelompok ini untuk SWE-Bench Pro; GPT-5.5 dan Kimi K2.6 terlihat berdekatan dalam data LLM Stats; DeepSeek-V4-Pro-Max berada di bawah keduanya dalam angka yang dikutip [2][3].

DeepSeek V4: menarik karena biaya, tetapi perlu pagar pengaman hallucination

DeepSeek-V4-Pro-Max tidak memimpin satu pun baris benchmark langsung dalam tabel VentureBeat. Model ini mencetak 90,1% pada GPQA Diamond, 37,7% pada Humanity’s Last Exam tanpa tool, 48,2% pada Humanity’s Last Exam dengan tool, 67,9% pada Terminal-Bench 2.0, 55,4% pada SWE-Bench Pro, 83,4% pada BrowseComp, dan 73,6% pada MCP Atlas [2].

Daya tarik utamanya ada pada rasio biaya/kinerja. VentureBeat menggambarkan DeepSeek-V4 sebagai model yang mendekati state-of-the-art dengan biaya sekitar 1/6 dibanding Opus 4.7 dan GPT-5.5 [2]. Namun, Artificial Analysis mencatat DeepSeek V4 Pro Max meraih -10 pada AA-Omniscience, membaik 11 poin dibanding V3.2 Reasoning di -21, sekaligus menyebut V4 Pro dan V4 Flash memiliki tingkat hallucination sangat tinggi, masing-masing 94% dan 96% [1].

Tidak tepat menyimpulkan bahwa DeepSeek V4 pasti paling tidak andal di antara semua model, karena sumber yang dikutip tidak menyediakan metrik hallucination setara untuk GPT-5.5, Claude Opus 4.7, dan Kimi K2.6 [1]. Kesimpulan yang lebih aman: DeepSeek V4 layak dipertimbangkan ketika biaya menjadi prioritas, tetapi perlu pengujian hallucination yang serius pada data dan workflow nyata Anda [1][2].

Kimi K2.6: sinyalnya menarik, datanya belum seragam

Kimi K2.6 adalah model yang paling sulit diperingkat dalam perbandingan ini. Alasannya sederhana: datanya tidak tersedia dalam satu matriks benchmark penuh yang sama dengan GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max [2][3][8][9].

Meski begitu, beberapa sumber memberi sinyal yang patut diperhatikan. LLM Stats mencatat Kimi K2.6 pada 0,91 untuk GPQA dan 0,59 untuk SWE-Bench Pro [3][8]. DocsBot mencatat Kimi K2.6 mencapai 96,4% pada AIME 2026 dalam thinking mode, 27,9% pada APEX Agents, dan 83,2% pada BrowseComp; halaman yang sama mencatat DeepSeek-V4 Pro pada 83,4% untuk BrowseComp [9].

Karena angka-angka ini berasal dari sumber dan konteks yang berbeda, kesimpulan yang masuk akal bukanlah Kimi K2.6 menang atau kalah total. Kimi K2.6 lebih tepat dilihat sebagai kandidat yang layak diuji ketika benchmark individualnya cocok dengan kebutuhan Anda, terutama jika tim bisa menjalankan evaluasi internal di data nyata [3][8][9].

Rekomendasi praktis: pilih berdasarkan pekerjaan

  • Reasoning ilmiah atau pengetahuan sulit tanpa tool: mulai dari Claude Opus 4.7, karena model ini memimpin GPQA Diamond dan Humanity’s Last Exam tanpa tool dalam tabel pembanding langsung [2].
  • Tugas yang membutuhkan tool, web, atau browsing: prioritaskan GPT-5.5 Pro, karena model ini memimpin Humanity’s Last Exam dengan tool dan BrowseComp dalam data yang dikutip [2].
  • Agen terminal, workflow CLI, dan debugging lewat shell: GPT-5.5 punya sinyal paling kuat dengan 82,7% pada Terminal-Bench 2.0 [2][5].
  • Software engineering kompleks: Claude Opus 4.7 memimpin SWE-Bench Pro dalam tabel VentureBeat dan LLM Stats; GPT-5.5 serta Kimi K2.6 sama-sama berada di 0,59 dalam data LLM Stats [2][3].
  • Optimasi biaya/kinerja: DeepSeek V4 layak masuk shortlist karena digambarkan mendekati state-of-the-art dengan biaya sekitar 1/6 Opus 4.7 dan GPT-5.5, tetapi kontrol hallucination harus menjadi bagian dari evaluasi [1][2].
  • Ingin mencoba Kimi K2.6: perlakukan skor GPQA, SWE-Bench Pro, AIME 2026, APEX Agents, dan BrowseComp sebagai sinyal individual, bukan bukti posisi nomor satu secara keseluruhan [3][8][9].

Batasan penting saat membaca benchmark

Pertama, GPT-5.5 Pro hanya memiliki angka di beberapa baris dalam tabel VentureBeat. Jadi, kita tidak boleh menganggap versi Pro otomatis menang atau kalah pada benchmark yang tidak dilaporkan [2].

Kedua, data Kimi K2.6 terutama datang dari LLM Stats dan DocsBot, bukan dari tabel pembanding penuh yang sama dengan GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max [2][3][8][9].

Ketiga, OpenAI memiliki system card tersendiri untuk GPT-5.5. Di sana, CoT-Control disebut mencakup lebih dari 13.000 tugas yang dibangun dari benchmark seperti GPQA, MMLU-Pro, HLE, BFCL, dan SWE-Bench Verified [20]. Informasi ini berguna untuk memahami cara GPT-5.5 dievaluasi, tetapi sumber yang dikutip tidak menyediakan hasil CoT-Control setara untuk Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6, sehingga tidak bisa dipakai sebagai ranking lintas-model [20].

Jika harus diringkas dalam satu kalimat: Claude Opus 4.7 adalah pilihan paling kuat dalam data ini untuk reasoning sulit dan SWE-Bench Pro; GPT-5.5 Pro paling kuat untuk tool dan browsing; GPT-5.5 paling menonjol di terminal; DeepSeek V4 menarik ketika biaya menjadi prioritas; dan Kimi K2.6 punya sinyal bagus tetapi belum didukung matriks perbandingan yang seragam [1][2][3][8][9].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Tidak ada satu juara umum: Claude Opus 4.7 memimpin GPQA Diamond 94,2% dan HLE tanpa tool 46,9%; GPT 5.5 Pro memimpin HLE dengan tool 57,2% dan BrowseComp 90,1%; GPT 5.5 unggul di Terminal Bench 2.0 dengan 82,7% [2].
  • DeepSeek V4 menarik dari sisi biaya/kinerja karena digambarkan mendekati state of the art dengan biaya sekitar 1/6 Opus 4.7 dan GPT 5.5, tetapi Artificial Analysis mencatat tingkat hallucination sangat tinggi untuk V4...
  • Kimi K2.6 punya skor individual seperti GPQA 0,91, SWE Bench Pro 0,59, AIME 2026 96,4%, dan BrowseComp 83,2%, tetapi belum ada matriks lengkap yang setara dengan semua pesaing [3][8][9].

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6: mana yang paling cocok?" là gì?

Tidak ada satu juara umum: Claude Opus 4.7 memimpin GPQA Diamond 94,2% dan HLE tanpa tool 46,9%; GPT 5.5 Pro memimpin HLE dengan tool 57,2% dan BrowseComp 90,1%; GPT 5.5 unggul di Terminal Bench 2.0 dengan 82,7% [2].

Những điểm chính cần xác nhận đầu tiên là gì?

Tidak ada satu juara umum: Claude Opus 4.7 memimpin GPQA Diamond 94,2% dan HLE tanpa tool 46,9%; GPT 5.5 Pro memimpin HLE dengan tool 57,2% dan BrowseComp 90,1%; GPT 5.5 unggul di Terminal Bench 2.0 dengan 82,7% [2]. DeepSeek V4 menarik dari sisi biaya/kinerja karena digambarkan mendekati state of the art dengan biaya sekitar 1/6 Opus 4.7 dan GPT 5.5, tetapi Artificial Analysis mencatat tingkat hallucination sangat tinggi untuk V4...

Tôi nên làm gì tiếp theo trong thực tế?

Kimi K2.6 punya skor individual seperti GPQA 0,91, SWE Bench Pro 0,59, AIME 2026 96,4%, dan BrowseComp 83,2%, tetapi belum ada matriks lengkap yang setara dengan semua pesaing [3][8][9].

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6: benchmark 2026 nói gì?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "DeepSeek V4: không chỉ là 1M token, mà là bài toán MoE và API".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

Nghiên cứu benchmarks của GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6 và so sánh chúng một cách toàn diện nhất

Studio Global AI28 nguồn

Câu trả lời được trích dẫn

Dựa trên bộ bằng chứng được cung cấp, không thể so sánh đầy đủ cả 5 mô hình vì không có dữ liệu benchmark cho Kimi K2.6; Insufficient evidence. Trong các benchmark có số liệu, Claude Opus 4.7 đứng đầu GPQA Diamond và Humanity’s Last Exam không dùng công cụ, GPT-5.5 Pro đứng đầu Humanity’s Last Exam có công cụ, còn GPT-5.5 đứng đầu Terminal-Bench 2.0 [3]. DeepSeek-V4-Pro-Max ở gần nhóm đầu nhưng thua mô hình dẫn đầu trong các benchmark được trích dẫn, dù được mô tả là có chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3].

Key findings

  • Claude Opus 4.7 mạnh nhất trong nhóm benchmark tri thức/lý luận khó không dùng công cụ: Claude Opus 4.7 đạt 94.2% trên GPQA Diamond, cao hơn GPT-5.5 ở 93.6% và DeepSeek-V4-Pro-Max ở 90.1% [3]. Claude Opus 4.7 cũng đạt 46.9% trên Humanity’s Last Exam không dùng công cụ, cao hơn GPT-5.5 Pro 43.1%, GPT-5.5 41.4% và DeepSeek-V4-Pro-Max 37.7% [3].

  • GPT-5.5 Pro dẫn đầu khi có công cụ: Trên Humanity’s Last Exam có công cụ, GPT-5.5 Pro đạt 57.2%, cao hơn Claude Opus 4.7 ở 54.7%, GPT-5.5 ở 52.2% và DeepSeek-V4-Pro-Max ở 48.2% [3].

  • GPT-5.5 nổi bật nhất ở tác vụ terminal/agentic CLI: Trên Terminal-Bench 2.0, GPT-5.5 đạt 82.7%, cao hơn Claude Opus 4.7 ở 69.4% và DeepSeek-V4-Pro-Max ở 67.9% [3]. Terminal-Bench 2.0 được mô tả là benchmark đo khả năng hoàn thành workflow CLI thực tế gồm thao tác file, chạy script, debug và phối hợp công cụ [7].

  • DeepSeek-V4-Pro-Max có vị trí tốt về hiệu năng/chi phí nhưng chưa dẫn benchmark chính trong evidence: Nguồn [3] mô tả DeepSeek-V4 là “near state-of-the-art” với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5, nhưng trong các số liệu benchmark được trích, DeepSeek-V4-Pro-Max không đứng đầu GPQA Diamond, Humanity’s Last Exam hoặc Terminal-Bench 2.0 [3].

  • DeepSeek V4 có tín hiệu rủi ro hallucination: Nguồn [2] cho biết DeepSeek V4 Pro Max đạt -10 trên AA-Omniscience, cải thiện 11 điểm so với V3.2 Reasoning ở -21, chủ yếu nhờ độ chính xác cao hơn [2]. Cùng nguồn nói V4 Pro và V4 Flash có tỷ lệ hallucination “rất cao”, nhưng phần evidence bị cắt ở con số “94…”, nên không thể xác nhận chính xác tỷ lệ phần trăm [2].

  • Kimi K2.6 không thể đánh giá từ bộ evidence này: Không có nguồn nào trong evidence cung cấp điểm benchmark, giá, độ trễ, coding score, reasoning score hoặc hallucination score cho Kimi K2.6; Insufficient evidence.

Bảng so sánh benchmark có số liệu

Benchmark / năng lựcGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Mô hình dẫn đầu trong evidence
GPQA Diamond93.6%Không có số liệu94.2%90.1%Insufficient evidenceClaude Opus 4.7 [3]
Humanity’s Last Exam, không dùng công cụ41.4%43.1%46.9%37.7%Insufficient evidenceClaude Opus 4.7 [3]
Humanity’s Last Exam, có công cụ52.2%57.2%54.7%48.2%Insufficient evidenceGPT-5.5 Pro [3]
Terminal-Bench 2.082.7%Không có số liệu69.4%67.9%Insufficient evidenceGPT-5.5 [3]
AA-OmniscienceKhông có số liệuKhông có số liệuKhông có số liệu-10Insufficient evidenceKhông đủ dữ liệu đối chiếu giữa 5 mô hình [2]
SWE-Bench ProKhông đủ số liệuKhông đủ số liệuCó mốc 0.64 trong snippetSnippet hiển thị “#11 of 11” nhưng không có điểm đầy đủInsufficient evidenceKhông đủ dữ liệu lập ranking đầy đủ [4]

So sánh theo từng mục đích sử dụng

  • Nếu ưu tiên lý luận khoa học/tri thức khó: Claude Opus 4.7 có lợi thế nhẹ trên GPQA Diamond với 94.2%, so với GPT-5.5 ở 93.6% và DeepSeek-V4-Pro-Max ở 90.1% [3].

  • Nếu ưu tiên bài kiểm tra tổng hợp cực khó không dùng tool: Claude Opus 4.7 dẫn Humanity’s Last Exam không dùng công cụ với 46.9%, cao hơn GPT-5.5 Pro 43.1% và GPT-5.5 41.4% [3].

  • Nếu ưu tiên bài toán có tool: GPT-5.5 Pro là lựa chọn mạnh nhất trong evidence vì đạt 57.2% trên Humanity’s Last Exam có công cụ, cao hơn Claude Opus 4.7 ở 54.7% [3].

  • Nếu ưu tiên workflow terminal, automation và tác vụ agentic CLI: GPT-5.5 vượt rõ rệt với 82.7% trên Terminal-Bench 2.0, trong khi Claude Opus 4.7 đạt 69.4% và DeepSeek-V4-Pro-Max đạt 67.9% [3].

  • Nếu ưu tiên chi phí/hiệu năng: DeepSeek-V4 đáng chú ý vì được mô tả là đạt mức gần state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3]. Tuy nhiên, evidence không cung cấp bảng giá chi tiết hoặc giá token, nên không thể kiểm chứng sâu hơn về tổng chi phí sử dụng thực tế.

  • Nếu ưu tiên độ tin cậy và giảm hallucination: Evidence chỉ có dữ liệu hallucination cho DeepSeek V4, trong đó nguồn [2] nói hallucination vẫn rất cao dù AA-Omniscience cải thiện [2]. Không có dữ liệu hallucination tương đương cho GPT-5.5, Claude Opus 4.7 hoặc Kimi K2.6 trong evidence, nên không thể kết luận mô hình nào đáng tin cậy nhất về mặt này.

Evidence notes

  • Nguồn chính cho bảng so sánh số liệu giữa GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max là [3]. Các kết luận về mô hình đứng đầu từng benchmark trong bảng đều dựa trên các số liệu được trích trong [3].

  • GPT-5.5 có tài liệu hệ thống riêng về đánh giá an toàn/điều khiển chuỗi suy luận: system card nói GPT-5.5 được đo bằng CoT-Control, một bộ đánh giá hơn 13,000 tác vụ xây dựng từ các benchmark như GPQA và MMLU-Pro [1]. Tuy nhiên, evidence không cung cấp kết quả CoT-Control tương ứng cho Claude Opus 4.7, DeepSeek V4 hoặc Kimi K2.6, nên không thể dùng CoT-Control để so sánh ngang hàng [1].

  • Nguồn [6] cũng lặp lại rằng GPT-5.5 được đánh giá controllability bằng CoT-Control với hơn 13,000 tác vụ từ các benchmark đã có như GPQA và MMLU-Pro [6]. Đây là bằng chứng hữu ích về phạm vi đánh giá GPT-5.5, nhưng không đủ để lập ranking giữa 5 mô hình [6].

  • Nguồn [4] có nhắc đến SWE-Bench Pro cho DeepSeek-V4-Pro-Max và hiển thị Claude Opus 4.7 ở mức 0.64 trong snippet, nhưng phần evidence không đủ đầy đủ để so sánh SWE-Bench Pro giữa tất cả mô hình [4].

Limitations / uncertainty

  • Thiếu hoàn toàn dữ liệu Kimi K2.6: Không có benchmark nào cho Kimi K2.6 trong evidence, nên mọi xếp hạng có Kimi đều là Insufficient evidence.

  • Thiếu nguồn chính thức cho Claude Opus 4.7 và DeepSeek V4 trong bảng chính: Các số liệu so sánh trực tiếp chủ yếu đến từ nguồn [3], không phải model card chính thức của từng nhà cung cấp trong evidence [3].

  • Thiếu nhiều benchmark quan trọng: Evidence không cung cấp số liệu đầy đủ cho MMLU-Pro, AIME, LiveCodeBench, SWE-Bench Verified, MMMU, latency, context window, throughput hoặc giá token cho cả 5 mô hình.

  • Không thể kết luận “mô hình tốt nhất toàn diện” một cách tuyệt đối: Với evidence hiện có, chỉ có thể nói Claude Opus 4.7 dẫn một số benchmark reasoning không dùng tool, GPT-5.5/GPT-5.5 Pro dẫn các benchmark tool/terminal được trích, còn DeepSeek-V4-Pro-Max có lợi thế được mô tả về chi phí nhưng có cảnh báo hallucination [2][3].

Summary

  • Tốt nhất về GPQA Diamond: Claude Opus 4.7, 94.2% [3].

  • Tốt nhất về Humanity’s Last Exam không tool: Claude Opus 4.7, 46.9% [3].

  • Tốt nhất về Humanity’s Last Exam có tool: GPT-5.5 Pro, 57.2% [3].

  • Tốt nhất về Terminal-Bench 2.0: GPT-5.5, 82.7% [3].

  • Đáng chú ý về chi phí/hiệu năng: DeepSeek-V4, được mô tả là gần state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3].

  • Không thể đánh giá: Kimi K2.6, vì không có dữ liệu benchmark trong evidence; Insufficient evidence.

Nguồn

  • [1] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [2] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [3] DeepSeek-V4-Pro-Max: Pricing, Benchmarks & Performancellm-stats.com

    SWE-Bench ProView → 11 of 11 Image 35: LLM Stats Logo SWE-Bench Pro is an advanced version of SWE-Bench that evaluates language models on complex, real-world software engineering tasks requiring extended reasoning and multi-step problem solving. More 1Image...

  • [5] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Terminal-Bench 2.0 measures the ability to complete real CLI workflows: multi-step tasks involving file manipulation, script execution, debugging, and tool coordination. GPT-5.5's 82.7% score is the highest ever recorded, though the margin over Claude Mytho...

  • [8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com

    9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...

  • [9] Kimi K2.6 vs DeepSeek-V4 Pro - Detailed Performance & Feature Comparisondocsbot.ai

    Benchmark Kimi K2.6 DeepSeek-V4 Pro --- AIME 2026 American Invitational Mathematics Examination 2026 - Evaluates advanced mathematical problem-solving abilities (contest-level math) 96.4% Thinking mode Source Not available APEX Agents Evaluates long-horizon...

  • [20] [PDF] GPT-5.5 System Card - Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...