studioglobal
Khám phá xu hướng
Báo cáoĐã xuất bản10 nguồn

GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6: ai đang dẫn đầu benchmark AI?

GPT 5.5 là ứng viên toàn diện có bằng chứng mạnh nhất: đạt 60 điểm ở Artificial Analysis Intelligence Index bản xhigh và 84,4% trên BrowseComp [2][3]. Claude Opus 4.7 dẫn GPT 5.5 ở SWE Bench Pro với 64,3% so với 58,6% và nhỉnh hơn ở GPQA Diamond với 94,2% so với 93,6%; ngược lại GPT 5.5 dẫn rõ ở Terminal Bench 2.0 v...

17K0
Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen
GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB

openai.com

Một bảng xếp hạng kiểu “ai số 1” nghe rất hấp dẫn, nhưng với nhóm mô hình này thì dễ gây hiểu nhầm. Các nguồn hiện có không đặt GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 vào cùng một bài kiểm tra độc lập, cùng cấu hình, cùng thời điểm. Thay vào đó, dữ liệu đến từ nhiều lát cắt benchmark, nhiều biến thể mô hình, cùng các phân tích từ nhà cung cấp hoặc bên thứ ba [2][3][7][21].

Dù vậy, vẫn có thể rút ra một bức tranh thực dụng: GPT-5.5 là mô hình có vị thế tổng thể được chứng minh tốt nhất, Claude Opus 4.7 rất mạnh ở lập trình và kiến thức, DeepSeek V4 nổi bật nhờ chi phí thấp trong khi hiệu năng BrowseComp rất sát nhóm đầu, còn Kimi K2.6 hấp dẫn về mặt kỹ thuật nhưng chưa đủ số liệu trực tiếp để xếp cùng bảng [1][2][3][7][22][24].

Kết luận nhanh

GPT-5.5 là lựa chọn “toàn diện” có nhiều bằng chứng nhất. Trong lát cắt Artificial Analysis được trích dẫn, GPT-5.5 bản xhigh đạt 60 điểm, GPT-5.5 bản high đạt 59 điểm, còn Claude Opus 4.7 đạt 57 điểm [2]. Ở BrowseComp, GPT-5.5 đạt 84,4%, DeepSeek V4 đạt 83,4% và Claude Opus 4.7 đạt 79,3% [3].

Claude Opus 4.7 đặc biệt mạnh ở phần mềm và kiến thức chuyên sâu. Claude dẫn ở SWE-Bench Pro với 64,3% so với 58,6% của GPT-5.5, và ở GPQA Diamond với 94,2% so với 93,6% của GPT-5.5 [22][24]. Tuy nhiên, GPT-5.5 lại dẫn rõ ở Terminal-Bench 2.0 với 82,7% so với 69,4% của Claude Opus 4.7 [22][24].

DeepSeek V4 là đối thủ đáng chú ý về giá/hiệu năng. VentureBeat nêu DeepSeek V4 đạt 83,4% trên BrowseComp, chỉ thấp hơn GPT-5.5 đúng 1,0 điểm phần trăm và cao hơn Claude Opus 4.7 [3]. Mashable đồng thời trích giá API của DeepSeek V4 là 1,74 USD cho 1 triệu token đầu vào và 3,48 USD cho 1 triệu token đầu ra, so với 5/30 USD của GPT-5.5 và 5/25 USD của Claude Opus 4.7 [1].

Kimi K2.6 đáng theo dõi, nhưng không nên xếp hạng vội. DocsBot mô tả Kimi K2.6 là mô hình mã nguồn mở, đa phương thức gốc, thiên về tác vụ agent, dùng kiến trúc MoE 1T tham số, 32B tham số được kích hoạt và cửa sổ ngữ cảnh 256K [7]. Tuy nhiên, các nguồn được cung cấp chưa có đủ điểm benchmark trực tiếp giữa Kimi K2.6 với GPT-5.5, Claude Opus 4.7 và DeepSeek V4 để so sánh công bằng [7].

Bảng so sánh nhanh

Mô hìnhKết luận có bằng chứng mạnh nhấtSố liệu nổi bậtCách hiểu thực tế
GPT-5.5Dẫn lát cắt Artificial Analysis Intelligence Index hiện có [2]Intelligence Index: 60 bản xhigh, 59 bản high [2]; BrowseComp: 84,4%, GPT-5.5 Pro: 90,1% [3]; Terminal-Bench 2.0: 82,7% [22][24]Điểm xuất phát tốt nhất nếu cần một mô hình đa dụng, nhưng không thắng mọi bài kiểm tra
Claude Opus 4.7Rất mạnh ở SWE-Bench, GPQA và một số tác vụ agent [20][22][24]Intelligence Index: 57 [2]; SWE-Bench Pro: 64,3% [22][24]; SWE-Bench Verified: 87,6% [20]; GPQA Diamond: 94,2% [22]Hợp với lập trình, rà soát mã, tác vụ kiến thức và một số công việc tài chính
DeepSeek V4Gần bắt kịp GPT-5.5 ở BrowseComp [3]BrowseComp: 83,4% [3]; giá API: 1,74 USD đầu vào và 3,48 USD đầu ra cho mỗi 1 triệu token [1]Rất đáng cân nhắc nếu chi phí và năng lực duyệt/tìm thông tin quan trọng hơn việc đứng đầu toàn bộ benchmark
Kimi K2.6Được mô tả là mô hình mở, đa phương thức, agent, ngữ cảnh dài [7]MoE 1T tham số, 32B tham số kích hoạt, 256K ngữ cảnh theo DocsBot [7]Hấp dẫn để thử nghiệm kỹ thuật, nhưng chưa đủ số liệu để xếp hạng ngang hàng

Vì sao không nên đọc benchmark như bảng tổng sắp huy chương?

Điểm cần nhớ đầu tiên: benchmark không phải lúc nào cũng được chạy trong cùng điều kiện. DataCamp từng lưu ý trong một so sánh mô hình frontier liên quan rằng một số điểm benchmark là do nhà cung cấp báo cáo và có thể dùng cấu hình harness khác nhau [21]. Nói đơn giản, cùng một mô hình có thể trông rất mạnh ở một thiết lập, nhưng kém nổi bật hơn ở thiết lập khác.

Biến thể mô hình cũng là vấn đề. Artificial Analysis nhắc đến GPT-5.5 xhigh, GPT-5.5 high và Claude Opus 4.7 với Adaptive Reasoning, Max Effort [2]. VentureBeat lại nói đến DeepSeek-V4-Pro-Max [3]. Những khác biệt như mức “suy luận”, cách dùng công cụ, cấu hình test harness hoặc phiên bản Pro/Max có thể ảnh hưởng mạnh đến kết quả, nhất là trong các bài coding, reasoning và agent.

Vì vậy, câu hỏi hữu ích hơn không phải là “mô hình nào vô địch?”, mà là: với công việc cụ thể của bạn, mô hình nào có bằng chứng tốt nhất?

Hiệu năng tổng thể: GPT-5.5 đang có lợi thế rõ nhất

Chỉ báo tổng thể rõ nhất trong các nguồn là lát cắt Artificial Analysis Intelligence Index. Ở đó, GPT-5.5 xhigh đứng đầu với 60 điểm, GPT-5.5 high đứng thứ hai với 59 điểm, và Claude Opus 4.7 ở cấu hình Adaptive Reasoning, Max Effort đạt 57 điểm [2].

Điều này củng cố nhận định rằng GPT-5.5 có lợi thế nhẹ nhưng nhìn thấy được so với Claude Opus 4.7 trong chỉ số này [2]. Tuy nhiên, cùng lát cắt đó không cung cấp đủ điểm trực tiếp, đầy đủ cho DeepSeek V4 và Kimi K2.6 để lập một bảng xếp hạng bốn mô hình thật sạch [2][7].

BrowseComp: DeepSeek V4 tiến rất sát GPT-5.5

BrowseComp là phần có dữ liệu so sánh trực tiếp rõ nhất giữa GPT-5.5, Claude Opus 4.7 và DeepSeek V4. VentureBeat nêu GPT-5.5 Pro đạt 90,1%, GPT-5.5 đạt 84,4%, DeepSeek V4 đạt 83,4% và Claude Opus 4.7 đạt 79,3% [3].

Mô hình hoặc biến thểĐiểm BrowseCompNhận xét
GPT-5.5 Pro90,1%Dẫn khá rõ trong lát cắt này [3]
GPT-5.584,4%Nhỉnh hơn DeepSeek V4 [3]
DeepSeek V483,4%Chỉ kém GPT-5.5 1,0 điểm phần trăm [3]
Claude Opus 4.779,3%Xếp sau GPT-5.5 và DeepSeek V4 trong số liệu này [3]
Kimi K2.6Chưa có điểm trực tiếp tương đương trong các nguồn được cung cấpKhông thể xếp hạng công bằng [7]

VentureBeat cũng nhận định DeepSeek-V4-Pro-Max chưa thể “hạ bệ” GPT-5.5 hoặc Claude Opus 4.7 nếu xét các benchmark có thể so sánh trực tiếp giữa các công ty [3]. Cách đọc hợp lý hơn là: DeepSeek V4 rất mạnh ở BrowseComp, nhưng một benchmark tốt chưa đủ để kết luận thắng toàn diện [3].

Lập trình và kỹ thuật phần mềm: Claude thắng SWE, GPT thắng Terminal

Ở mảng coding, không có người thắng tuyệt đối. Claude Opus 4.7 dẫn SWE-Bench Pro với 64,3%, trong khi GPT-5.5 đạt 58,6% [22][24]. Vellum cũng nêu Claude Opus 4.7 đạt 87,6% trên SWE-Bench Verified [20]. Nhưng ở Terminal-Bench 2.0, tình thế đảo chiều: GPT-5.5 đạt 82,7%, còn Claude Opus 4.7 đạt 69,4% [22][24].

BenchmarkGPT-5.5Claude Opus 4.7Kết luận từ số liệu hiện có
SWE-Bench Pro58,6%64,3%Claude dẫn [22][24]
SWE-Bench VerifiedChưa có điểm GPT-5.5 trực tiếp trong nguồn được cung cấp87,6%Điểm Claude rất mạnh, nhưng chưa đủ để so sánh đủ bốn mô hình [20]
Terminal-Bench 2.082,7%69,4%GPT-5.5 dẫn rõ [22][24]

Với DeepSeek V4 và Kimi K2.6, dữ liệu được cung cấp chưa đủ để đưa vào cùng bảng coding như trên. VentureBeat nói DeepSeek V4 tiến gần nhóm đầu ở một số benchmark có thể so sánh trực tiếp, nhưng các con số rõ nhất trong phần trích dẫn vẫn là BrowseComp [3]. Với Kimi K2.6, DocsBot chủ yếu cung cấp mô tả kiến trúc và năng lực mô hình, không phải ma trận benchmark đầy đủ với ba mô hình còn lại [7].

Reasoning, kiến thức và tác vụ chuyên nghiệp: dẫn đầu tùy bài kiểm tra

Ở các bài kiến thức và reasoning, GPT-5.5 và Claude Opus 4.7 bám khá sát nhau. Vellum nêu GPQA Diamond là 93,6% cho GPT-5.5 và 94,2% cho Claude Opus 4.7 [22]. Mashable cũng nêu các điểm GPQA Diamond này, đồng thời bổ sung Humanity’s Last Exam: nếu không dùng công cụ, GPT-5.5 đạt 40,6% so với 31,2% của Claude Opus 4.7; nếu có công cụ, Claude Opus 4.7 đạt 54,7%, nhỉnh hơn GPT-5.5 ở mức 52,2% [8].

BenchmarkGPT-5.5Claude Opus 4.7Bên dẫn trong số liệu hiện có
GPQA Diamond93,6%94,2%Claude Opus 4.7 nhỉnh hơn [8][22]
Humanity’s Last Exam40,6%31,2%GPT-5.5 [8]
Humanity’s Last Exam có dùng công cụ52,2%54,7%Claude Opus 4.7 nhỉnh hơn [8]

Ở nhóm benchmark chuyên nghiệp và agent, bức tranh cũng không một chiều. Vellum nêu GPT-5.5 đạt 84,9% ở GDPval so với 80,3% của Claude Opus 4.7, đạt 78,7% ở OSWorld-Verified so với 78,0%, và đạt 75,3% ở MCP Atlas so với 79,1% của Claude [22]. OpenAI nêu FinanceAgent v1.1 là 60,0% cho GPT-5.5 và 64,4% cho Claude Opus 4.7 [24].

BenchmarkGPT-5.5Claude Opus 4.7Kết luận
GDPval84,9%80,3%GPT-5.5 dẫn [22][24]
OSWorld-Verified78,7%78,0%GPT-5.5 nhỉnh hơn [22]
MCP Atlas75,3%79,1%Claude Opus 4.7 dẫn [22]
FinanceAgent v1.160,0%64,4%Claude Opus 4.7 dẫn [24]

Anthropic còn nhắc đến một benchmark research-agent nội bộ, trong đó Claude Opus 4.7 theo Anthropic đồng hạng điểm tổng cao nhất 0,715 trên sáu module và đạt 0,813 ở module General Finance, so với 0,767 của Opus 4.6 [6]. Vì đây là benchmark nội bộ và không bao phủ đồng đều cả bốn mô hình trong dữ liệu được cung cấp, nên nên xem nó như tín hiệu về sức mạnh agent của Claude hơn là một bảng xếp hạng độc lập bốn mô hình [6].

Giá API và cửa sổ ngữ cảnh: DeepSeek V4 nổi bật nhất

Khi đưa mô hình vào sản phẩm thật, một vài điểm benchmark hơn kém không phải yếu tố duy nhất. Chi phí API có thể quyết định việc một ứng dụng có chạy nổi ở quy mô lớn hay không.

Mashable nêu DeepSeek V4 có giá 1,74 USD cho 1 triệu token đầu vào và 3,48 USD cho 1 triệu token đầu ra, với cửa sổ ngữ cảnh 1 triệu token [1]. Cùng nguồn nêu GPT-5.5 là 5 USD cho 1 triệu token đầu vào và 30 USD cho 1 triệu token đầu ra; Claude Opus 4.7 là 5 USD đầu vào và 25 USD đầu ra cho 1 triệu token, cũng với cửa sổ ngữ cảnh 1 triệu token [1].

Mô hìnhGiá đầu vào / 1 triệu tokenGiá đầu ra / 1 triệu tokenNgữ cảnh theo nguồn
DeepSeek V41,74 USD3,48 USD1 triệu token [1]
GPT-5.55 USD30 USD1 triệu token [1]
Claude Opus 4.75 USD25 USD1 triệu token [1]
Kimi K2.6Chưa có giá đáng tin cậy trong các nguồn được cung cấpChưa có giá đáng tin cậy trong các nguồn được cung cấp256K token theo DocsBot [7]

Kimi K2.6 là trường hợp riêng. DocsBot mô tả mô hình này có ngữ cảnh 256K, kiến trúc MoE 1T tham số, 32B tham số được kích hoạt, cùng khả năng điều phối tác vụ agent lên tới 300 sub-agent và 4.000 bước phối hợp [7]. Đây là thông tin kỹ thuật quan trọng, nhưng không thay thế được các điểm benchmark và giá API trực tiếp khi so với GPT-5.5, Claude Opus 4.7 và DeepSeek V4 [7].

Nên chọn mô hình nào cho từng nhu cầu?

Nếu ưu tiên của bạn là…Điểm xuất phát hợp lý nhấtVì sao
Hiệu năng tổng thể có bằng chứng mạnhGPT-5.5Dẫn lát cắt Intelligence Index hiện có và đứng trước Claude Opus 4.7, nhỉnh hơn DeepSeek V4 ở BrowseComp [2][3]
Kỹ thuật phần mềm theo SWE-BenchClaude Opus 4.7Dẫn GPT-5.5 ở SWE-Bench Pro và được nêu đạt 87,6% ở SWE-Bench Verified [20][22][24]
Terminal, thao tác máy tính, tác vụ agentGPT-5.5Dẫn rõ ở Terminal-Bench 2.0, đồng thời nhỉnh hơn Claude ở GDPval và OSWorld-Verified [22][24]
Tìm kiếm web và tối ưu chi phí APIDeepSeek V4Đạt 83,4% ở BrowseComp và có giá API được trích dẫn thấp hơn đáng kể [1][3]
Thử nghiệm mô hình mở, đa phương thức, thiên về agentKimi K2.6Được mô tả là mô hình open-source, đa phương thức gốc, agent, ngữ cảnh 256K, nhưng chưa có đủ dữ liệu so sánh trực tiếp [7]

Tóm lại

Không có mô hình nào “ăn trọn” mọi bài kiểm tra. Trong dữ liệu hiện có, GPT-5.5 là mô hình toàn diện có bằng chứng mạnh nhất vì dẫn lát cắt Artificial Analysis, mạnh ở BrowseComp và đạt kết quả tốt trên nhiều benchmark chuyên nghiệp [2][3][22][24]. Claude Opus 4.7 vẫn là mô hình hàng đầu, nhất là với SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond và một số tác vụ tài chính/agent [20][22][24]. DeepSeek V4 là ứng viên giá/hiệu năng nổi bật, vì gần chạm GPT-5.5 ở BrowseComp trong khi giá API được trích dẫn thấp hơn nhiều [1][3]. Kimi K2.6 chưa nên bị đánh giá thấp hay thổi phồng: để xếp hạng công bằng, vẫn cần thêm benchmark và giá API trực tiếp, cùng điều kiện so sánh [7].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • GPT 5.5 là ứng viên toàn diện có bằng chứng mạnh nhất: đạt 60 điểm ở Artificial Analysis Intelligence Index bản xhigh và 84,4% trên BrowseComp [2][3].
  • Claude Opus 4.7 dẫn GPT 5.5 ở SWE Bench Pro với 64,3% so với 58,6% và nhỉnh hơn ở GPQA Diamond với 94,2% so với 93,6%; ngược lại GPT 5.5 dẫn rõ ở Terminal Bench 2.0 với 82,7% so với 69,4% [22][24].
  • DeepSeek V4 là lựa chọn đáng chú ý về giá/hiệu năng: đạt 83,4% trên BrowseComp, chỉ kém GPT 5.5 1,0 điểm phần trăm, trong khi giá API được trích dẫn thấp hơn đáng kể [1][3].

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6: ai đang dẫn đầu benchmark AI?" là gì?

GPT 5.5 là ứng viên toàn diện có bằng chứng mạnh nhất: đạt 60 điểm ở Artificial Analysis Intelligence Index bản xhigh và 84,4% trên BrowseComp [2][3].

Những điểm chính cần xác nhận đầu tiên là gì?

GPT 5.5 là ứng viên toàn diện có bằng chứng mạnh nhất: đạt 60 điểm ở Artificial Analysis Intelligence Index bản xhigh và 84,4% trên BrowseComp [2][3]. Claude Opus 4.7 dẫn GPT 5.5 ở SWE Bench Pro với 64,3% so với 58,6% và nhỉnh hơn ở GPQA Diamond với 94,2% so với 93,6%; ngược lại GPT 5.5 dẫn rõ ở Terminal Bench 2.0 với 82,7% so với 69,4% [22][24].

Tôi nên làm gì tiếp theo trong thực tế?

DeepSeek V4 là lựa chọn đáng chú ý về giá/hiệu năng: đạt 83,4% trên BrowseComp, chỉ kém GPT 5.5 1,0 điểm phần trăm, trong khi giá API được trích dẫn thấp hơn đáng kể [1][3].

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6: benchmark 2026 nói gì?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "DeepSeek V4: không chỉ là 1M token, mà là bài toán MoE và API".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

Recherchieren Sie die Benchmarks von Claude Opus 4.7, GPT-5.5, DeepSeek V4 und Kimi K2.6 und vergleichen Sie sie so umfassend wie möglich im Format eines Forschungsberichts, damit alle sie leicht verstehen können.

Studio Global AI26 nguồn

Câu trả lời được trích dẫn

Auf Basis der vorliegenden Belege wirkt GPT-5.5 insgesamt am stärksten belegt: Es führt im genannten „Intelligence Index“ und liegt auch bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 [6][7]. DeepSeek V4 ist besonders auffällig, weil es bei BrowseComp Claude Opus 4.7 schlägt und GPT-5.5 fast erreicht, aber die verfügbaren Belege reichen nicht, um es insgesamt vor GPT-5.5 oder Claude Opus 4.7 einzuordnen [7]. Für Kimi K2.6 fehlen belastbare Zahlenwerte; hier ist die Evidenz deutlich schwächer [21].

Key findings

  • GPT-5.5 wird im verfügbaren Artificial-Analysis-Ausschnitt als Nummer 1 und 2 des „Intelligence Index“ geführt: GPT-5.5 „xhigh“ mit 60 Punkten und GPT-5.5 „high“ mit 59 Punkten [6].

  • Claude Opus 4.7 wird im selben Ausschnitt mit „Adaptive Reasoning, Max Effort“ bei 57 Punkten genannt und damit hinter GPT-5.5 xhigh und GPT-5.5 high eingeordnet [6].

  • Bei BrowseComp erreicht DeepSeek V4 laut verfügbarem Bericht 83,4 %, Claude Opus 4.7 79,3 % und GPT-5.5 84,4 %; GPT-5.5 Pro liegt mit 90,1 % deutlich höher [7].

  • DeepSeek V4 schlägt Claude Opus 4.7 in BrowseComp, liegt dort aber knapp hinter GPT-5.5 und klar hinter GPT-5.5 Pro [7].

  • Trotz des starken BrowseComp-Werts heißt es im verfügbaren Bericht, DeepSeek-V4-Pro-Max entthrone GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt nicht [7].

  • Für Claude Opus 4.7 liegen mehrere konkrete Benchmarkwerte vor: SWE-bench Pro 64,3 %, SWE-bench Verified 87,6 %, Terminal-Bench 69,4 % und GPQA Diamond 94,2 % [3].

  • Ein weiterer verfügbarer Benchmarkhinweis nennt Claude Opus 4.7 mit 82,7 % auf FinanceBench, allerdings stammt dieser Wert aus einem sekundären Blogkontext und sollte vorsichtig interpretiert werden [2].

  • Für Kimi K2.6 enthält die verfügbare Evidenz keine belastbaren numerischen Benchmarkwerte; ein Reddit-Beitrag behauptet lediglich, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dort auf Platz 2 [21].

Vergleichstabelle

ModellBeste verfügbare EvidenzGenannte BenchmarkwerteEinordnung
GPT-5.5Führt den „Intelligence Index“ in zwei Varianten [6]Intelligence Index: 60 xhigh, 59 high; BrowseComp: 84,4 %; GPT-5.5 Pro BrowseComp: 90,1 % [6][7]Stärkster belegt unter den vier Modellen, vor allem im Intelligence Index und bei BrowseComp [6][7]
Claude Opus 4.7Platz 3 im genannten Intelligence Index-Ausschnitt [6]Intelligence Index: 57; BrowseComp: 79,3 %; SWE-bench Pro: 64,3 %; SWE-bench Verified: 87,6 %; Terminal-Bench: 69,4 %; GPQA Diamond: 94,2 %; FinanceBench: 82,7 % [2][3][6][7]Sehr stark belegt, aber in den verfügbaren Vergleichsdaten hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [6][7]
DeepSeek V4Sehr stark bei BrowseComp [7]BrowseComp: 83,4 %; API-Preis: $1.74 pro 1 Mio. Input-Tokens und $3.48 pro 1 Mio. Output-Tokens [5][7]Nahe an GPT-5.5 bei BrowseComp und besser als Claude Opus 4.7 in diesem Benchmark, aber nicht klarer Gesamtsieger [7]
Kimi K2.6Nur schwacher Rankinghinweis aus Reddit [21]Keine belastbaren Zahlenwerte in der bereitgestellten Evidenz [21]Insufficient evidence: Keine solide numerische Einordnung möglich [21]

Benchmark-für-Benchmark-Vergleich

Intelligence Index

  • GPT-5.5 liegt im verfügbaren Ausschnitt des „Intelligence Index“ auf Platz 1 mit 60 Punkten in der xhigh-Konfiguration und auf Platz 2 mit 59 Punkten in der high-Konfiguration [6].

  • Claude Opus 4.7 liegt in der Konfiguration „Adaptive Reasoning, Max Effort“ bei 57 Punkten und wird damit hinter beiden GPT-5.5-Varianten genannt [6].

  • Für DeepSeek V4 und Kimi K2.6 werden im verfügbaren Ausschnitt keine konkreten Intelligence-Index-Werte genannt [6].

BrowseComp

  • GPT-5.5 erreicht bei BrowseComp 84,4 %, während GPT-5.5 Pro 90,1 % erreicht [7].

  • DeepSeek V4 erreicht bei BrowseComp 83,4 % und liegt damit sehr knapp hinter GPT-5.5, aber deutlich hinter GPT-5.5 Pro [7].

  • Claude Opus 4.7 erreicht bei BrowseComp 79,3 % und liegt damit hinter DeepSeek V4 und GPT-5.5 [7].

  • Kimi K2.6 hat in der bereitgestellten Evidenz keinen BrowseComp-Wert [7][21].

Coding- und Software-Benchmarks

  • Claude Opus 4.7 wird mit 64,3 % auf SWE-bench Pro und 87,6 % auf SWE-bench Verified angegeben [3].

  • Claude Opus 4.7 wird außerdem mit etwa 70 % auf CursorBench genannt, aber dieser Vergleich stammt aus einem Kontext zu GPT-5.4, nicht GPT-5.5 [4].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren SWE-bench-Pro- oder SWE-bench-Verified-Werte vor [3][4][7][21].

  • Ein Reddit-Beitrag behauptet, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dahinter auf Platz 2, aber dieser Beleg ist schwächer als die übrigen Quellen und enthält im Ausschnitt keine konkreten Prozentwerte [21].

Reasoning- und Wissens-Benchmarks

  • Claude Opus 4.7 wird mit 94,2 % auf GPQA Diamond angegeben [3].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren GPQA-Diamond-Werte vor [3][6][7][21].

FinanceBench

  • Claude Opus 4.7 wird in einem verfügbaren Blogausschnitt mit 82,7 % auf FinanceBench erwähnt [2].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine FinanceBench-Werte vor [2][5][7][21].

Preis- und Kontextvergleich

  • DeepSeek V4 wird mit $1.74 pro 1 Million Input-Tokens und $3.48 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • GPT-5.5 wird mit $5 pro 1 Million Input-Tokens und $30 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • Für Claude Opus 4.7 ist im verfügbaren Ausschnitt nur der Beginn einer Preisangabe erkennbar, aber kein vollständiger Output-Preis, daher reicht die Evidenz für einen vollständigen Kostenvergleich nicht aus [5].

  • Für Kimi K2.6 enthält die bereitgestellte Evidenz keinen Preiswert [5][21].

Verständliche Einordnung

  • Wenn man nur die verfügbaren Zahlen betrachtet, ist GPT-5.5 der sicherste Kandidat für die stärkste Gesamtleistung, weil es den genannten Intelligence Index anführt und bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 liegt [6][7].

  • DeepSeek V4 ist der stärkste Herausforderer in den verfügbaren Zahlen, weil es bei BrowseComp mit 83,4 % fast GPT-5.5 erreicht und Claude Opus 4.7 übertrifft [7].

  • Claude Opus 4.7 ist am breitesten mit konkreten Einzelbenchmarks belegt, vor allem in SWE-bench, Terminal-Bench, GPQA Diamond und FinanceBench [2][3].

  • Kimi K2.6 kann anhand der bereitgestellten Evidenz nicht fair numerisch mit den anderen drei Modellen verglichen werden, weil die einzige konkrete Aussage nur ein schwacher Reddit-Rankinghinweis ohne Zahlenwerte ist [21].

Evidence notes

  • Die stärksten quantitativen Vergleichsdaten in der bereitgestellten Evidenz sind der Intelligence-Index-Ausschnitt und der BrowseComp-Vergleich, weil sie mehrere der angefragten Modelle direkt nebeneinander nennen [6][7].

  • Die Claude-Opus-4.7-Werte zu SWE-bench Pro, SWE-bench Verified, Terminal-Bench und GPQA Diamond sind nützlich, aber sie erlauben keinen vollständigen Vier-Modell-Vergleich, weil entsprechende Werte für GPT-5.5, DeepSeek V4 und Kimi K2.6 in der Evidenz fehlen [3].

  • Der Kimi-K2.6-Hinweis ist deutlich schwächer, weil er aus einem Reddit-Beitrag stammt und im verfügbaren Ausschnitt keine numerischen Ergebnisse enthält [21].

  • Ein Vergleich mit GPT-5.4 ist nur indirekt relevant, weil die Nutzerfrage GPT-5.5 betrifft; die verfügbare Quelle nennt dort außerdem, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen [4].

Limitations / uncertainty

  • Insufficient evidence: Für Kimi K2.6 fehlen belastbare Benchmarkzahlen in der bereitgestellten Evidenz [21].

  • Insufficient evidence: Für GPT-5.5 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench, FinanceBench und Vibe Code [6][7].

  • Insufficient evidence: Für DeepSeek V4 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench und FinanceBench [5][7][21].

  • Die Modelle werden teils in unterschiedlichen Varianten oder Testmodi genannt, etwa GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 „Adaptive Reasoning, Max Effort“ und DeepSeek-V4-Pro-Max, wodurch ein 1:1-Vergleich nur eingeschränkt möglich ist [6][7].

  • Die bereitgestellte Evidenz enthält keine vollständigen offiziellen Modellkarten oder Primärquellen mit einheitlichem Benchmark-Setup für alle vier Modelle [1][3][6][7].

Summary

  • GPT-5.5: Beste belegte Gesamtposition, führt den Intelligence Index und liegt bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 [6][7].

  • DeepSeek V4: Sehr stark bei BrowseComp, knapp hinter GPT-5.5 und vor Claude Opus 4.7; außerdem deutlich günstiger als GPT-5.5 in der verfügbaren Preisangabe [5][7].

  • Claude Opus 4.7: Sehr gut dokumentiert mit vielen Einzelbenchmarks, aber in den direkt verfügbaren Vergleichszahlen hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [2][3][6][7].

  • Kimi K2.6: Nicht seriös numerisch bewertbar, weil die bereitgestellte Evidenz nur einen schwachen Rankinghinweis ohne konkrete Zahlen enthält [21].

Nguồn

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BrowseComp is the standout: DeepSeek’s 83.4% beats Claude Opus 4.7’s 79.3% and nearly matches GPT-5.5’s 84.4%, though GPT-5.5 Pro’s 90.1% remains well ahead. So ultimately, DeepSeek-V4-Pro-Max does not appear to dethrone GPT-5.5 or Claude Opus 4.7 on the be...

  • [6] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [7] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [8] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai

    Is Claude Opus 4.7 the most powerful Claude model? No. Claude Mythos Preview is Anthropic's most capable model and leads Opus 4.7 on most benchmarks in the comparison table, including SWE-bench Pro (77.8% vs 64.3%), SWE-bench Verified (93.9% vs 87.6%), Term...

  • [21] Claude Opus 4.7 vs. GPT-5.4: Which Frontier Model Should You Use?datacamp.com

    --- --- Benchmark Claude Opus 4.7 GPT-5.4 Notes SWE-bench Pro 64.3% 57.7% Vendor-reported; different harness configurations SWE-bench Verified 87.6% Not published OpenAI has not released an official score on this variant CursorBench 70% Not published Cursor...

  • [22] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6: ai đang dẫn đầu benchmark AI? | Nghiên cứu sâu | Studio Global