Câu trả lờiĐã xuất bản28 thg 4 2026Last edited 6 thg 5 20266 nguồn

DeepSeek V4, Kimi K2.6, Claude Opus 4.7 và GPT-5.5: So benchmark thế nào cho đúng?

GPT 5.5 có số liệu chính thức từ OpenAI: 82,7% trên Terminal Bench 2.0 và 58,6% trên SWE Bench Pro [24]. Claude Opus 4.7 trông mạnh hơn trong các benchmark coding như SWE Bench Pro, SWE Bench Verified và CursorBench theo nguồn phân tích thứ ba [4].

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm từ Khám phá

18K0

Illustration eines Benchmark-Dashboards für DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5 — DeepSeek V4 vsBenchmark-Vergleiche zwischen Frontier-Modellen sind nur sinnvoll, wenn offizielle Werte, Sekundärdaten und eigene Evals getrennt betrachtet werden.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs. Kimi K2.6 vs. Claude Opus 4.7 vs. GPT-5.5: Benchmark-Vergleich. Article summary: Es gibt keinen sauber belegten Gesamtsieger: GPT 5.5 ist offiziell mit 82,7% auf Terminal Bench 2.0 und 58,6% auf SWE Bench Pro belegt, während Claude Opus 4.7 in Sekundärdaten bei SWE bench stärker wirkt; für Kimi K2.... Topic tags: ai, llm, ai benchmarks, coding agents, developer tools. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.yo
openai.com

Muốn so DeepSeek V4, Kimi K2.6, Claude Opus 4.7 và GPT-5.5, điều đầu tiên không phải là nhìn xem ai “đứng đầu bảng”, mà là hỏi: số liệu đó đến từ đâu?

Trong nhóm này, GPT-5.5 có vài con số chính thức từ OpenAI, nhất là Terminal-Bench 2.0 và SWE-Bench Pro ^[24]. DeepSeek thì xác nhận V4-Pro và V4-Flash đã có trên API, nhưng nguồn chính thức chưa đưa ra một ma trận benchmark đầy đủ để đối chiếu trực tiếp với Kimi K2.6, Claude Opus 4.7 và GPT-5.5 ^[25]. Còn nhiều số liệu về Claude Opus 4.7 và Kimi K2.6 trong bài này đến từ nguồn phân tích bên thứ ba, nên cần đọc với mức thận trọng tương ứng ^[4]^[6].

Tóm nhanh theo nhu cầu sử dụng

Sửa lỗi code, xử lý GitHub issue: Claude Opus 4.7 có vẻ nhỉnh hơn GPT-5.5 trong các số liệu SWE-Bench, SWE-Bench Verified và CursorBench được trích dẫn từ LushBinary ^[4].
Terminal agent, workflow dòng lệnh, điều phối công cụ: GPT-5.5 là lựa chọn có bằng chứng chính thức rõ nhất, với 82,7% trên Terminal-Bench 2.0 theo OpenAI ^[24].
Coding agent cần tối ưu chi phí: Kimi K2.6 được CodeRouter gọi là lựa chọn thắng về giá/chất lượng, với 0,60 USD input và 4,00 USD output cho mỗi một triệu token ^[6].
DeepSeek V4: V4-Pro và V4-Flash đã có trên DeepSeek API, nhưng trong các nguồn đang xét chưa có bảng benchmark chính thức đủ để kết luận mô hình này thắng hay thua cả ba đối thủ còn lại ^[25].

Những gì nguồn dữ liệu thật sự cho phép kết luận

OpenAI mô tả Terminal-Bench 2.0 là benchmark kiểm tra các workflow dòng lệnh phức tạp, cần lập kế hoạch, lặp lại và phối hợp công cụ; GPT-5.5 đạt 82,7% trên benchmark này theo công bố của OpenAI ^[24]. Trên SWE-Bench Pro, benchmark đánh giá khả năng giải quyết các issue GitHub thực tế, OpenAI nêu kết quả 58,6% cho GPT-5.5 ^[24].

Với DeepSeek V4, tài liệu changelog chính thức cho biết V4-Pro và V4-Flash đã dùng được qua giao diện OpenAI ChatCompletions và giao diện Anthropic; tham số model lần lượt là deepseek-v4-pro và deepseek-v4-flash ^[25]. Điều này chứng minh khả năng truy cập API, nhưng chưa chứng minh chiến thắng benchmark.

Với Claude Opus 4.7 và Kimi K2.6, phần so sánh trực tiếp trong các nguồn hiện có nên được hiểu là dữ liệu tham khảo: LushBinary đưa ra các số liệu Claude so với GPT-5.5, còn CodeRouter đưa ra nhận định về giá và vị trí của Kimi K2.6, DeepSeek V4 ^[4]^[6].

Bảng so sánh các số liệu có căn cứ

“K. có” nghĩa là trong các nguồn được cung cấp chưa có con số đủ rõ và đủ trực tiếp cho tổ hợp mô hình–benchmark đó.

Benchmark / tiêu chí	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	K. có	được CodeRouter xếp ở mức ngang GPT-5.5 ^[6]	64,3% ^[4]	58,6% ^[24]
SWE-Bench Verified	K. có	K. có	87,6% ^[4]	khoảng 85% ^[4]
Terminal-Bench 2.0	K. có	K. có	khoảng 72% ^[4]	82,7% ^[24]
GDPval / Knowledge Work	K. có	K. có	khoảng 78% ^[4]	84,9% ^[4]
OSWorld-Verified / Computer Use	K. có	K. có	khoảng 65% ^[4]	78,7% ^[4]
GPQA Diamond	K. có	K. có	94,2% ^[4]	khoảng 93% ^[4]
CursorBench	K. có	K. có	70% ^[4]	khoảng 65% ^[4]
Tau2-bench Telecom	K. có	K. có	khoảng 90% ^[4]	98,0% ^[4]
Vision & Document Arena	K. có	K. có	đứng số 1 theo báo cáo Arena được trích dẫn ^[1]	K. có
Ghi chú giá / context	V4 Flash: 0,14 USD input / 0,28 USD output mỗi triệu token và context 1M ^[6]	0,60 USD input / 4,00 USD output mỗi triệu token ^[6]	K. có	K. có

Coding: Claude Opus 4.7 sáng nhất, Kimi K2.6 là ứng viên tiết kiệm

Nếu ưu tiên hàng đầu là coding, đặc biệt là sửa lỗi trong repository thật, bộ số liệu được trích dẫn đang nghiêng về Claude Opus 4.7. LushBinary nêu Claude Opus 4.7 đạt 64,3% trên SWE-Bench Pro, cao hơn mức 58,6% của GPT-5.5; riêng mức 58,6% của GPT-5.5 cũng được OpenAI xác nhận trong công bố chính thức ^[4]^[24]. Trên SWE-Bench Verified và CursorBench, Claude Opus 4.7 cũng đứng trên GPT-5.5 trong nguồn thứ ba này ^[4].

Kimi K2.6 vẫn rất đáng để các nhóm kỹ thuật đưa vào bài test riêng. CodeRouter cho rằng Kimi K2.6 đạt mức SWE-Bench Pro ngang GPT-5.5, đồng thời có giá token thấp hơn nhiều trong so sánh của họ ^[6]. Đây không phải là lý do để bỏ qua đánh giá nội bộ, nhưng là tín hiệu đáng chú ý nếu nhóm phải chạy nhiều lượt agent, nhiều bản nháp hoặc nhiều lần retry.

Với DeepSeek V4, nguồn chính thức hiện có chưa cho phép rút ra kết luận về benchmark coding. Điều đã được xác nhận là V4-Pro và V4-Flash có mặt trên DeepSeek API ^[25].

Terminal agent và computer use: GPT-5.5 có bằng chứng rõ nhất

Ở nhóm tác vụ kiểu terminal agent, GPT-5.5 là mô hình được hậu thuẫn tốt nhất bằng số liệu công khai trong các nguồn này. OpenAI công bố GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0 và mô tả benchmark này là bài kiểm tra workflow dòng lệnh phức tạp, đòi hỏi lập kế hoạch, lặp lại và phối hợp công cụ ^[24]. Trong cùng benchmark, LushBinary đặt Claude Opus 4.7 ở khoảng 72% ^[4].

Các chỉ số về knowledge work và computer use trong nguồn thứ ba cũng nghiêng về GPT-5.5: 84,9% trên GDPval so với khoảng 78% của Claude Opus 4.7, và 78,7% trên OSWorld-Verified so với khoảng 65% của Claude Opus 4.7 ^[4]. Vì vậy, nếu bài toán của bạn xoay quanh lệnh shell, orchestration nhiều công cụ hoặc tác vụ gần với giao diện máy tính, GPT-5.5 là điểm xuất phát có căn cứ nhất.

Vision và tài liệu: Claude Opus 4.7 có tín hiệu tích cực nhất

Với tác vụ hình ảnh và tài liệu, các nguồn được cung cấp không có bảng so sánh đầy đủ cả bốn mô hình. Tín hiệu rõ nhất thuộc về Claude Opus 4.7: một báo cáo Arena được Latent Space/AINews trích dẫn cho biết Claude Opus 4.7 đứng số 1 trong Vision & Document Arena ^[1].

LLM Stats cũng cho biết Claude Opus 4.7 có thể xử lý ảnh với cạnh dài tới 2.576 pixel, tương đương khoảng 3,75 megapixel; GPT-5.5 hỗ trợ input hình ảnh và được nêu điểm MMMU-Pro 81,2% khi không dùng công cụ, 83,2% khi có công cụ ^[5]. Các số liệu này giúp định vị Claude so với GPT-5.5 ở mảng multimodal, nhưng chưa thay thế được một so sánh trực tiếp đầy đủ với Kimi K2.6 và DeepSeek V4.

Giá/hiệu năng: Kimi K2.6 và DeepSeek V4 Flash nên có trong bài thử riêng

Lập luận giá mạnh nhất trong bộ nguồn này thuộc về Kimi K2.6. CodeRouter mô tả Kimi K2.6 là lựa chọn thắng về chi phí/chất lượng, với 0,60 USD input và 4,00 USD output cho mỗi một triệu token ^[6].

DeepSeek V4 Flash cũng được CodeRouter mô tả là một lựa chọn “workhorse” rất rẻ, với 0,14 USD input và 0,28 USD output cho mỗi một triệu token, kèm context 1M ^[6]. Tài liệu DeepSeek chính thức xác nhận thêm rằng V4-Pro và V4-Flash đã dùng được qua các giao diện API hiện tại ^[25].

Tuy vậy, giá rẻ không đồng nghĩa với thắng benchmark. Một mô hình rẻ có thể rất hấp dẫn cho nhiều lượt thử, tác vụ ít rủi ro hoặc workflow cần sinh nhiều bản nháp. Nhưng khi đưa vào sản xuất, câu hỏi cuối cùng vẫn là: mô hình giải đúng bao nhiêu việc, ổn định đến đâu, cần bao nhiêu lần retry và có tạo thêm chi phí sửa sai hay không.

Cách test bốn mô hình cho công bằng

Đừng chọn mô hình chỉ vì một bảng xếp hạng công khai. Cách thực tế hơn là tạo một bộ eval nhỏ từ chính công việc của bạn: issue trong codebase, tài liệu nội bộ, workflow agent, tác vụ terminal hoặc bài toán xử lý hình ảnh/tài liệu.

Nên đo nhiều hơn “câu trả lời đầu tiên”. Hãy tính chi phí trên mỗi kết quả được chấp nhận, số lần retry, mức độ nghiêm trọng của lỗi, thời gian chạy và khả năng tuân thủ ràng buộc. Một mô hình thắng benchmark nhưng hay phá format, gọi tool sai hoặc tạo lỗi khó phát hiện vẫn có thể đắt hơn trong thực tế.

Cũng cần tách rõ dữ liệu chính thức và dữ liệu thứ cấp. Trong bài này, GPT-5.5 có số liệu OpenAI chính thức cho Terminal-Bench 2.0 và SWE-Bench Pro ^[24]. DeepSeek V4 có xác nhận chính thức về khả năng dùng qua API ^[25]. Còn các nhận định so sánh mạnh nhất cho Claude Opus 4.7 và Kimi K2.6 chủ yếu đến từ nguồn bên thứ ba ^[4]^[6].

Kết luận

Không có mô hình nào thắng mọi mặt. Claude Opus 4.7 dẫn trước trong các số liệu gần với coding được trích dẫn; GPT-5.5 có bằng chứng mạnh nhất ở Terminal-Bench 2.0, computer use và workflow agent; Kimi K2.6 nổi bật ở câu chuyện giá/hiệu năng; còn DeepSeek V4 là ứng viên API đã sẵn sàng nhưng cần được đo bằng bộ eval riêng trước khi kết luận ^[4]^[24]^[6]^[25].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

GPT 5.5 có số liệu chính thức từ OpenAI: 82,7% trên Terminal Bench 2.0 và 58,6% trên SWE Bench Pro [24].
Claude Opus 4.7 trông mạnh hơn trong các benchmark coding như SWE Bench Pro, SWE Bench Verified và CursorBench theo nguồn phân tích thứ ba [4].
Kimi K2.6 được CodeRouter mô tả là lựa chọn giá/hiệu năng tốt, còn DeepSeek V4 Pro và V4 Flash đã có trong DeepSeek API nhưng thiếu bảng benchmark chính thức để so trực tiếp cả bốn mô hình [6][25].

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "DeepSeek V4, Kimi K2.6, Claude Opus 4.7 và GPT-5.5: So benchmark thế nào cho đúng?" là gì?

GPT 5.5 có số liệu chính thức từ OpenAI: 82,7% trên Terminal Bench 2.0 và 58,6% trên SWE Bench Pro [24].

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Kimi K2.6 được CodeRouter mô tả là lựa chọn giá/hiệu năng tốt, còn DeepSeek V4 Pro và V4 Flash đã có trong DeepSeek API nhưng thiếu bảng benchmark chính thức để so trực tiếp cả bốn mô hình [6][25].

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?

Ngôn ngữ đầu vào hay tốc độ xử lý từ: điều gì dự báo vốn từ của trẻ?

Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?

Cách người lớn đáp lời trẻ có liên quan gì đến phát triển ngôn ngữ?

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security beta: Anthropic dùng AI để quét lỗ hổng mã nguồn doanh nghiệp

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API: 1 triệu token, giá thấp và tham vọng voice agent của xAI

Trao đổi nghiên cứu

Bạn25 thg 4 2026

Câu hỏi nghiên cứu

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI25 thg 4 202626 nguồn

Câu trả lời được trích dẫn

Ein sauberer Benchmark-Vergleich ist derzeit nur eingeschränkt möglich: Für Claude Opus 4.7 und GPT-5.5 kursieren konkrete Vergleichswerte, aber für DeepSeek V4 und Kimi K2.6 finde ich keine gleichwertig belastbaren offiziellen Benchmark-Tabellen in den verfügbaren Quellen. Daher: Claude Opus 4.7 wirkt bei SWE-bench stärker, GPT-5.5 bei Terminal-/Agent-/Computer-Use-Benchmarks; Kimi K2.6 wird vor allem als Preis-Leistungs-Modell beschrieben; DeepSeek V4 ist laut DeepSeek-API-Changelog verfügbar, aber ohne robuste öffentliche Benchmark-Abdeckung in den gefundenen Quellen ^[4]^[6].

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

Nguồn

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...

Khám phá xu hướng

Câu trả lờiĐã xuất bản28 thg 4 2026Last edited 6 thg 5 20266 nguồn

DeepSeek V4, Kimi K2.6, Claude Opus 4.7 và GPT-5.5: So benchmark thế nào cho đúng?

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm từ Khám phá

18K0

Muốn so DeepSeek V4, Kimi K2.6, Claude Opus 4.7 và GPT-5.5, điều đầu tiên không phải là nhìn xem ai “đứng đầu bảng”, mà là hỏi: số liệu đó đến từ đâu?

Tóm nhanh theo nhu cầu sử dụng

Sửa lỗi code, xử lý GitHub issue: Claude Opus 4.7 có vẻ nhỉnh hơn GPT-5.5 trong các số liệu SWE-Bench, SWE-Bench Verified và CursorBench được trích dẫn từ LushBinary ^[4].
Terminal agent, workflow dòng lệnh, điều phối công cụ: GPT-5.5 là lựa chọn có bằng chứng chính thức rõ nhất, với 82,7% trên Terminal-Bench 2.0 theo OpenAI ^[24].
Coding agent cần tối ưu chi phí: Kimi K2.6 được CodeRouter gọi là lựa chọn thắng về giá/chất lượng, với 0,60 USD input và 4,00 USD output cho mỗi một triệu token ^[6].
DeepSeek V4: V4-Pro và V4-Flash đã có trên DeepSeek API, nhưng trong các nguồn đang xét chưa có bảng benchmark chính thức đủ để kết luận mô hình này thắng hay thua cả ba đối thủ còn lại ^[25].

Những gì nguồn dữ liệu thật sự cho phép kết luận

Bảng so sánh các số liệu có căn cứ

“K. có” nghĩa là trong các nguồn được cung cấp chưa có con số đủ rõ và đủ trực tiếp cho tổ hợp mô hình–benchmark đó.

Benchmark / tiêu chí	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	K. có	được CodeRouter xếp ở mức ngang GPT-5.5 ^[6]	64,3% ^[4]	58,6% ^[24]
SWE-Bench Verified	K. có	K. có	87,6% ^[4]	khoảng 85% ^[4]
Terminal-Bench 2.0	K. có	K. có	khoảng 72% ^[4]	82,7% ^[24]
GDPval / Knowledge Work	K. có	K. có	khoảng 78% ^[4]	84,9% ^[4]
OSWorld-Verified / Computer Use	K. có	K. có	khoảng 65% ^[4]	78,7% ^[4]
GPQA Diamond	K. có	K. có	94,2% ^[4]	khoảng 93% ^[4]
CursorBench	K. có	K. có	70% ^[4]	khoảng 65% ^[4]
Tau2-bench Telecom	K. có	K. có	khoảng 90% ^[4]	98,0% ^[4]
Vision & Document Arena	K. có	K. có	đứng số 1 theo báo cáo Arena được trích dẫn ^[1]	K. có
Ghi chú giá / context	V4 Flash: 0,14 USD input / 0,28 USD output mỗi triệu token và context 1M ^[6]	0,60 USD input / 4,00 USD output mỗi triệu token ^[6]	K. có	K. có

Coding: Claude Opus 4.7 sáng nhất, Kimi K2.6 là ứng viên tiết kiệm

Terminal agent và computer use: GPT-5.5 có bằng chứng rõ nhất

Vision và tài liệu: Claude Opus 4.7 có tín hiệu tích cực nhất

Giá/hiệu năng: Kimi K2.6 và DeepSeek V4 Flash nên có trong bài thử riêng

Cách test bốn mô hình cho công bằng

Kết luận

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

GPT 5.5 có số liệu chính thức từ OpenAI: 82,7% trên Terminal Bench 2.0 và 58,6% trên SWE Bench Pro [24].
Claude Opus 4.7 trông mạnh hơn trong các benchmark coding như SWE Bench Pro, SWE Bench Verified và CursorBench theo nguồn phân tích thứ ba [4].
Kimi K2.6 được CodeRouter mô tả là lựa chọn giá/hiệu năng tốt, còn DeepSeek V4 Pro và V4 Flash đã có trong DeepSeek API nhưng thiếu bảng benchmark chính thức để so trực tiếp cả bốn mô hình [6][25].

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "DeepSeek V4, Kimi K2.6, Claude Opus 4.7 và GPT-5.5: So benchmark thế nào cho đúng?" là gì?

GPT 5.5 có số liệu chính thức từ OpenAI: 82,7% trên Terminal Bench 2.0 và 58,6% trên SWE Bench Pro [24].

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?

Ngôn ngữ đầu vào hay tốc độ xử lý từ: điều gì dự báo vốn từ của trẻ?

Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?

Cách người lớn đáp lời trẻ có liên quan gì đến phát triển ngôn ngữ?

Claude Security beta: Anthropic dùng AI để quét lỗ hổng mã nguồn doanh nghiệp

Grok 4.3 API: 1 triệu token, giá thấp và tham vọng voice agent của xAI

Trao đổi nghiên cứu

Bạn25 thg 4 2026

Câu hỏi nghiên cứu

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI25 thg 4 202626 nguồn

Câu trả lời được trích dẫn

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

Nguồn

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...

Khám phá xu hướng

Câu trả lờiĐã xuất bản28 thg 4 2026Last edited 6 thg 5 20266 nguồn

DeepSeek V4, Kimi K2.6, Claude Opus 4.7 và GPT-5.5: So benchmark thế nào cho đúng?

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm từ Khám phá

18K0

Muốn so DeepSeek V4, Kimi K2.6, Claude Opus 4.7 và GPT-5.5, điều đầu tiên không phải là nhìn xem ai “đứng đầu bảng”, mà là hỏi: số liệu đó đến từ đâu?

Tóm nhanh theo nhu cầu sử dụng

Sửa lỗi code, xử lý GitHub issue: Claude Opus 4.7 có vẻ nhỉnh hơn GPT-5.5 trong các số liệu SWE-Bench, SWE-Bench Verified và CursorBench được trích dẫn từ LushBinary ^[4].
Terminal agent, workflow dòng lệnh, điều phối công cụ: GPT-5.5 là lựa chọn có bằng chứng chính thức rõ nhất, với 82,7% trên Terminal-Bench 2.0 theo OpenAI ^[24].
Coding agent cần tối ưu chi phí: Kimi K2.6 được CodeRouter gọi là lựa chọn thắng về giá/chất lượng, với 0,60 USD input và 4,00 USD output cho mỗi một triệu token ^[6].
DeepSeek V4: V4-Pro và V4-Flash đã có trên DeepSeek API, nhưng trong các nguồn đang xét chưa có bảng benchmark chính thức đủ để kết luận mô hình này thắng hay thua cả ba đối thủ còn lại ^[25].

Những gì nguồn dữ liệu thật sự cho phép kết luận

Bảng so sánh các số liệu có căn cứ

“K. có” nghĩa là trong các nguồn được cung cấp chưa có con số đủ rõ và đủ trực tiếp cho tổ hợp mô hình–benchmark đó.

Benchmark / tiêu chí	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	K. có	được CodeRouter xếp ở mức ngang GPT-5.5 ^[6]	64,3% ^[4]	58,6% ^[24]
SWE-Bench Verified	K. có	K. có	87,6% ^[4]	khoảng 85% ^[4]
Terminal-Bench 2.0	K. có	K. có	khoảng 72% ^[4]	82,7% ^[24]
GDPval / Knowledge Work	K. có	K. có	khoảng 78% ^[4]	84,9% ^[4]
OSWorld-Verified / Computer Use	K. có	K. có	khoảng 65% ^[4]	78,7% ^[4]
GPQA Diamond	K. có	K. có	94,2% ^[4]	khoảng 93% ^[4]
CursorBench	K. có	K. có	70% ^[4]	khoảng 65% ^[4]
Tau2-bench Telecom	K. có	K. có	khoảng 90% ^[4]	98,0% ^[4]
Vision & Document Arena	K. có	K. có	đứng số 1 theo báo cáo Arena được trích dẫn ^[1]	K. có
Ghi chú giá / context	V4 Flash: 0,14 USD input / 0,28 USD output mỗi triệu token và context 1M ^[6]	0,60 USD input / 4,00 USD output mỗi triệu token ^[6]	K. có	K. có

Coding: Claude Opus 4.7 sáng nhất, Kimi K2.6 là ứng viên tiết kiệm

Terminal agent và computer use: GPT-5.5 có bằng chứng rõ nhất

Vision và tài liệu: Claude Opus 4.7 có tín hiệu tích cực nhất

Giá/hiệu năng: Kimi K2.6 và DeepSeek V4 Flash nên có trong bài thử riêng

Cách test bốn mô hình cho công bằng

Kết luận

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

GPT 5.5 có số liệu chính thức từ OpenAI: 82,7% trên Terminal Bench 2.0 và 58,6% trên SWE Bench Pro [24].
Claude Opus 4.7 trông mạnh hơn trong các benchmark coding như SWE Bench Pro, SWE Bench Verified và CursorBench theo nguồn phân tích thứ ba [4].
Kimi K2.6 được CodeRouter mô tả là lựa chọn giá/hiệu năng tốt, còn DeepSeek V4 Pro và V4 Flash đã có trong DeepSeek API nhưng thiếu bảng benchmark chính thức để so trực tiếp cả bốn mô hình [6][25].

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "DeepSeek V4, Kimi K2.6, Claude Opus 4.7 và GPT-5.5: So benchmark thế nào cho đúng?" là gì?

GPT 5.5 có số liệu chính thức từ OpenAI: 82,7% trên Terminal Bench 2.0 và 58,6% trên SWE Bench Pro [24].

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn25 thg 4 2026

Câu hỏi nghiên cứu

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI25 thg 4 202626 nguồn

Câu trả lời được trích dẫn

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

Nguồn

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...