Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: đừng chỉ tìm “số 1”

Không nên gom mọi điểm số thành một bảng xếp hạng duy nhất: BenchLM, GDPval, Vals và Artificial Analysis đo các thứ khác nhau, còn các nguồn công khai hiện không đặt cả bốn mô hình vào cùng điều kiện thử nghiệm [8][22]. Claude Opus 4.7 nổi bật ở BenchLM 97/100 và SWE bench Verified 82,4%; GPT 5.5 có các chỉ số chính...

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

16K0

네 개의 최신 AI 모델을 벤치마크 차트와 비교하는 추상적 에디토리얼 이미지 — Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 2026 벤치마크 비교를 표현한 AI 생성 이미지.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교. Article summary: 네 모델의 ‘절대 1위’를 확정하기는 어렵습니다. 공개 자료 기준 Claude Opus 4.7은 BenchLM 97/100·SWE bench Verified 82.4%가 가장 뚜렷하고, GPT 5.5는 GDPval 84.9% 등 업무형 공식 수치가 강하지만 평가 체계가 달라 직접 합산할 수 없습니다 [2][3][29].. Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "# Kimi K2.6 vs Claude Opus 4.7: Which Model Wins in 2026? Kimi K2.6 ties Opus 4.7 on multilingual SWE-bench but trails by 7 points on Verified — at 1/5th the cost. Two weeks after" source context "Kimi K2.6 vs Claude Opus 4.7 (2026): Benchmarks, Cost, When Each Wins" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www
openai.com

Nếu bạn đang chọn mô hình để đưa vào sản phẩm, câu hỏi quan trọng không phải là mô hình nào thắng tất cả. Câu hỏi thực tế hơn là: bạn cần AI viết và sửa code, xử lý tài liệu tài chính, điều khiển trình duyệt/máy tính, hỗ trợ khách hàng, hay chạy rẻ hơn với mô hình trọng số mở?

Vals AI ghi DeepSeek V4 và GPT-5.5 ở mốc 23/4/2026, Kimi K2.6 ở 20/4/2026 và Claude Opus 4.7 ở 16/4/2026 ^[19]. Nhưng các nguồn được trích ở đây dùng nhiều hệ đo khác nhau: BenchLM là một kiểu bảng tổng hợp, OpenAI công bố GDPval/OSWorld/Tau2-bench cho GPT-5.5, Anthropic có benchmark research-agent nội bộ, còn DeepSeek và Kimi xuất hiện trong các bảng và cấu hình khác nhau ^[3]^[7]^[15]^[16]^[28]^[29]^[36]^[37]^[39]. Vì vậy, kết luận đáng tin hơn là phân vùng điểm mạnh, thay vì ép ra thứ hạng tuyệt đối từ 1 đến 4.

Vì sao không nên chốt một bảng xếp hạng duy nhất?

Benchmark AI năm 2026 không còn là một bài kiểm tra đơn lẻ. Kili Technology mô tả các bộ như MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval và đánh giá an toàn là những phép đo cho các năng lực khác nhau ^[8]. Stanford HAI trong AI Index cũng tách hiệu năng kỹ thuật thành nhiều trục như MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME và SWE-bench Verified ^[13].

Ngay cả MMLU, từng là thước đo kiến thức tổng quát rất phổ biến, cũng đã kém phân loại hơn ở nhóm mô hình đầu bảng. Nanonets giải thích MMLU thường được tính theo kiểu 5-shot, tức mô hình được xem 5 ví dụ trước khi trả lời câu hỏi thật, và đến năm 2026 nhiều mô hình mạnh đã dồn vào vùng trên 88%, khiến chênh lệch giữa chúng khó có ý nghĩa thực tế ^[22]. Nói cách khác, nhìn một con số duy nhất có thể tiện, nhưng dễ giống như xem điểm trung bình mà bỏ qua từng môn.

Bảng so sánh nhanh

Mô hình	Chỉ số công khai nổi bật	Có thể đọc là mạnh ở đâu	Lưu ý khi so sánh
Claude Opus 4.7	BenchLM 97/100, hạng 2/110 ở provisional leaderboard; SWE-bench Verified 82,4%; FinanceBench 82,7%; MathVista tăng 9,5 điểm ^[2]^[3]	Coding, bảng tổng hợp, phân tích tài liệu tài chính, suy luận toán-thị giác	Điểm research-agent 0,715 của Anthropic là benchmark nội bộ, không cùng thang đo với GDPval hay OSWorld của OpenAI ^[7]^[29].
GPT-5.5	BenchLM 89/100, hạng 5/112 ở provisional leaderboard; GDPval 84,9%; OSWorld-Verified 78,7%; Tau2-bench Telecom 98,0%; Vals Accuracy 67,76% ± 1,79 ^[28]^[29]^[31]	Công việc tri thức, điều khiển môi trường máy tính, quy trình chăm sóc khách hàng, tác vụ kiểu agent	Thông báo chính thức của OpenAI, BenchLM và Vals là ba hệ đánh giá khác nhau ^[28]^[29]^[31].
DeepSeek V4 / V4-Pro-Max	Có mục ngày 23/4/2026 trên Vals AI; V4-Pro-Max đạt MMLU-Pro 87,5%, GPQA Diamond 90,1%, GSM8K 92,6% ^[15]^[19]	Câu hỏi khoa học, toán, suy luận khó	DataCamp giới thiệu các số này dựa trên kết quả nội bộ của DeepSeek, nên cần phân biệt với điểm từ bảng độc lập ^[15].
Kimi K2.6	BenchLM 85/100, hạng 12/115; Vals Accuracy 63,94% ± 1,97, Latency 373,57 giây, Cost/Test 0,21 USD; Artificial Analysis Intelligence Index 54, hạng 4 toàn bảng ^[36]^[37]^[39]	Trọng số mở, chi phí và độ trễ vận hành, hiệu quả triển khai	Tên gọi Kimi 2.6, Kimi K2.6 và K2.6 Thinking xuất hiện lẫn nhau giữa các nguồn, nên cần kiểm tra đúng cấu hình trước khi so ^[37]^[39].

Xếp hạng tổng hợp: trên BenchLM, Claude đang dẫn nhóm có dữ liệu

Nếu chỉ nhìn các trang BenchLM có trong bộ nguồn này, Claude Opus 4.7 là mô hình có điểm tổng hợp cao nhất. BenchLM xếp Claude Opus 4.7 hạng 2 trên 110 mô hình ở provisional leaderboard với overall score 97/100, đồng thời hạng 2 trên 14 mô hình ở verified leaderboard ^[3].

GPT-5.5 được BenchLM ghi hạng 5 trên 112 mô hình ở provisional leaderboard, overall score 89/100, và hạng 2 trên 16 mô hình ở verified leaderboard ^[28]. Kimi 2.6 đạt 85/100, hạng 12 trên 115 mô hình ở provisional leaderboard, với 27 điểm benchmark công khai đang được hiển thị ^[37].

Điểm cần nhớ: đây chỉ là góc nhìn BenchLM. Số mẫu ở từng trang khác nhau, lần lượt 110, 112 và 115 mô hình; trong bộ nguồn hiện có cũng không có điểm BenchLM tương đương cho DeepSeek V4 để đặt cạnh ba mẫu còn lại ^[3]^[28]^[37]. Vì vậy, BenchLM hữu ích để tham khảo, nhưng không đủ để tuyên bố thứ hạng chung cho cả bốn.

Coding: Claude Opus 4.7 có chỉ số SWE-bench rõ nhất

Ở nhóm tác vụ lập trình, Claude Opus 4.7 có con số trực tiếp và dễ đọc nhất. MindStudio cho biết Claude Opus 4.7 đạt 82,4% trên SWE-bench Verified, tăng khoảng 11 điểm so với Opus 4.6 ^[2]. Cùng nguồn này ghi FinanceBench 82,7% và mức tăng 9,5 điểm ở MathVista, một benchmark liên quan đến suy luận toán học trên dữ liệu thị giác ^[2].

Với GPT-5.5, các chỉ số được OpenAI đưa lên phía trước trong nguồn đang có là GDPval, OSWorld-Verified và Tau2-bench Telecom, chứ không phải SWE-bench ^[29]. Với Kimi K2.6, GMI Cloud có nêu tuyên bố Kimi K2.6 đứng đầu SWE-Bench Pro, nhưng phần trích dẫn được cung cấp không đủ điểm số cụ thể để so sánh trực tiếp trong cùng điều kiện với ba mô hình còn lại ^[35]. Còn DeepSeek V4 trong bộ nguồn này có dữ liệu cụ thể hơn ở mảng suy luận và toán, thay vì coding ^[15]^[16].

Tác vụ agent và công việc văn phòng: GPT-5.5 có chỉ số chính thức rất cụ thể

Nếu mục tiêu là tự động hóa công việc tri thức, điều khiển máy tính hoặc quy trình chăm sóc khách hàng, GPT-5.5 có bộ chỉ số chính thức khá rõ. OpenAI cho biết GPT-5.5 đạt 84,9% trên GDPval, một bài kiểm tra khả năng tạo đầu ra công việc tri thức được đặc tả kỹ trong 44 nghề nghiệp ^[29]. OpenAI cũng công bố GPT-5.5 đạt 78,7% trên OSWorld-Verified, phép đo khả năng tự thao tác trong môi trường máy tính thực, và 98,0% trên Tau2-bench Telecom, bài kiểm tra quy trình chăm sóc khách hàng phức tạp ^[29].

Claude Opus 4.7 cũng có dữ liệu kiểu agent. Anthropic cho biết trong benchmark research-agent nội bộ, Claude Opus 4.7 đồng hạng cao nhất với điểm tổng 0,715 trên 6 mô-đun; ở mô-đun General Finance, Opus 4.7 đạt 0,813 so với 0,767 của Opus 4.6 ^[7].

Tuy nhiên, không nên so trực tiếp 84,9% của GDPval với 0,715 của benchmark nội bộ Anthropic như thể chúng cùng một thước đo. Hai hệ đánh giá này khác nhau về cấu trúc bài test, cách chấm và mục tiêu đo lường ^[7]^[29].

Suy luận và kiến thức: DeepSeek V4-Pro-Max và Kimi K2.6 Thinking so kè từng dòng

Với DeepSeek V4, các số cụ thể nhất trong bộ nguồn này nằm ở cấu hình V4-Pro-Max. DataCamp viết rằng theo kết quả nội bộ của DeepSeek, DeepSeek V4-Pro-Max đạt 87,5% trên MMLU-Pro, 90,1% trên GPQA Diamond và 92,6% trên GSM8K ^[15]. Đây là các mốc đáng chú ý cho suy luận và toán, nhưng vì DataCamp nêu rõ chúng dựa trên kết quả nội bộ, nên không nên xem chúng ngang trọng lượng với mọi bảng độc lập ^[15].

Tài liệu DeepSeek-V4-Pro trên Hugging Face có bảng đặt DS-V4-Pro Max cạnh Kimi K2.6 Thinking ở một số hạng mục kiến thức và suy luận ^[16]. Các dòng chính như sau:

Benchmark	DeepSeek V4-Pro-Max	Kimi K2.6 Thinking	Mô hình cao hơn trong bảng
MMLU-Pro	87,5	87,1	DeepSeek V4-Pro-Max
SimpleQA-Verified	57,9	36,9	DeepSeek V4-Pro-Max
Chinese-SimpleQA	84,4	75,9	DeepSeek V4-Pro-Max
GPQA Diamond	90,1	90,5	Kimi K2.6 Thinking
HLE	37,7	36,4	DeepSeek V4-Pro-Max

Nếu chỉ nhìn bảng này, DeepSeek V4-Pro-Max nhỉnh hơn Kimi K2.6 Thinking ở MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA và HLE; Kimi K2.6 Thinking nhỉnh hơn rất nhẹ ở GPQA Diamond ^[16]. Nhưng bảng đó không đặt trực tiếp Claude Opus 4.7 và GPT-5.5 vào cùng hàng so sánh; nó dùng các đối tượng khác như Opus-4.6 Max và GPT-5.4 xHigh, nên không đủ để suy ra thứ hạng đầy đủ của cả bốn mô hình ^[16].

Chi phí, độ trễ và trọng số mở: Kimi K2.6 có điểm đáng nhìn

Ở Vals AI, GPT-5.5 được ghi Accuracy 67,76% ± 1,79, Latency 409,09 giây và cửa sổ ngữ cảnh 1 triệu token ^[31]. Kimi K2.6 được ghi Accuracy 63,94% ± 1,97, Latency 373,57 giây và Cost/Test 0,21 USD ^[39]. Nếu chỉ so hai bản ghi Vals này, GPT-5.5 có chỉ số Accuracy cao hơn, còn Kimi K2.6 có chỉ số Latency thấp hơn ^[31]^[39].

Kimi K2.6 cũng đáng chú ý với nhóm người dùng quan tâm đến open weights, tức mô hình có bộ trọng số được mở theo điều kiện công bố của nhà phát triển. Artificial Analysis gọi Kimi K2.6 của Moonshot là leading open weights model và ghi Artificial Analysis Intelligence Index 54, hạng 4 toàn bảng ^[36]. Dù vậy, điểm 54 của Artificial Analysis, Accuracy 63,94% của Vals và BenchLM 85/100 là ba hệ điểm khác nhau; cộng hoặc quy đổi cơ học các con số này sẽ dễ gây hiểu nhầm ^[36]^[37]^[39].

Gợi ý chọn mô hình theo nhu cầu

Nếu trọng tâm là tự động sửa lỗi code và tác vụ kỹ thuật phần mềm, Claude Opus 4.7 là ứng viên nên xem trước, vì các số SWE-bench Verified 82,4% và BenchLM 97/100 đang khá rõ trong nguồn công khai ^[2]^[3].
Nếu bạn cần mô hình cho công việc tri thức, thao tác máy tính hoặc luồng chăm sóc khách hàng, GPT-5.5 có bộ chỉ số chính thức trực tiếp hơn: GDPval 84,9%, OSWorld-Verified 78,7% và Tau2-bench Telecom 98,0% ^[29].
Nếu bài toán là câu hỏi khoa học, toán hoặc suy luận khó, nên xem DeepSeek V4-Pro-Max và Kimi K2.6 Thinking theo từng benchmark như MMLU-Pro, GPQA Diamond và HLE, thay vì chỉ nhìn một dòng điểm ^[15]^[16].
Nếu ưu tiên trọng số mở, chi phí và độ trễ vận hành, Kimi K2.6 có các dữ liệu đáng tham khảo từ Artificial Analysis và Vals, gồm vị thế open weights, Cost/Test 0,21 USD và Latency 373,57 giây ^[36]^[39].
Nếu đang xây sản phẩm thật, đừng phụ thuộc vào MMLU. Năm 2026, các mô hình hàng đầu đã dồn vào vùng điểm cao của MMLU, khiến bài này kém hữu ích hơn để phân biệt nhóm đầu ^[22].

Kết luận

Từ các nguồn công khai trong bộ dữ liệu này, Claude Opus 4.7 nổi bật ở coding và bảng tổng hợp BenchLM; GPT-5.5 nổi bật ở các đánh giá công việc tri thức, điều khiển máy tính và quy trình kiểu agent; DeepSeek V4-Pro-Max có nhiều số mạnh ở suy luận và toán; còn Kimi K2.6 đáng chú ý ở open weights, chi phí và độ trễ vận hành ^[2]^[3]^[15]^[16]^[28]^[29]^[36]^[37]^[39].

Nhưng bấy nhiêu chưa đủ để khẳng định một bảng xếp hạng tuyệt đối từ 1 đến 4. Cách an toàn hơn là dùng các benchmark này làm bản đồ ban đầu, rồi tự chạy kiểm thử theo đúng việc của bạn: sửa code, đọc báo cáo tài chính, điều khiển trình duyệt, xử lý yêu cầu khách hàng, hay chạy agent dài hạn trong môi trường sản xuất ^[8]^[22].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

Không nên gom mọi điểm số thành một bảng xếp hạng duy nhất: BenchLM, GDPval, Vals và Artificial Analysis đo các thứ khác nhau, còn các nguồn công khai hiện không đặt cả bốn mô hình vào cùng điều kiện thử nghiệm [8][22].
Claude Opus 4.7 nổi bật ở BenchLM 97/100 và SWE bench Verified 82,4%; GPT 5.5 có các chỉ số chính thức rõ ở GDPval 84,9%, OSWorld Verified 78,7% và Tau2 bench Telecom 98,0% [2][3][29].
DeepSeek V4 Pro Max có điểm MMLU Pro 87,5% và GPQA Diamond 90,1% trong nguồn dựa trên kết quả nội bộ; Kimi K2.6 đáng chú ý ở nhóm open weights, BenchLM 85/100 và Vals Cost/Test 0,21 USD [15][36][37][39].

사람들은 또한 묻습니다.

"Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: đừng chỉ tìm “số 1”"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4 Pro Max có điểm MMLU Pro 87,5% và GPQA Diamond 90,1% trong nguồn dựa trên kết quả nội bộ; Kimi K2.6 đáng chú ý ở nhóm open weights, BenchLM 85/100 và Vals Cost/Test 0,21 USD [15][36][37][39].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트

Northwest vs. Southeast Timber 탄력성 풀이: 왜 답은 larger; larger일까

Northwest vs. Southeast Timber: 대체성이 높을수록 왜 larger; larger인가

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek가 OpenAI·Claude·Gemini·Grok을 이길까: 답은 비용과 신뢰에 있다

DeepSeek가 OpenAI·Claude·Gemini·Grok을 이길까

연구 대화

당신2026년 4월 26일

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI2026년 4월 26일40 소스

인용 답변

제공된 근거만으로는 네 모델을 동등한 수준으로 “종합 벤치마크 비교”하기에는 자료가 크게 부족합니다. 확인 가능한 정량 벤치마크는 사실상 Claude Opus 4.7에 집중되어 있고, GPT-5.5·DeepSeek V4·Kimi K2.6은 제공 근거 안에서 직접 비교 가능한 공식 점수나 일관된 벤치마크 결과가 없습니다. 따라서 아래 비교는 “확인 가능한 것”과 “증거 부족”을 명확히 나누어 정리합니다.

Key findings

Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 ^[6].
Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 ^[7].
Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 ^[6].
Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 ^[5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 ^[5].
Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 ^[5].
GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.
DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 ^[40]. Insufficient evidence.

비교 표

모델	확인 가능한 벤치마크 / 순위	강점으로 볼 수 있는 영역	증거 수준
Claude Opus 4.7	SWE-bench Verified 82.4% ^[6]; BenchLM provisional 2/110, 97/100 ^[7]; verified 2/14 ^[7]	코딩, 비전 수학 추론, 종합 리더보드 성능 ^[6]^[7]	상대적으로 높음
GPT-5.5	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
DeepSeek V4	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
Kimi K2.6	모델 목록 및 날짜 항목은 확인되나 점수 없음 ^[5]	판단 불가	낮음

벤치마크별 해석

SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 ^[6].
종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 ^[7].
비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 ^[6].
일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 ^[2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 ^[3].

Evidence notes

Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 ^[1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 ^[1].
Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 ^[2].
Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 ^[3].
DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 ^[40].

Limitations / uncertainty

GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.
Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 ^[6]^[7].
Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 ^[5]. Insufficient evidence.
DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 ^[40]. Insufficient evidence.

Summary

현재 제공된 증거만 놓고 보면 Claude Opus 4.7이 네 모델 중 유일하게 구체적이고 비교 가능한 성능 자료를 갖고 있습니다. Claude Opus 4.7은 SWE-bench Verified 82.4%, BenchLM provisional 2위/110개 모델, overall score 97/100으로 제시되어 코딩과 종합 평가에서 매우 강한 모델로 볼 수 있습니다 ^[6]^[7].

반면 GPT-5.5, DeepSeek V4, Kimi K2.6은 제공 근거 안에서 직접 벤치마크 점수가 없으므로 Claude Opus 4.7보다 높다거나 낮다고 결론낼 수 없습니다. Insufficient evidence.

출처

[2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...
[7] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com
Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...
[13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu
Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiǇcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...
[15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...
[16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[19] DeepSeek V4 - Vals AIvals.ai
Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...
[22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com
How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...
[28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...
[29] Introducing GPT-5.5 - OpenAIopenai.com
GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...
[31] GPT 5.5 - Vals AIvals.ai
2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...
[35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai
Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago
[37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago
[39] Kimi K2.6 - Vals AIvals.ai
Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: đừng chỉ tìm “số 1”

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

16K0