รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 202611 แหล่งที่มา

Benchmark 2026: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6

Chưa có một benchmark duy nhất so sánh đủ cả 4 mô hình theo kiểu apples to apples; GPT 5.5 dẫn Claude Opus 4.7 ở Terminal Bench 2.0, còn Claude dẫn ở SWE Bench Pro [2]. DeepSeek V4 Pro nổi bật về ngữ cảnh dài với context window 1.000k token, nhưng Artificial Analysis báo hallucination rate 94% cho V4 Pro [31][33].

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

16K0

ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 — GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login
openai.com

Điểm quan trọng nhất khi đọc benchmark của GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 là: đừng vội gom mọi thứ thành một bảng xếp hạng duy nhất. Các nguồn hiện có không phải lúc nào cũng chấm cả 4 mô hình trong cùng một bài kiểm tra, cùng cách cấu hình và cùng bộ tiêu chí. GPT-5.5 và Claude Opus 4.7 có nhiều điểm số đối chiếu trực tiếp hơn từ Vellum và OpenAI; DeepSeek V4 và Kimi K2.6 lại có dữ liệu nổi bật hơn ở các mảng như context window, open-weight, multimodal và độ tin cậy theo Artificial Analysis hoặc tài liệu kỹ thuật ^[2]^[7]^[30]^[31]^[33]^[35]^[36].

Nói ngắn gọn: nếu làm agent, terminal hoặc tool workflow, GPT-5.5 có nhiều tín hiệu mạnh. Nếu làm software engineering kiểu giải issue, Claude Opus 4.7 đáng chú ý. Nếu cần ngữ cảnh cực dài, DeepSeek V4 Pro nổi bật nhưng phải kiểm soát rủi ro hallucination. Nếu cần mô hình open-weight multimodal, Kimi K2.6 là ứng viên nên xem xét.

Không có người thắng tuyệt đối trên mọi benchmark

Trong các số liệu có thể so sánh trực tiếp giữa GPT-5.5 và Claude Opus 4.7, GPT-5.5 dẫn ở Terminal-Bench 2.0 với 82,7% so với 69,4%, và GDPval với 84,9% so với 80,3%. Ngược lại, Claude Opus 4.7 dẫn ở SWE-Bench Pro với 64,3% so với 58,6%, và GPQA Diamond với 94,2% so với 93,6%, theo bảng của Vellum ^[2].

Ở nhóm computer use và tool use, OpenAI báo GPT-5.5 đạt 78,7% trên OSWorld-Verified so với 78,0% của Claude Opus 4.7; đạt 84,4% trên BrowseComp so với 79,3%; nhưng thấp hơn Claude Opus 4.7 trên MCP Atlas, với 75,3% so với 79,1% ^[7].

Với DeepSeek V4 và Kimi K2.6, dữ liệu công khai trong các nguồn được dùng ở đây chưa phủ đủ cùng bộ benchmark như GPT-5.5 và Claude Opus 4.7. Vì vậy, không nên kết luận mô hình nào thắng hay thua ở những hạng mục không có điểm so sánh trực tiếp ^[31]^[33]^[35]^[36].

Bảng điểm có thể đọc tương đối an toàn

Benchmark / chỉ số	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	Cách đọc
Terminal-Bench 2.0	82,7%	69,4%	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	GPT-5.5 dẫn Claude Opus 4.7 trong bảng của Vellum ^[2]
SWE-Bench Pro	58,6%	64,3%	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Claude Opus 4.7 dẫn GPT-5.5 ở benchmark software engineering theo Vellum ^[2]
GDPval	84,9%	80,3%	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	GPT-5.5 dẫn Claude Opus 4.7 trong bộ này ^[2]
OSWorld-Verified	78,7%	78,0%	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	GPT-5.5 nhỉnh hơn nhẹ theo bảng của OpenAI ^[7]
BrowseComp	84,4%	79,3%	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	GPT-5.5 dẫn ở nhóm tool use theo OpenAI ^[7]
MCP Atlas	75,3%	79,1%	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Claude Opus 4.7 dẫn GPT-5.5 theo OpenAI ^[7]
GPQA Diamond	93,6%	94,2%	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Claude Opus 4.7 nhỉnh hơn theo Vellum ^[2]
FrontierMath T1-3	51,7%	43,8%	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	GPT-5.5 dẫn Claude Opus 4.7 theo Vellum ^[2]
Context window	Không nằm trong bảng Artificial Analysis này	Không nằm trong bảng Artificial Analysis này	DeepSeek V4 Pro: 1.000k token	256k token	DeepSeek V4 Pro có cửa sổ ngữ cảnh lớn hơn Kimi K2.6 trong cùng nguồn ^[33]
AA-Omniscience / hallucination	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	V4 Pro Max đạt -10; V4 Pro có hallucination rate 94%	Chưa có điểm đối chiếu trực tiếp trong cùng nguồn	Đây là tín hiệu cần kiểm tra kỹ câu trả lời của DeepSeek V4 ^[31]
Artificial Analysis Intelligence Index	Không thấy trong nguồn dùng ở đây	Không thấy trong nguồn dùng ở đây	Không thấy trong nguồn dùng ở đây	54	Chỉ nên dùng như dữ liệu riêng của Kimi K2.6, không phải cùng leaderboard với Vellum/OpenAI ^[35]

Cụm từ chưa có điểm đối chiếu trực tiếp không có nghĩa mô hình đó kém hơn. Nó chỉ có nghĩa là trong các nguồn đang xét, chưa thấy điểm của mô hình đó trên cùng benchmark và cùng bên đánh giá.

GPT-5.5: mạnh ở agentic workflow, terminal và dùng công cụ

Trong bộ dữ liệu được dùng cho bài này, GPT-5.5 là mô hình có nhiều điểm số công khai để đối chiếu với Claude Opus 4.7 nhất. Vellum báo các điểm Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond và FrontierMath; OpenAI báo OSWorld-Verified, BrowseComp và MCP Atlas ^[2]^[7].

Điểm sáng rõ nhất của GPT-5.5 nằm ở các tác vụ terminal, agentic workflow và tool use. Mô hình này dẫn Claude Opus 4.7 trên Terminal-Bench 2.0 với 82,7% so với 69,4%, BrowseComp với 84,4% so với 79,3%, và OSWorld-Verified với 78,7% so với 78,0% ^[2]^[7].

Tuy vậy, GPT-5.5 không thắng mọi hạng mục. Claude Opus 4.7 dẫn trên SWE-Bench Pro, MCP Atlas và GPQA Diamond trong các nguồn được trích dẫn ^[2]^[7]. Vì thế, nếu đội của bạn chủ yếu cần xử lý issue phần mềm phức tạp, không nên chỉ nhìn vào điểm agent hay terminal rồi kết luận GPT-5.5 là lựa chọn duy nhất.

Ở góc độ safety/evaluation, OpenAI cho biết trong System Card rằng GPT-5.5 được đánh giá bằng CoT-Control, gồm hơn 13.000 tác vụ xây từ các benchmark như GPQA, MMLU-Pro, HLE, BFCL và SWE-Bench Verified ^[4]. Thông tin này hữu ích khi đọc về khả năng kiểm soát hành vi của mô hình, nhưng không nên xem nó là điểm performance benchmark trực tiếp.

Claude Opus 4.7: tín hiệu nổi bật nhất là software engineering

Anthropic liệt kê Claude Opus 4.7 trong Claude API Docs với mốc ngày 16/4/2026 ^[20]. Khi chỉ nhìn vào các điểm có thể đối chiếu trực tiếp với GPT-5.5, điểm mạnh rõ nhất của Claude Opus 4.7 là SWE-Bench Pro: 64,3% so với 58,6% của GPT-5.5 ^[2].

Claude Opus 4.7 cũng dẫn GPT-5.5 trên MCP Atlas với 79,1% so với 75,3% theo bảng của OpenAI ^[7]. Nhưng trong cùng nguồn, GPT-5.5 lại dẫn ở OSWorld-Verified và BrowseComp; còn Vellum báo GPT-5.5 dẫn ở Terminal-Bench 2.0, GDPval và FrontierMath T1-3 ^[2]^[7].

Về safety, Anthropic báo trong Petri 2.0 rằng hai hướng can thiệp kết hợp giúp giảm eval-awareness trên các Claude models với median relative drop 47,3% ^[22]. Nên đọc con số này như dữ liệu về hành vi và an toàn của dòng Claude, không phải điểm năng lực trực tiếp của riêng Claude Opus 4.7.

DeepSeek V4: cửa sổ ngữ cảnh rất lớn, nhưng phải quản trị rủi ro hallucination

Tài liệu kỹ thuật DeepSeek-V4 cho biết dòng V4 tiếp tục dùng DeepSeekMoE framework và chiến lược Multi-Token Prediction từ DeepSeek-V3, đồng thời bổ sung cơ chế hybrid attention để cải thiện hiệu quả với ngữ cảnh dài ^[30]. Trong bảng của Artificial Analysis, DeepSeek V4 Pro có context window 1.000k token, so với 256k token của Kimi K2.6 ^[33].

Với người dùng không chuyên kỹ thuật, có thể hiểu context window là lượng văn bản mô hình có thể giữ trong đầu khi xử lý một yêu cầu. Cửa sổ ngữ cảnh càng lớn càng thuận lợi cho các tác vụ như đọc nhiều tài liệu, phân tích hồ sơ dài hoặc duy trì lịch sử làm việc phức tạp. Nhưng context dài không tự động đồng nghĩa với câu trả lời đúng.

Điểm cần đặc biệt lưu ý là độ tin cậy. Artificial Analysis báo DeepSeek V4 Pro Max đạt AA-Omniscience -10, cải thiện so với DeepSeek V3.2 Reasoning ở mức -21, nhưng cũng báo hallucination rate 94% cho DeepSeek V4 Pro và 96% cho DeepSeek V4 Flash ^[31].

Vì vậy, DeepSeek V4 Pro đáng cân nhắc khi bài toán cần ngữ cảnh rất dài, chẳng hạn làm việc với tài liệu lớn hoặc workflow cần giữ nhiều thông tin cùng lúc. Tuy nhiên, với các tác vụ có chi phí sai sót cao, nên kết hợp retrieval grounding, kiểm chứng nguồn và review của con người ^[30]^[31]^[33].

Kimi K2.6: open-weight multimodal, nhưng vẫn thiếu nhiều điểm đối chiếu trực tiếp

Artificial Analysis mô tả Kimi K2.6 là mô hình open weights phát hành tháng 4/2026 và đạt Artificial Analysis Intelligence Index 54 ^[35]. Một phân tích khác của Artificial Analysis cho biết Kimi K2.6 hỗ trợ native image và video input, đồng thời xuất text output, với max context length 256k ^[36].

Open-weight có thể hiểu là mô hình có trọng số được công bố theo một hình thức mở hơn so với mô hình đóng hoàn toàn. Điều này thường quan trọng với các đội muốn tự triển khai, kiểm soát hạ tầng hoặc tùy biến sâu hơn. Tuy nhiên, open-weight không tự động đồng nghĩa với mạnh hơn trong mọi benchmark.

Nếu chỉ so context window trong cùng bảng, Kimi K2.6 thấp hơn DeepSeek V4 Pro, vốn đạt 1.000k token ^[33]. Trong bộ nguồn được dùng ở đây, cũng chưa thấy điểm Kimi K2.6 đối chiếu đầy đủ với GPT-5.5 và Claude Opus 4.7 trên Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified hoặc MCP Atlas ^[2]^[7]^[33]^[35]^[36].

Kết luận hợp lý là Kimi K2.6 nên nằm trong shortlist nếu bạn cần open-weight multimodal model. Nhưng chưa nên kết luận mô hình này hơn hoặc kém GPT-5.5, Claude Opus 4.7 hay DeepSeek V4 ở những hạng mục không có điểm so sánh trực tiếp ^[35]^[36].

Chọn mô hình theo việc cần làm

Nhu cầu	Mô hình nên cân nhắc	Lý do từ bằng chứng hiện có
Terminal automation / agentic workflow	GPT-5.5	Dẫn Claude Opus 4.7 trên Terminal-Bench 2.0 với 82,7% so với 69,4% ^[2]
Software engineering / giải issue	Claude Opus 4.7	Dẫn GPT-5.5 trên SWE-Bench Pro với 64,3% so với 58,6% ^[2]
Browser và tool workflow	GPT-5.5 hoặc Claude Opus 4.7, tùy bộ công cụ	GPT-5.5 dẫn trên BrowseComp, nhưng Claude Opus 4.7 dẫn trên MCP Atlas ^[7]
Computer-use workflow	GPT-5.5 nhỉnh hơn nhẹ	OSWorld-Verified: GPT-5.5 đạt 78,7%, Claude Opus 4.7 đạt 78,0% ^[7]
Ngữ cảnh cực dài	DeepSeek V4 Pro	Artificial Analysis ghi context window 1.000k token, nhưng cần kiểm tra kỹ vì hallucination rate 94% ^[31]^[33]
Open-weight multimodal	Kimi K2.6	Artificial Analysis cho biết đây là open weights model, hỗ trợ image/video input và text output native ^[35]^[36]
Tác vụ cần giảm hallucination tối đa	Chưa thể kết luận người thắng chung từ bộ dữ liệu này	Có tín hiệu rủi ro rõ ở DeepSeek V4, nhưng chưa có số reliability đối chiếu đủ cả 4 mô hình trong cùng nguồn ^[31]

Đọc benchmark thế nào để tránh chọn nhầm

Điểm từ các nguồn khác nhau không nên cộng lại thành một bảng xếp hạng tuyệt đối. Vellum, OpenAI và Artificial Analysis dùng các bộ kiểm tra và bối cảnh đánh giá khác nhau ^[2]^[7]^[31]^[33]^[35]. Ngay cả trong mảng coding, tài liệu học thuật cũng chỉ ra rằng các benchmark như HumanEval có giới hạn, và đánh giá gần với công việc thực tế hơn nên xem thêm các benchmark dạng issue-solving như SWE-Bench ^[42].

Một điểm dễ gây hiểu nhầm khác là context window. DeepSeek V4 Pro có context window 1.000k token trong bảng của Artificial Analysis, nhưng cùng hệ nguồn này cũng báo hallucination rate 94% cho DeepSeek V4 Pro ^[31]^[33]. Vì vậy, với môi trường production, đặc biệt là dữ liệu chuyên ngành hoặc workflow rủi ro cao, vẫn cần bộ kiểm thử nội bộ thay vì chỉ dựa vào leaderboard.

Kết luận

Nếu phải chọn theo bằng chứng hiện có, GPT-5.5 là lựa chọn mạnh cho agentic workflow, terminal và nhiều tác vụ dùng công cụ, nhờ dẫn Claude Opus 4.7 trên Terminal-Bench 2.0, BrowseComp và OSWorld-Verified ^[2]^[7]. Claude Opus 4.7 đặc biệt đáng chọn cho software engineering dựa trên SWE-Bench Pro, nơi mô hình đạt 64,3% so với 58,6% của GPT-5.5 ^[2].

DeepSeek V4 Pro nổi bật nhờ context window 1.000k token, nhưng cần cân nhắc cùng báo cáo hallucination rate 94% của Artificial Analysis ^[31]^[33]. Kimi K2.6 là ứng viên open-weight multimodal đáng chú ý với context 256k token, native image/video input và Intelligence Index 54, nhưng vẫn cần thêm benchmark đối chiếu trực tiếp trước khi đưa ra kết luận production một cách chắc chắn ^[35]^[36].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

Chưa có một benchmark duy nhất so sánh đủ cả 4 mô hình theo kiểu apples to apples; GPT 5.5 dẫn Claude Opus 4.7 ở Terminal Bench 2.0, còn Claude dẫn ở SWE Bench Pro [2].
DeepSeek V4 Pro nổi bật về ngữ cảnh dài với context window 1.000k token, nhưng Artificial Analysis báo hallucination rate 94% cho V4 Pro [31][33].
Kimi K2.6 đáng đưa vào danh sách rút gọn nếu cần open weight multimodal: mô hình hỗ trợ input ảnh/video, output văn bản và có Intelligence Index 54 [35][36].

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Benchmark 2026: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6" คืออะไร

Chưa có một benchmark duy nhất so sánh đủ cả 4 mô hình theo kiểu apples to apples; GPT 5.5 dẫn Claude Opus 4.7 ở Terminal Bench 2.0, còn Claude dẫn ở SWE Bench Pro [2].

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Kimi K2.6 đáng đưa vào danh sách rút gọn nếu cần open weight multimodal: mô hình hỗ trợ input ảnh/video, output văn bản và có Intelligence Index 54 [35][36].

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: สรุปเบนช์มาร์กปี 2026 และคำตัดสิน

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา

DeepSeek V4 ไม่ใช่แค่โมเดล 1M context

โจทย์ความยืดหยุ่น Northwest vs. Southeast Timber: ทำไมคำตอบคือ larger; larger

Northwest กับ Southeast Timber: ทำไมแทนกันได้มากขึ้นแล้วต้องตอบ larger; larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek จะโค่น OpenAI, Claude, Gemini และ Grok ได้ไหม? เกมจริงอยู่ที่ต้นทุนและความไว้วางใจ

การสนทนาการวิจัย

คุณ27 เม.ย. 2026

คำถามวิจัย

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI27 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก ^[11]^[7]^[9]

Key findings

ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน ^[11]
GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ ^[11]
Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ ^[11]
GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ ^[11]
OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro ^[14]
Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 ^[2]
DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context ^[6]
DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens ^[9]
Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น ^[7]
หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน ^[2]^[6]^[11]^[14]^[1]
แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 ^[2]^[14]^[6]
แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด ^[11]^[12]^[15]^[7]
งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving ^[1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบ	ตัวอย่าง benchmark ที่พบ	ใช้วัดอะไร	หมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledge	GPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSR	ความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อน	OpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน ^[14]
Coding / software engineering	SWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWE	ความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์	งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น ^[1]
Agentic / tool use	Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArena	การใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอน	BenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena ^[12]
Vision / multimodal	MMMU Pro, image/video input tests	ความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบ	ข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long context	LongBench v2, MRCRv2, context-window tests	การคงบริบทและดึงข้อมูลจากเอกสารยาว	DeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน ^[9]
Safety / reliability	CoT-Control, Petri, hallucination tests, AA-Omniscience	การควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือ	OpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max ^[14]^[4]^[7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metric	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	ข้อสรุปจากหลักฐาน
Terminal-Bench 2.0	82.7%	69.4%	Insufficient evidence	Insufficient evidence	GPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ ^[11]
SWE-Bench Pro	58.6%	64.3%	Insufficient evidence	Insufficient evidence	Claude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ ^[11]
Expert-SWE internal	73.1%	Insufficient evidence	Insufficient evidence	Insufficient evidence	ใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ ^[11]
GDPval	84.9%	80.3%	Insufficient evidence	Insufficient evidence	GPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ ^[11]
BenchLM aggregate: Agentic	#2 / 99.5 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	ใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล ^[12]
BenchLM aggregate: Coding	85.6 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน ^[12]
BenchLM aggregate: Reasoning	100.0 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น ^[12]
Context window	Insufficient evidence	Insufficient evidence	1,000k tokens	256k tokens	DeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ ^[9]
AA-Omniscience	Insufficient evidence	Insufficient evidence	-10 สำหรับ V4 Pro Max	Insufficient evidence	DeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน ^[7]
Hallucination rate	Insufficient evidence	Insufficient evidence	94% สำหรับ V4 Pro/Flash	Insufficient evidence	เป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis ^[7]

วิเคราะห์รายโมเดล

GPT-5.5

GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก ^[11]
จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval ^[11]
จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% ^[11]
เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ ^[14]

Claude Opus 4.7

Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ ^[2]
จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ^[11]
Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ ^[11]
Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude ^[4]

DeepSeek V4

เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ ^[6]
DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ ^[9]
Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 ^[7]
ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน ^[7]
ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro ^[9]
เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน ^[9]
ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% ^[11]
หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% ^[11]
หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% ^[11]
หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน ^[9]
หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน ^[7]
หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก ^[14]^[11]
แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก ^[2]^[11]
แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ ^[6]
แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ ^[9]
งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย ^[1]

Limitations / uncertainty

Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน
คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด
ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7
ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval ^[11]
Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering ^[11]

แหล่งที่มา

[2] Everything You Need to Know About GPT-5.5vellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
[7] Introducing GPT-5.5 - OpenAIopenai.com
Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...
[20] System Prompts - Claude API Docsdocs.anthropic.com
Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...
[22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com
The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026
[30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co
Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...
[31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai
Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...
[35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai
Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...
[42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org
… Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024

ค้นพบเทรนด์

รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 202611 แหล่งที่มา

Benchmark 2026: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

16K0