รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 202611 แหล่งที่มา

2026 AI 模型基準測試：GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6

目前沒有一個公開基準測試能把 4 款模型完整放在同一把尺下比較；GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7，但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。 DeepSeek V4 Pro 的 context window 為 1,000k tokens，高於 Kimi K2.6 的 256k tokens；但 Artificial Analysis 同時回報 DeepSeek V4 Pro 的 hallucination rate 為 94% [31][33]。

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

16K0

ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 — GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login
openai.com

如果你正在為開發團隊、研究流程或內部 AI 工具選模型，最容易踩到的坑，是把不同來源、不同測試方式的分數硬湊成一張總榜。就目前公開資料來看，GPT-5.5 與 Claude Opus 4.7 有多項可直接對照的分數；DeepSeek V4 和 Kimi K2.6 則更常以長上下文、開放權重／多模態與可靠性指標出現在資料中。因此，這題的答案不是「誰絕對最強」，而是「哪個任務該用哪個模型」^[2]^[7]^[30]^[31]^[33]^[35]^[36]。

先講結論：沒有四方同場的確定冠軍

目前較安全的讀法，是把基準測試拆成不同工作類型來看。在 Vellum 的同表比較中，GPT-5.5 在 Terminal-Bench 2.0 取得 82.7%，高於 Claude Opus 4.7 的 69.4%；在 GDPval 則是 84.9% 對 80.3%。但 Claude Opus 4.7 也不是全面落後，它在 SWE-Bench Pro 取得 64.3%，高於 GPT-5.5 的 58.6%；在 GPQA Diamond 則以 94.2% 小幅領先 GPT-5.5 的 93.6% ^[2]。

到了 computer use 與 tool use，OpenAI 公布的表格顯示，GPT-5.5 在 OSWorld-Verified 為 78.7%，略高於 Claude Opus 4.7 的 78.0%；BrowseComp 為 84.4%，高於 Claude 的 79.3%。但 MCP Atlas 則由 Claude Opus 4.7 以 79.1% 領先 GPT-5.5 的 75.3% ^[7]。

DeepSeek V4 與 Kimi K2.6 的問題在於：目前可見資料沒有把它們和 GPT-5.5、Claude Opus 4.7 在同一組 benchmark、同一評測框架下完整列齊。因此，不能因為某個欄位沒有分數，就推論模型較弱；只能說本文使用的公開資料尚未提供可直接比較的同場數字 ^[31]^[33]^[35]^[36]。

可直接或部分對照的重點數據

Benchmark／指標	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	怎麼讀
Terminal-Bench 2.0	82.7%	69.4%	未見同場分數	未見同場分數	GPT-5.5 在 Vellum 表格中領先 Claude Opus 4.7 ^[2]
SWE-Bench Pro	58.6%	64.3%	未見同場分數	未見同場分數	Claude Opus 4.7 在軟體工程 issue-solving 類測試中領先 ^[2]
GDPval	84.9%	80.3%	未見同場分數	未見同場分數	GPT-5.5 在此組專業工作評估中領先 ^[2]
OSWorld-Verified	78.7%	78.0%	未見同場分數	未見同場分數	GPT-5.5 在 OpenAI 表格中小幅領先 ^[7]
BrowseComp	84.4%	79.3%	未見同場分數	未見同場分數	GPT-5.5 在瀏覽器／工具使用類任務較高 ^[7]
MCP Atlas	75.3%	79.1%	未見同場分數	未見同場分數	Claude Opus 4.7 在此工具協作指標領先 ^[7]
GPQA Diamond	93.6%	94.2%	未見同場分數	未見同場分數	Claude Opus 4.7 小幅領先 GPT-5.5 ^[2]
FrontierMath T1–3	51.7%	43.8%	未見同場分數	未見同場分數	GPT-5.5 在 Vellum 表格中領先 ^[2]
Context window	本文來源未列入同表	本文來源未列入同表	DeepSeek V4 Pro：1,000k tokens	256k tokens	在 Artificial Analysis 同表中，DeepSeek V4 Pro 的上下文視窗大於 Kimi K2.6 ^[33]
AA-Omniscience／hallucination	未見同場分數	未見同場分數	V4 Pro Max：-10；V4 Pro hallucination rate：94%	未見同場分數	DeepSeek V4 的長上下文很吸引人，但回答可靠性需要額外控管 ^[31]
Artificial Analysis Intelligence Index	本文來源未列入	本文來源未列入	本文來源未列入	54	這是 Kimi K2.6 的特定評估指標，不應與 Vellum／OpenAI 表格直接混成總排名 ^[35]

GPT-5.5：強項在終端機、自動化代理與工具流程

在本文採用的資料中，GPT-5.5 是與 Claude Opus 4.7 可直接對照分數最多的模型之一。Vellum 列出 Terminal-Bench 2.0、SWE-Bench Pro、GDPval、GPQA Diamond、FrontierMath 等分數；OpenAI 也提供 OSWorld-Verified、BrowseComp、MCP Atlas 等 computer use 與 tool use 指標 ^[2]^[7]。

它最明顯的優勢，是 terminal、agentic workflow 與部分 tool workflow。GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7；BrowseComp 為 84.4% 對 79.3%；OSWorld-Verified 則是 78.7% 對 78.0% ^[2]^[7]。不過，GPT-5.5 不是每項都贏：Claude Opus 4.7 在 SWE-Bench Pro、MCP Atlas 與 GPQA Diamond 均有領先 ^[2]^[7]。

安全與可控性方面，OpenAI 的 GPT-5.5 System Card 提到以 CoT-Control 評估模型遵循使用者對 chain-of-thought 相關指示的能力；該評估套件包含超過 13,000 個任務，來源包括 GPQA、MMLU-Pro、HLE、BFCL 與 SWE-Bench Verified 等既有 benchmark ^[4]。這有助於理解模型行為控制，但不應直接拿來當作一般性能分數。

Claude Opus 4.7：軟體工程訊號最突出

Anthropic 的 Claude API 文件列出 Claude Opus 4.7，日期為 2026 年 4 月 16 日 ^[20]。在能與 GPT-5.5 直接對照的分數中，Claude Opus 4.7 最亮眼的是 SWE-Bench Pro：64.3% 對 GPT-5.5 的 58.6% ^[2]。如果你的主要任務是修 issue、理解大型程式碼庫、處理偏真實世界的軟體工程問題，這個訊號比單純聊天或短程式題更值得重視。

Claude Opus 4.7 也在 MCP Atlas 以 79.1% 領先 GPT-5.5 的 75.3% ^[7]。但同一批資料也顯示，GPT-5.5 在 OSWorld-Verified、BrowseComp、Terminal-Bench 2.0、GDPval 與 FrontierMath T1–3 等項目領先 ^[2]^[7]。換句話說，Claude 的優勢更像是集中在某些工程與工具協作場景，而不是所有 benchmark 全面壓過。

安全評估方面，Anthropic 在 Petri 2.0 中報告，兩種干預方法合併使用後，Claude models 的 eval-awareness 出現 47.3% 的 median relative drop ^[22]。這應解讀為模型行為與安全研究資訊，而不是 Claude Opus 4.7 的一般性能分數。

DeepSeek V4：長上下文很強，但要嚴格控管幻覺風險

DeepSeek-V4 技術文件指出，V4 系列延續 DeepSeek-V3 的 DeepSeekMoE framework 與 Multi-Token Prediction strategy，並加入結合 Compressed Sparse Attention 與 Heavily Compressed Attention 的 hybrid attention 機制，以提升長上下文效率 ^[30]。在 Artificial Analysis 的比較表中，DeepSeek V4 Pro 的 context window 為 1,000k tokens，高於 Kimi K2.6 的 256k tokens ^[33]。

這讓 DeepSeek V4 Pro 很適合進入「超長文件、龐大資料夾、長流程記憶」類任務的候選名單。但同時要看可靠性：Artificial Analysis 報告 DeepSeek V4 Pro Max 的 AA-Omniscience 為 -10，較 DeepSeek V3.2 Reasoning 的 -21 改善；但也指出 DeepSeek V4 Pro 的 hallucination rate 為 94%，DeepSeek V4 Flash 為 96% ^[31]。

因此，如果任務需要處理大量上下文，DeepSeek V4 Pro 有明顯吸引力；但在法務、醫療、金融、企業決策或任何錯誤成本高的 production 流程中，最好搭配檢索增強生成、來源引用檢查、規則驗證與人工覆核，而不是只因為 context window 大就直接信任輸出 ^[30]^[31]^[33]。

Kimi K2.6：開放權重多模態候選，但還需要更多同場分數

Artificial Analysis 將 Kimi K2.6 標示為 2026 年 4 月釋出的 open weights model，並給出 Artificial Analysis Intelligence Index 54 ^[35]。另一篇 Artificial Analysis 分析指出，Kimi K2.6 原生支援 image 與 video input，並輸出 text；其 max context length 維持在 256k ^[36]。

若只看上下文長度，Kimi K2.6 低於 DeepSeek V4 Pro 的 1,000k tokens ^[33]。但 Kimi 的定位不只在 context window，而是在 open weights 與多模態能力。對需要自行部署、調整基礎設施，或希望避免完全依賴封閉 API 的團隊，Kimi K2.6 值得放入 shortlist。

不過，就本文使用的來源而言，仍未看到 Kimi K2.6 在 Terminal-Bench 2.0、SWE-Bench Pro、GDPval、OSWorld-Verified 或 MCP Atlas 等項目上，與 GPT-5.5、Claude Opus 4.7 完整同場比較的公開分數 ^[2]^[7]^[33]^[35]^[36]。因此，現在還不適合直接宣稱它在這些類別中優於或弱於另外三者。

依任務選模型：比追總冠軍更實際

你的任務	優先考慮	理由
終端機自動化、agentic workflow	GPT-5.5	Terminal-Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7 ^[2]
軟體工程、issue solving、程式碼庫修復	Claude Opus 4.7	SWE-Bench Pro 以 64.3% 對 58.6% 領先 GPT-5.5 ^[2]
瀏覽器與工具流程	GPT-5.5 或 Claude Opus 4.7，視工具鏈而定	GPT-5.5 在 BrowseComp 較高；Claude Opus 4.7 在 MCP Atlas 較高 ^[7]
computer-use workflow	GPT-5.5 小幅領先	OSWorld-Verified：GPT-5.5 為 78.7%，Claude Opus 4.7 為 78.0% ^[7]
超長上下文文件處理	DeepSeek V4 Pro	context window 為 1,000k tokens；但需留意 hallucination rate 94% ^[31]^[33]
開放權重多模態	Kimi K2.6	Artificial Analysis 標示其為 open weights model，且支援原生圖像／影片輸入與文字輸出 ^[35]^[36]
極度重視降低 hallucination	尚無法從這組資料判定總冠軍	DeepSeek V4 有明確風險訊號，但缺少 4 款模型同源可靠性對照 ^[31]

看 benchmark 前，先記住三件事

第一，不同來源的分數不應直接相加或硬排總名次。Vellum、OpenAI 與 Artificial Analysis 使用的測試集合、工具設定、推理模式與評分方式可能不同；把它們混成同一張排行榜，很容易得出過度簡化的結論 ^[2]^[7]^[31]^[33]^[35]。

第二，coding benchmark 也有層次差異。學術研究指出，HumanEval 這類既有 benchmark 對真實軟體工程能力的覆蓋有限；更接近實務的評估，應把 SWE-Bench 或 issue-solving 類 benchmark 一起納入考量 ^[42]。

第三，context window 不等於正確率。DeepSeek V4 Pro 在 Artificial Analysis 表格中的 context window 達 1,000k tokens，但同一來源也回報 DeepSeek V4 Pro 的 hallucination rate 為 94% ^[31]^[33]。對企業或研究場景來說，長上下文只是能力上限的一部分；真正能不能上 production，仍要靠內部測試集、資料來源約束、輸出驗證與風險分級。

總結

如果以現有公開證據來選，GPT-5.5 是終端機、自動化代理與部分工具流程的強候選，因為它在 Terminal-Bench 2.0、BrowseComp 與 OSWorld-Verified 等項目領先 Claude Opus 4.7 ^[2]^[7]。Claude Opus 4.7 則特別適合放進軟體工程 shortlist，因為它在 SWE-Bench Pro 以 64.3% 對 GPT-5.5 的 58.6% 領先 ^[2]。

DeepSeek V4 Pro 的最大亮點是 1,000k tokens 的長上下文，但必須同時把 Artificial Analysis 回報的 94% hallucination rate 納入風險評估 ^[31]^[33]。Kimi K2.6 則是值得注意的 open weights multimodal candidate：它有 256k context、原生 image／video input 與 Intelligence Index 54，但在多個主流 benchmark 上仍需要更多與 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的同場比較，才能做出更有把握的 production 決策 ^[35]^[36]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

目前沒有一個公開基準測試能把 4 款模型完整放在同一把尺下比較；GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7，但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。
DeepSeek V4 Pro 的 context window 為 1,000k tokens，高於 Kimi K2.6 的 256k tokens；但 Artificial Analysis 同時回報 DeepSeek V4 Pro 的 hallucination rate 為 94% [31][33]。
Kimi K2.6 是 2026 年 4 月釋出的 open weights model，支援原生圖像／影片輸入與文字輸出，Artificial Analysis Intelligence Index 為 54 [35][36]。

คนยังถาม

คำตอบสั้น ๆ สำหรับ "2026 AI 模型基準測試：GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6" คืออะไร

目前沒有一個公開基準測試能把 4 款模型完整放在同一把尺下比較；GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7，但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Kimi K2.6 是 2026 年 4 月釋出的 open weights model，支援原生圖像／影片輸入與文字輸出，Artificial Analysis Intelligence Index 為 54 [35][36]。

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: สรุปเบนช์มาร์กปี 2026 และคำตัดสิน

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา

DeepSeek V4 ไม่ใช่แค่โมเดล 1M context

โจทย์ความยืดหยุ่น Northwest vs. Southeast Timber: ทำไมคำตอบคือ larger; larger

Northwest กับ Southeast Timber: ทำไมแทนกันได้มากขึ้นแล้วต้องตอบ larger; larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek จะโค่น OpenAI, Claude, Gemini และ Grok ได้ไหม? เกมจริงอยู่ที่ต้นทุนและความไว้วางใจ

การสนทนาการวิจัย

คุณ27 เม.ย. 2026

คำถามวิจัย

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI27 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก ^[11]^[7]^[9]

Key findings

ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน ^[11]
GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ ^[11]
Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ ^[11]
GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ ^[11]
OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro ^[14]
Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 ^[2]
DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context ^[6]
DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens ^[9]
Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น ^[7]
หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน ^[2]^[6]^[11]^[14]^[1]
แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 ^[2]^[14]^[6]
แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด ^[11]^[12]^[15]^[7]
งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving ^[1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบ	ตัวอย่าง benchmark ที่พบ	ใช้วัดอะไร	หมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledge	GPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSR	ความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อน	OpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน ^[14]
Coding / software engineering	SWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWE	ความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์	งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น ^[1]
Agentic / tool use	Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArena	การใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอน	BenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena ^[12]
Vision / multimodal	MMMU Pro, image/video input tests	ความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบ	ข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long context	LongBench v2, MRCRv2, context-window tests	การคงบริบทและดึงข้อมูลจากเอกสารยาว	DeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน ^[9]
Safety / reliability	CoT-Control, Petri, hallucination tests, AA-Omniscience	การควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือ	OpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max ^[14]^[4]^[7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metric	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	ข้อสรุปจากหลักฐาน
Terminal-Bench 2.0	82.7%	69.4%	Insufficient evidence	Insufficient evidence	GPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ ^[11]
SWE-Bench Pro	58.6%	64.3%	Insufficient evidence	Insufficient evidence	Claude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ ^[11]
Expert-SWE internal	73.1%	Insufficient evidence	Insufficient evidence	Insufficient evidence	ใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ ^[11]
GDPval	84.9%	80.3%	Insufficient evidence	Insufficient evidence	GPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ ^[11]
BenchLM aggregate: Agentic	#2 / 99.5 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	ใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล ^[12]
BenchLM aggregate: Coding	85.6 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน ^[12]
BenchLM aggregate: Reasoning	100.0 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น ^[12]
Context window	Insufficient evidence	Insufficient evidence	1,000k tokens	256k tokens	DeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ ^[9]
AA-Omniscience	Insufficient evidence	Insufficient evidence	-10 สำหรับ V4 Pro Max	Insufficient evidence	DeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน ^[7]
Hallucination rate	Insufficient evidence	Insufficient evidence	94% สำหรับ V4 Pro/Flash	Insufficient evidence	เป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis ^[7]

วิเคราะห์รายโมเดล

GPT-5.5

GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก ^[11]
จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval ^[11]
จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% ^[11]
เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ ^[14]

Claude Opus 4.7

Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ ^[2]
จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ^[11]
Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ ^[11]
Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude ^[4]

DeepSeek V4

เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ ^[6]
DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ ^[9]
Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 ^[7]
ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน ^[7]
ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro ^[9]
เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน ^[9]
ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% ^[11]
หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% ^[11]
หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% ^[11]
หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน ^[9]
หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน ^[7]
หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก ^[14]^[11]
แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก ^[2]^[11]
แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ ^[6]
แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ ^[9]
งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย ^[1]

Limitations / uncertainty

Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน
คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด
ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7
ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval ^[11]
Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering ^[11]

แหล่งที่มา

[2] Everything You Need to Know About GPT-5.5vellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
[7] Introducing GPT-5.5 - OpenAIopenai.com
Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...
[20] System Prompts - Claude API Docsdocs.anthropic.com
Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...
[22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com
The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026
[30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co
Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...
[31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai
Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...
[35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai
Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...
[42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org
… Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024

ค้นพบเทรนด์

รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 202611 แหล่งที่มา

2026 AI 模型基準測試：GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

16K0

先講結論：沒有四方同場的確定冠軍

可直接或部分對照的重點數據

Benchmark／指標	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	怎麼讀
Terminal-Bench 2.0	82.7%	69.4%	未見同場分數	未見同場分數	GPT-5.5 在 Vellum 表格中領先 Claude Opus 4.7 ^[2]
SWE-Bench Pro	58.6%	64.3%	未見同場分數	未見同場分數	Claude Opus 4.7 在軟體工程 issue-solving 類測試中領先 ^[2]
GDPval	84.9%	80.3%	未見同場分數	未見同場分數	GPT-5.5 在此組專業工作評估中領先 ^[2]
OSWorld-Verified	78.7%	78.0%	未見同場分數	未見同場分數	GPT-5.5 在 OpenAI 表格中小幅領先 ^[7]
BrowseComp	84.4%	79.3%	未見同場分數	未見同場分數	GPT-5.5 在瀏覽器／工具使用類任務較高 ^[7]
MCP Atlas	75.3%	79.1%	未見同場分數	未見同場分數	Claude Opus 4.7 在此工具協作指標領先 ^[7]
GPQA Diamond	93.6%	94.2%	未見同場分數	未見同場分數	Claude Opus 4.7 小幅領先 GPT-5.5 ^[2]
FrontierMath T1–3	51.7%	43.8%	未見同場分數	未見同場分數	GPT-5.5 在 Vellum 表格中領先 ^[2]
Context window	本文來源未列入同表	本文來源未列入同表	DeepSeek V4 Pro：1,000k tokens	256k tokens	在 Artificial Analysis 同表中，DeepSeek V4 Pro 的上下文視窗大於 Kimi K2.6 ^[33]
AA-Omniscience／hallucination	未見同場分數	未見同場分數	V4 Pro Max：-10；V4 Pro hallucination rate：94%	未見同場分數	DeepSeek V4 的長上下文很吸引人，但回答可靠性需要額外控管 ^[31]
Artificial Analysis Intelligence Index	本文來源未列入	本文來源未列入	本文來源未列入	54	這是 Kimi K2.6 的特定評估指標，不應與 Vellum／OpenAI 表格直接混成總排名 ^[35]

GPT-5.5：強項在終端機、自動化代理與工具流程

Claude Opus 4.7：軟體工程訊號最突出

DeepSeek V4：長上下文很強，但要嚴格控管幻覺風險

Kimi K2.6：開放權重多模態候選，但還需要更多同場分數

依任務選模型：比追總冠軍更實際

你的任務	優先考慮	理由
終端機自動化、agentic workflow	GPT-5.5	Terminal-Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7 ^[2]
軟體工程、issue solving、程式碼庫修復	Claude Opus 4.7	SWE-Bench Pro 以 64.3% 對 58.6% 領先 GPT-5.5 ^[2]
瀏覽器與工具流程	GPT-5.5 或 Claude Opus 4.7，視工具鏈而定	GPT-5.5 在 BrowseComp 較高；Claude Opus 4.7 在 MCP Atlas 較高 ^[7]
computer-use workflow	GPT-5.5 小幅領先	OSWorld-Verified：GPT-5.5 為 78.7%，Claude Opus 4.7 為 78.0% ^[7]
超長上下文文件處理	DeepSeek V4 Pro	context window 為 1,000k tokens；但需留意 hallucination rate 94% ^[31]^[33]
開放權重多模態	Kimi K2.6	Artificial Analysis 標示其為 open weights model，且支援原生圖像／影片輸入與文字輸出 ^[35]^[36]
極度重視降低 hallucination	尚無法從這組資料判定總冠軍	DeepSeek V4 有明確風險訊號，但缺少 4 款模型同源可靠性對照 ^[31]

看 benchmark 前，先記住三件事

總結

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

目前沒有一個公開基準測試能把 4 款模型完整放在同一把尺下比較；GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7，但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。
DeepSeek V4 Pro 的 context window 為 1,000k tokens，高於 Kimi K2.6 的 256k tokens；但 Artificial Analysis 同時回報 DeepSeek V4 Pro 的 hallucination rate 為 94% [31][33]。
Kimi K2.6 是 2026 年 4 月釋出的 open weights model，支援原生圖像／影片輸入與文字輸出，Artificial Analysis Intelligence Index 為 54 [35][36]。

คนยังถาม

คำตอบสั้น ๆ สำหรับ "2026 AI 模型基準測試：GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Kimi K2.6 是 2026 年 4 月釋出的 open weights model，支援原生圖像／影片輸入與文字輸出，Artificial Analysis Intelligence Index 為 54 [35][36]。

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: สรุปเบนช์มาร์กปี 2026 และคำตัดสิน

DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา

DeepSeek V4 ไม่ใช่แค่โมเดล 1M context

โจทย์ความยืดหยุ่น Northwest vs. Southeast Timber: ทำไมคำตอบคือ larger; larger

Northwest กับ Southeast Timber: ทำไมแทนกันได้มากขึ้นแล้วต้องตอบ larger; larger

DeepSeek จะโค่น OpenAI, Claude, Gemini และ Grok ได้ไหม? เกมจริงอยู่ที่ต้นทุนและความไว้วางใจ

การสนทนาการวิจัย

คุณ27 เม.ย. 2026

คำถามวิจัย

Studio Global AI27 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

Key findings

ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน ^[11]
GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ ^[11]
Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ ^[11]
GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ ^[11]
OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro ^[14]
Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 ^[2]
DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context ^[6]
DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens ^[9]
Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น ^[7]
หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน ^[2]^[6]^[11]^[14]^[1]
แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 ^[2]^[14]^[6]
แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด ^[11]^[12]^[15]^[7]
งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving ^[1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบ	ตัวอย่าง benchmark ที่พบ	ใช้วัดอะไร	หมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledge	GPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSR	ความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อน	OpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน ^[14]
Coding / software engineering	SWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWE	ความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์	งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น ^[1]
Agentic / tool use	Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArena	การใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอน	BenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena ^[12]
Vision / multimodal	MMMU Pro, image/video input tests	ความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบ	ข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long context	LongBench v2, MRCRv2, context-window tests	การคงบริบทและดึงข้อมูลจากเอกสารยาว	DeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน ^[9]
Safety / reliability	CoT-Control, Petri, hallucination tests, AA-Omniscience	การควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือ	OpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max ^[14]^[4]^[7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metric	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	ข้อสรุปจากหลักฐาน
Terminal-Bench 2.0	82.7%	69.4%	Insufficient evidence	Insufficient evidence	GPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ ^[11]
SWE-Bench Pro	58.6%	64.3%	Insufficient evidence	Insufficient evidence	Claude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ ^[11]
Expert-SWE internal	73.1%	Insufficient evidence	Insufficient evidence	Insufficient evidence	ใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ ^[11]
GDPval	84.9%	80.3%	Insufficient evidence	Insufficient evidence	GPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ ^[11]
BenchLM aggregate: Agentic	#2 / 99.5 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	ใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล ^[12]
BenchLM aggregate: Coding	85.6 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน ^[12]
BenchLM aggregate: Reasoning	100.0 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น ^[12]
Context window	Insufficient evidence	Insufficient evidence	1,000k tokens	256k tokens	DeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ ^[9]
AA-Omniscience	Insufficient evidence	Insufficient evidence	-10 สำหรับ V4 Pro Max	Insufficient evidence	DeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน ^[7]
Hallucination rate	Insufficient evidence	Insufficient evidence	94% สำหรับ V4 Pro/Flash	Insufficient evidence	เป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis ^[7]

วิเคราะห์รายโมเดล

GPT-5.5

GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก ^[11]
จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval ^[11]
จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% ^[11]
เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ ^[14]

Claude Opus 4.7

Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ ^[2]
จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ^[11]
Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ ^[11]
Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude ^[4]

DeepSeek V4

เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ ^[6]
DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ ^[9]
Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 ^[7]
ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน ^[7]
ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro ^[9]
เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน ^[9]
ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% ^[11]
หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% ^[11]
หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% ^[11]
หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน ^[9]
หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน ^[7]
หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก ^[14]^[11]
แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก ^[2]^[11]
แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ ^[6]
แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ ^[9]
งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย ^[1]

Limitations / uncertainty

Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน
คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด
ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7
ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval ^[11]
Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering ^[11]

แหล่งที่มา

[2] Everything You Need to Know About GPT-5.5vellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
[7] Introducing GPT-5.5 - OpenAIopenai.com
Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...
[20] System Prompts - Claude API Docsdocs.anthropic.com
Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...
[22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com
The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026
[30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co
Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...
[31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai
Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...
[35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai
Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...
[42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org
… Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024

ค้นพบเทรนด์

รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 202611 แหล่งที่มา

2026 AI 模型基準測試：GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

16K0

先講結論：沒有四方同場的確定冠軍

可直接或部分對照的重點數據

Benchmark／指標	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	怎麼讀
Terminal-Bench 2.0	82.7%	69.4%	未見同場分數	未見同場分數	GPT-5.5 在 Vellum 表格中領先 Claude Opus 4.7 ^[2]
SWE-Bench Pro	58.6%	64.3%	未見同場分數	未見同場分數	Claude Opus 4.7 在軟體工程 issue-solving 類測試中領先 ^[2]
GDPval	84.9%	80.3%	未見同場分數	未見同場分數	GPT-5.5 在此組專業工作評估中領先 ^[2]
OSWorld-Verified	78.7%	78.0%	未見同場分數	未見同場分數	GPT-5.5 在 OpenAI 表格中小幅領先 ^[7]
BrowseComp	84.4%	79.3%	未見同場分數	未見同場分數	GPT-5.5 在瀏覽器／工具使用類任務較高 ^[7]
MCP Atlas	75.3%	79.1%	未見同場分數	未見同場分數	Claude Opus 4.7 在此工具協作指標領先 ^[7]
GPQA Diamond	93.6%	94.2%	未見同場分數	未見同場分數	Claude Opus 4.7 小幅領先 GPT-5.5 ^[2]
FrontierMath T1–3	51.7%	43.8%	未見同場分數	未見同場分數	GPT-5.5 在 Vellum 表格中領先 ^[2]
Context window	本文來源未列入同表	本文來源未列入同表	DeepSeek V4 Pro：1,000k tokens	256k tokens	在 Artificial Analysis 同表中，DeepSeek V4 Pro 的上下文視窗大於 Kimi K2.6 ^[33]
AA-Omniscience／hallucination	未見同場分數	未見同場分數	V4 Pro Max：-10；V4 Pro hallucination rate：94%	未見同場分數	DeepSeek V4 的長上下文很吸引人，但回答可靠性需要額外控管 ^[31]
Artificial Analysis Intelligence Index	本文來源未列入	本文來源未列入	本文來源未列入	54	這是 Kimi K2.6 的特定評估指標，不應與 Vellum／OpenAI 表格直接混成總排名 ^[35]

GPT-5.5：強項在終端機、自動化代理與工具流程

Claude Opus 4.7：軟體工程訊號最突出

DeepSeek V4：長上下文很強，但要嚴格控管幻覺風險

Kimi K2.6：開放權重多模態候選，但還需要更多同場分數

依任務選模型：比追總冠軍更實際

你的任務	優先考慮	理由
終端機自動化、agentic workflow	GPT-5.5	Terminal-Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7 ^[2]
軟體工程、issue solving、程式碼庫修復	Claude Opus 4.7	SWE-Bench Pro 以 64.3% 對 58.6% 領先 GPT-5.5 ^[2]
瀏覽器與工具流程	GPT-5.5 或 Claude Opus 4.7，視工具鏈而定	GPT-5.5 在 BrowseComp 較高；Claude Opus 4.7 在 MCP Atlas 較高 ^[7]
computer-use workflow	GPT-5.5 小幅領先	OSWorld-Verified：GPT-5.5 為 78.7%，Claude Opus 4.7 為 78.0% ^[7]
超長上下文文件處理	DeepSeek V4 Pro	context window 為 1,000k tokens；但需留意 hallucination rate 94% ^[31]^[33]
開放權重多模態	Kimi K2.6	Artificial Analysis 標示其為 open weights model，且支援原生圖像／影片輸入與文字輸出 ^[35]^[36]
極度重視降低 hallucination	尚無法從這組資料判定總冠軍	DeepSeek V4 有明確風險訊號，但缺少 4 款模型同源可靠性對照 ^[31]

看 benchmark 前，先記住三件事

總結

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

目前沒有一個公開基準測試能把 4 款模型完整放在同一把尺下比較；GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7，但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。
DeepSeek V4 Pro 的 context window 為 1,000k tokens，高於 Kimi K2.6 的 256k tokens；但 Artificial Analysis 同時回報 DeepSeek V4 Pro 的 hallucination rate 為 94% [31][33]。
Kimi K2.6 是 2026 年 4 月釋出的 open weights model，支援原生圖像／影片輸入與文字輸出，Artificial Analysis Intelligence Index 為 54 [35][36]。

คนยังถาม

คำตอบสั้น ๆ สำหรับ "2026 AI 模型基準測試：GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Kimi K2.6 是 2026 年 4 月釋出的 open weights model，支援原生圖像／影片輸入與文字輸出，Artificial Analysis Intelligence Index 為 54 [35][36]。

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ27 เม.ย. 2026

คำถามวิจัย

Studio Global AI27 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

Key findings

ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน ^[11]
GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ ^[11]
Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ ^[11]
GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ ^[11]
OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro ^[14]
Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 ^[2]
DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context ^[6]
DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens ^[9]
Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น ^[7]
หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน ^[2]^[6]^[11]^[14]^[1]
แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 ^[2]^[14]^[6]
แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด ^[11]^[12]^[15]^[7]
งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving ^[1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบ	ตัวอย่าง benchmark ที่พบ	ใช้วัดอะไร	หมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledge	GPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSR	ความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อน	OpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน ^[14]
Coding / software engineering	SWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWE	ความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์	งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น ^[1]
Agentic / tool use	Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArena	การใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอน	BenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena ^[12]
Vision / multimodal	MMMU Pro, image/video input tests	ความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบ	ข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long context	LongBench v2, MRCRv2, context-window tests	การคงบริบทและดึงข้อมูลจากเอกสารยาว	DeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน ^[9]
Safety / reliability	CoT-Control, Petri, hallucination tests, AA-Omniscience	การควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือ	OpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max ^[14]^[4]^[7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metric	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	ข้อสรุปจากหลักฐาน
Terminal-Bench 2.0	82.7%	69.4%	Insufficient evidence	Insufficient evidence	GPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ ^[11]
SWE-Bench Pro	58.6%	64.3%	Insufficient evidence	Insufficient evidence	Claude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ ^[11]
Expert-SWE internal	73.1%	Insufficient evidence	Insufficient evidence	Insufficient evidence	ใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ ^[11]
GDPval	84.9%	80.3%	Insufficient evidence	Insufficient evidence	GPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ ^[11]
BenchLM aggregate: Agentic	#2 / 99.5 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	ใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล ^[12]
BenchLM aggregate: Coding	85.6 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน ^[12]
BenchLM aggregate: Reasoning	100.0 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น ^[12]
Context window	Insufficient evidence	Insufficient evidence	1,000k tokens	256k tokens	DeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ ^[9]
AA-Omniscience	Insufficient evidence	Insufficient evidence	-10 สำหรับ V4 Pro Max	Insufficient evidence	DeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน ^[7]
Hallucination rate	Insufficient evidence	Insufficient evidence	94% สำหรับ V4 Pro/Flash	Insufficient evidence	เป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis ^[7]

วิเคราะห์รายโมเดล

GPT-5.5

GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก ^[11]
จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval ^[11]
จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% ^[11]
เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ ^[14]

Claude Opus 4.7

Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ ^[2]
จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ^[11]
Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ ^[11]
Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude ^[4]

DeepSeek V4

เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ ^[6]
DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ ^[9]
Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 ^[7]
ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน ^[7]
ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro ^[9]
เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน ^[9]
ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% ^[11]
หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% ^[11]
หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% ^[11]
หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน ^[9]
หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน ^[7]
หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก ^[14]^[11]
แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก ^[2]^[11]
แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ ^[6]
แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ ^[9]
งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย ^[1]

Limitations / uncertainty

Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน
คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด
ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7
ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval ^[11]
Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering ^[11]

แหล่งที่มา

[2] Everything You Need to Know About GPT-5.5vellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
[7] Introducing GPT-5.5 - OpenAIopenai.com
Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...
[20] System Prompts - Claude API Docsdocs.anthropic.com
Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...
[22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com
The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026
[30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co
Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...
[31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai
Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...
[35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai
Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...
[42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org
… Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024