studioglobal
ค้นพบเทรนด์
รายงานเผยแพร่แล้ว11 แหล่งที่มา

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:2026 Benchmark 與選型指南

暫時無一個同場同規則的 benchmark 可完整比較四個模型;GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7,但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。 DeepSeek V4 Pro 的上下文視窗達 1,000k tokens,比 Kimi K2.6 的 256k 大,但 Artificial Analysis 亦報告 DeepSeek V4 Pro hallucination rate 為 94% [31][33]。

16K0
ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login

openai.com

先講結論:要比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6,最易出事嘅做法就係硬砌一個總分,然後話邊個係總冠軍。現有公開資料並唔係每個模型都喺同一套 benchmark、同一個評測者、同一個設定下齊齊出分。GPT-5.5 同 Claude Opus 4.7 有較多可以直接對照嘅分數,主要來自 Vellum 同 OpenAI;DeepSeek V4 同 Kimi K2.6 嘅公開資料,則較集中喺長上下文、開放權重、多模態同 reliability 相關訊號 [2][7][30][31][33][35][36]

一句話:按工作揀,唔好迷信總排名

如果你係要揀模型落真實 workflow,最好先問:你要佢做 terminal automation、software engineering、browser/tool workflow、長文件處理,定係開放權重多模態?

  • Agent、terminal、tool workflow:GPT-5.5 嘅公開直比分數較有優勢,尤其 Terminal-Bench 2.0、BrowseComp 同 OSWorld-Verified [2][7]
  • Software engineering / issue solving:Claude Opus 4.7 在 SWE-Bench Pro 以 64.3% 對 GPT-5.5 的 58.6% 領先 [2]
  • 超長上下文:DeepSeek V4 Pro 的 context window 達 1,000k tokens,比 Kimi K2.6 的 256k 大,但要同時留意 hallucination rate 94% 這個風險訊號 [31][33]
  • 開放權重多模態:Kimi K2.6 係值得留意嘅候選,Artificial Analysis 指它是 open weights model,並支援 image/video input 與 text output [35][36]

可直接比較嘅分數:先睇同場數據

下表重點唔係要砌出一個總冠軍,而係話你知:邊啲數字可以直接睇,邊啲位仍然未有同場同規則資料。

Benchmark / 指標GPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6點樣讀
Terminal-Bench 2.082.7%69.4%同一來源未見直比分數同一來源未見直比分數GPT-5.5 在 Vellum 表內領先 [2]
SWE-Bench Pro58.6%64.3%同一來源未見直比分數同一來源未見直比分數Claude Opus 4.7 在 software engineering benchmark 較強 [2]
GDPval84.9%80.3%同一來源未見直比分數同一來源未見直比分數GPT-5.5 在呢組測試領先 [2]
OSWorld-Verified78.7%78.0%同一來源未見直比分數同一來源未見直比分數GPT-5.5 在 OpenAI 表內些微領先 [7]
BrowseComp84.4%79.3%同一來源未見直比分數同一來源未見直比分數GPT-5.5 在 tool/browser 類測試領先 [7]
MCP Atlas75.3%79.1%同一來源未見直比分數同一來源未見直比分數Claude Opus 4.7 在呢項領先 [7]
GPQA Diamond93.6%94.2%同一來源未見直比分數同一來源未見直比分數Claude Opus 4.7 略高 [2]
FrontierMath T1–351.7%43.8%同一來源未見直比分數同一來源未見直比分數GPT-5.5 在 Vellum 表內領先 [2]
Context window本文所用 Artificial Analysis 對照表未列本文所用 Artificial Analysis 對照表未列DeepSeek V4 Pro:1,000k tokens256k tokensDeepSeek V4 Pro 的上下文視窗較大 [33]
AA-Omniscience / hallucination同一來源未見直比分數同一來源未見直比分數V4 Pro Max:-10;V4 Pro hallucination rate:94%同一來源未見直比分數DeepSeek V4 需要特別做查證同防幻覺 [31]
Artificial Analysis Intelligence Index本文來源未見本文來源未見本文來源未見54呢個係 Kimi K2.6 的單項來源資訊,不應同 Vellum/OpenAI 分數混成一個 leaderboard [35]

「同一來源未見直比分數」唔等於該模型較差,只係代表喺本文採用嘅來源入面,暫時未見它在同一 benchmark、同一評測語境下嘅可比數字。

GPT-5.5:agent、terminal、tool workflow 資料最完整

在本文使用嘅資料入面,GPT-5.5 係同 Claude Opus 4.7 有最多直比分數嘅模型。Vellum 列出 Terminal-Bench 2.0、SWE-Bench Pro、GDPval、GPQA Diamond 同 FrontierMath;OpenAI 則列出 OSWorld-Verified、BrowseComp 同 MCP Atlas [2][7]

最清晰嘅強項係 terminal、agentic workflow 同 tool use。GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 對 Claude Opus 4.7 的 69.4% 領先;在 BrowseComp 以 84.4% 對 79.3% 領先;在 OSWorld-Verified 亦以 78.7% 對 78.0% 略高 [2][7]

但 GPT-5.5 並唔係全項通殺。Claude Opus 4.7 在 SWE-Bench Pro、MCP Atlas 同 GPQA Diamond 分別領先 GPT-5.5,呢點對做 coding agent 或研究型工作嘅團隊尤其要留意 [2][7]

安全同可控性方面,OpenAI 的 GPT-5.5 System Card 提到以 CoT-Control 評估模型可控性,該評估套件包含超過 13,000 個 tasks,來自 GPQA、MMLU-Pro、HLE、BFCL 同 SWE-Bench Verified 等 benchmark [4]。呢類資料有助理解模型行為控制,但唔應直接當成 performance benchmark 分數。

Claude Opus 4.7:software engineering 訊號最突出

Anthropic 的 Claude API Docs 列出 Claude Opus 4.7,日期為 2026 年 4 月 16 日 [20]。在現有可直比資料入面,Claude Opus 4.7 最突出嘅位係 SWE-Bench Pro:64.3%,高過 GPT-5.5 的 58.6% [2]

Claude Opus 4.7 亦在 MCP Atlas 以 79.1% 對 GPT-5.5 的 75.3% 領先 [7]。不過,同一批資料亦顯示 GPT-5.5 在 OSWorld-Verified、BrowseComp、Terminal-Bench 2.0、GDPval 同 FrontierMath T1–3 等項目表現更高 [2][7]

安全研究角度,Anthropic 在 Petri 2.0 指出,兩種介入方法合併使用時,令 Claude models 的 eval-awareness 出現 47.3% median relative drop [22]。呢個數字應理解為 Claude 系列行為與安全評估資料,而唔係 Claude Opus 4.7 的一般能力 benchmark。

DeepSeek V4:長上下文好大,但 reliability 要加防線

DeepSeek-V4 技術報告指出,V4 series 保留 DeepSeek-V3 的 DeepSeekMoE framework 同 Multi-Token Prediction strategy,並加入 hybrid attention mechanism,以改善 long-context 效率 [30]。Artificial Analysis 的對照表顯示,DeepSeek V4 Pro 的 context window 為 1,000k tokens,而 Kimi K2.6 為 256k tokens [33]

需要特別小心嘅係 reliability。Artificial Analysis 報告指 DeepSeek V4 Pro Max 在 AA-Omniscience 得分為 -10,較 DeepSeek V3.2 Reasoning 的 -21 有改善;但同一報告亦指 DeepSeek V4 Pro 的 hallucination rate 為 94%,DeepSeek V4 Flash 為 96% [31]

所以,DeepSeek V4 Pro 較適合需要超長上下文嘅場景,例如處理大型文件、長流程記憶或需要一次帶入大量資料嘅 workflow。但如果答案錯誤成本高,就應配合 retrieval grounding、fact-checking 或人工覆核,唔好只因為 context window 大就當準確度自然更高 [30][31][33]

Kimi K2.6:開放權重多模態候選,但仍要等更多直比分數

Artificial Analysis 指 Kimi K2.6 是 2026 年 4 月發布的 open weights model,Artificial Analysis Intelligence Index 為 54 [35]。另一篇 Artificial Analysis 分析指出,Kimi K2.6 原生支援 image 和 video input,輸出為 text,max context length 維持 256k [36]

單看 context window,Kimi K2.6 的 256k 低於 DeepSeek V4 Pro 的 1,000k tokens [33]。而在本文採用嘅來源入面,仍未見 Kimi K2.6 在 Terminal-Bench 2.0、SWE-Bench Pro、GDPval、OSWorld-Verified 或 MCP Atlas 等項目上,與 GPT-5.5、Claude Opus 4.7 同場直比嘅完整分數 [2][7][33][35][36]

換句話講,Kimi K2.6 值得放入 open-weight multimodal shortlist,但暫時唔應該話它在缺乏直比分數嘅 benchmark 上一定高過或低過 GPT-5.5、Claude Opus 4.7 或 DeepSeek V4 [35][36]

點揀模型:用場景代替排行榜

你要做嘅事先考慮邊個根據係咩
Terminal automation / agentic workflowGPT-5.5Terminal-Bench 2.0:GPT-5.5 82.7%,Claude Opus 4.7 69.4% [2]
Software engineering / issue solvingClaude Opus 4.7SWE-Bench Pro:Claude Opus 4.7 64.3%,GPT-5.5 58.6% [2]
Browser 同 tool workflowGPT-5.5 或 Claude Opus 4.7,視乎工具而定GPT-5.5 在 BrowseComp 領先;Claude Opus 4.7 在 MCP Atlas 領先 [7]
Computer-use workflowGPT-5.5 略先OSWorld-Verified:GPT-5.5 78.7%,Claude Opus 4.7 78.0% [7]
超長上下文文件 / 大量上下文保留DeepSeek V4 ProContext window 為 1,000k tokens,但要留意 hallucination rate 94% [31][33]
開放權重多模態Kimi K2.6Artificial Analysis 指它是 open weights model,並支援 image/video input 與 text output [35][36]
最重視降低 hallucination暫時唔能夠由本文資料定總冠軍DeepSeek V4 有明確高 hallucination 風險訊號,但四個模型未有同一來源的完整 reliability 直比 [31]

Benchmark 有幾個坑,揀之前要知道

第一,唔同來源嘅分數唔應該硬合併成一個排行榜。Vellum、OpenAI 同 Artificial Analysis 報告嘅測試集、測試語境、工具可用性同評分方式都可能唔同,所以最穩陣係只在同一來源、同一 benchmark 內比較 [2][7][31][33][35]

第二,coding benchmark 要分清楚係寫小題,定係解真實 issue。學術研究指出,HumanEval 這類 benchmark 有局限,而較貼近實務嘅評估應同時考慮 SWE-Bench 這類 issue-solving benchmark [42]

第三,context window 大唔代表答案必然準。DeepSeek V4 Pro 的 context window 是 1,000k tokens,但 Artificial Analysis 同時報告 DeepSeek V4 Pro hallucination rate 為 94% [31][33]。如果要放入 production,最好用自己實際資料、實際 prompt、實際工具鏈再做內部測試。

總結

按目前證據,GPT-5.5 係 agentic、terminal 同部分 tool workflow 嘅強勢選擇,因為它在 Terminal-Bench 2.0、BrowseComp 同 OSWorld-Verified 對 Claude Opus 4.7 有領先 [2][7]。Claude Opus 4.7 則更適合優先考慮 software engineering issue-solving 的團隊,因為它在 SWE-Bench Pro 以 64.3% 對 GPT-5.5 的 58.6% 領先 [2]

DeepSeek V4 Pro 的最大賣點係 1,000k tokens 長上下文,但要同 94% hallucination rate 一齊評估,尤其係高風險或高成本錯誤場景 [31][33]。Kimi K2.6 則係值得觀察嘅 open-weight multimodal 模型:它有 256k context、原生 image/video input,並在 Artificial Analysis Intelligence Index 得 54;但要作 production 級結論,仍需要更多同場同規則 benchmark [35][36]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • 暫時無一個同場同規則的 benchmark 可完整比較四個模型;GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7,但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。
  • DeepSeek V4 Pro 的上下文視窗達 1,000k tokens,比 Kimi K2.6 的 256k 大,但 Artificial Analysis 亦報告 DeepSeek V4 Pro hallucination rate 為 94% [31][33]。
  • Kimi K2.6 值得列入開放權重多模態 shortlist:Artificial Analysis 指它支援 image/video input、text output,並有 Intelligence Index 54;但多個核心 benchmark 仍缺同場直比分數 [35][36]。

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:2026 Benchmark 與選型指南" คืออะไร

暫時無一個同場同規則的 benchmark 可完整比較四個模型;GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7,但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

暫時無一個同場同規則的 benchmark 可完整比較四個模型;GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7,但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。 DeepSeek V4 Pro 的上下文視窗達 1,000k tokens,比 Kimi K2.6 的 256k 大,但 Artificial Analysis 亦報告 DeepSeek V4 Pro hallucination rate 為 94% [31][33]。

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Kimi K2.6 值得列入開放權重多模態 shortlist:Artificial Analysis 指它支援 image/video input、text output,並有 Intelligence Index 54;但多個核心 benchmark 仍缺同場直比分數 [35][36]。

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI40 แหล่งที่มา

อ้างถึงคำตอบ

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก [11][7][9]

Key findings

  • ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน [11]

  • GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ [11]

  • Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ [11]

  • GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ [11]

  • OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro [14]

  • Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 [2]

  • DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น [7]

  • หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

  • รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน [2][6][11][14][1]

  • แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 [2][14][6]

  • แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด [11][12][15][7]

  • งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving [1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบตัวอย่าง benchmark ที่พบใช้วัดอะไรหมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledgeGPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSRความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อนOpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน [14]
Coding / software engineeringSWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWEความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น [1]
Agentic / tool useTerminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArenaการใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอนBenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena [12]
Vision / multimodalMMMU Pro, image/video input testsความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long contextLongBench v2, MRCRv2, context-window testsการคงบริบทและดึงข้อมูลจากเอกสารยาวDeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน [9]
Safety / reliabilityCoT-Control, Petri, hallucination tests, AA-Omniscienceการควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือOpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max [14][4][7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metricGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6ข้อสรุปจากหลักฐาน
Terminal-Bench 2.082.7%69.4%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ [11]
SWE-Bench Pro58.6%64.3%Insufficient evidenceInsufficient evidenceClaude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ [11]
Expert-SWE internal73.1%Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ [11]
GDPval84.9%80.3%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ [11]
BenchLM aggregate: Agentic#2 / 99.5 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล [12]
BenchLM aggregate: Coding85.6 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน [12]
BenchLM aggregate: Reasoning100.0 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น [12]
Context windowInsufficient evidenceInsufficient evidence1,000k tokens256k tokensDeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ [9]
AA-OmniscienceInsufficient evidenceInsufficient evidence-10 สำหรับ V4 Pro MaxInsufficient evidenceDeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน [7]
Hallucination rateInsufficient evidenceInsufficient evidence94% สำหรับ V4 Pro/FlashInsufficient evidenceเป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis [7]

วิเคราะห์รายโมเดล

GPT-5.5

  • GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก [11]

  • จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval [11]

  • จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% [11]

  • เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ [14]

Claude Opus 4.7

  • Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ [2]

  • จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% [11]

  • Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ [11]

  • Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude [4]

DeepSeek V4

  • เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 [7]

  • ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน [7]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

  • หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro [9]

  • เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน [9]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

  • หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% [11]

  • หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% [11]

  • หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% [11]

  • หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน [9]

  • หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน [7]

  • หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

  • แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก [14][11]

  • แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก [2][11]

  • แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ [6]

  • แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ [9]

  • งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย [1]

Limitations / uncertainty

  • Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน

  • คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด

  • ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7

  • ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

  • GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval [11]

  • Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering [11]

แหล่งที่มา

  • [2] Everything You Need to Know About GPT-5.5vellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [7] Introducing GPT-5.5 - OpenAIopenai.com

    Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...

  • [20] System Prompts - Claude API Docsdocs.anthropic.com

    Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...

  • [22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com

    The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026

  • [30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co

    Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...

  • [31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai

    Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...

  • [35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai

    Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    ➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...

  • [42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org

    … Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024