studioglobal
トレンドを発見する
レポート公開済み11 ソース

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6をどう選ぶ?2026年ベンチマーク比較

4モデルを同一条件で丸ごと比較できる公開ベンチマークは見当たりません。GPT 5.5はTerminal Bench 2.0で82.7%対69.4%、Claude Opus 4.7はSWE Bench Proで64.3%対58.6%と、それぞれ強い領域が分かれます [2] DeepSeek V4 Proは1,000k tokensの大きなコンテキストウィンドウが目立ちますが、Artificial AnalysisはDeepSeek V4 Proのhallucination rateを94%と報告しています [31][33] Kimi K2.6はオープンウェイトのマルチモーダル候補です。画像・動画入力に対応し、Artificial...

15K0
ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login

openai.com

結論から言うと、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6を1つの総合順位で並べるのは危険です。公開されている情報は、すべてのモデルを同じベンチマーク、同じ評価者、同じ条件で比べたものではありません。GPT-5.5とClaude Opus 4.7はVellumやOpenAIの表で直接比較できる項目が多い一方、DeepSeek V4とKimi K2.6はlong context、オープンウェイト、マルチモーダル、信頼性に関する公開情報が中心です [2][7][30][31][33][35][36]

まず結論:最強モデルではなく、仕事別に選ぶ

同じ土俵でGPT-5.5とClaude Opus 4.7を比べられるデータを見ると、勝ち負けはかなり分かれます。Vellumの表では、GPT-5.5がTerminal-Bench 2.0で82.7%対69.4%、GDPvalで84.9%対80.3%とClaude Opus 4.7を上回っています。一方、Claude Opus 4.7はSWE-Bench Proで64.3%対58.6%、GPQA Diamondで94.2%対93.6%とGPT-5.5を上回ります [2]

OpenAIが示したcomputer useとtool useの表では、GPT-5.5はOSWorld-Verifiedで78.7%対78.0%、BrowseCompで84.4%対79.3%とClaude Opus 4.7を上回ります。ただしMCP Atlasでは、GPT-5.5が75.3%、Claude Opus 4.7が79.1%で、Claude側が上です [7]

DeepSeek V4とKimi K2.6については、GPT-5.5やClaude Opus 4.7と同じベンチマーク群で一括比較できる公開スコアが十分にそろっていません。そのため、スコアがない領域で勝敗を断定するのではなく、確認できる強みとリスクを分けて読む必要があります [31][33][35][36]

公開データで直接読みやすい比較表

ベンチマーク / 指標GPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6読み方
Terminal-Bench 2.082.7%69.4%同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認端末操作やagentic workflowでは、Vellumの表でGPT-5.5がリード [2]
SWE-Bench Pro58.6%64.3%同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認software engineering系では、Vellumの表でClaude Opus 4.7がリード [2]
GDPval84.9%80.3%同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認この指標ではGPT-5.5がClaude Opus 4.7を上回る [2]
OSWorld-Verified78.7%78.0%同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認OpenAIの表ではGPT-5.5がわずかに上 [7]
BrowseComp84.4%79.3%同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認browser/tool useではOpenAIの表でGPT-5.5が上 [7]
MCP Atlas75.3%79.1%同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認この項目ではClaude Opus 4.7がGPT-5.5を上回る [7]
GPQA Diamond93.6%94.2%同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認Vellumの表ではClaude Opus 4.7が小幅に上 [2]
FrontierMath T1–351.7%43.8%同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認Vellumの表ではGPT-5.5が上 [2]
Context windowこのArtificial Analysis比較表では対象外このArtificial Analysis比較表では対象外DeepSeek V4 Pro:1,000k tokens256k tokens同じArtificial Analysisの比較ではDeepSeek V4 Proのほうが大きい [33]
AA-Omniscience / hallucination同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認V4 Pro MaxはAA-Omniscience -10、V4 Proのhallucination rateは94%同一ソースで直接比較できるスコア未確認DeepSeek V4は長文処理の魅力と同時に、回答検証の必要性が強い [31]
Artificial Analysis Intelligence Index同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認同一ソースで直接比較できるスコア未確認54Kimi K2.6固有の参考値であり、VellumやOpenAIの表と単純合算はできない [35]

ここでの「同一ソースで直接比較できるスコア未確認」は、そのモデルが劣るという意味ではありません。本稿で使った公開ソースの範囲では、同じ評価者・同じベンチマーク・同じ条件で比べられる数字が確認できない、という意味です。

GPT-5.5:terminal、agentic workflow、tool useで強い候補

GPT-5.5は、今回の材料の中ではClaude Opus 4.7と直接比較できる公開スコアが最も多いモデルです。VellumはTerminal-Bench 2.0、SWE-Bench Pro、GDPval、GPQA Diamond、FrontierMathを掲載し、OpenAIはOSWorld-Verified、BrowseComp、MCP Atlasなどを掲載しています [2][7]

強みが見えやすいのは、端末操作、エージェント的な作業、ツール利用です。GPT-5.5はTerminal-Bench 2.0で82.7%対69.4%、BrowseCompで84.4%対79.3%、OSWorld-Verifiedで78.7%対78.0%とClaude Opus 4.7を上回っています [2][7]

ただし、GPT-5.5がすべての項目で勝っているわけではありません。SWE-Bench Pro、MCP Atlas、GPQA DiamondではClaude Opus 4.7が上回っています [2][7]

安全性や制御性の文脈では、OpenAIのSystem CardがGPT-5.5のCoT-Control評価に触れています。CoT-ControlはGPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verifiedなどから作られた13,000件超のタスクを含む評価スイートです [4]。これはモデル挙動の管理を読むうえでは重要ですが、性能ベンチマークの点数そのものと混同しないほうがよいでしょう。

Claude Opus 4.7:software engineeringで存在感

AnthropicのClaude API Docsには、Claude Opus 4.7が2026年4月16日付で記載されています [20]。GPT-5.5と直接比較できる公開スコアに限ると、最も目立つ強みはsoftware engineeringです。VellumのSWE-Bench Proでは、Claude Opus 4.7が64.3%、GPT-5.5が58.6%でした [2]

また、OpenAIの表でもMCP AtlasはClaude Opus 4.7が79.1%、GPT-5.5が75.3%でClaude側が上です [7]。一方で、OSWorld-VerifiedとBrowseCompではGPT-5.5が上回り、Vellumの表でもTerminal-Bench 2.0、GDPval、FrontierMath T1–3ではGPT-5.5が上回っています [2][7]

安全性の文脈では、AnthropicのPetri 2.0がClaude modelsに対する介入について、eval-awarenessのmedian relative dropが47.3%だったと報告しています [22]。この数字はClaude系モデルの挙動や安全性評価を読む材料であり、Claude Opus 4.7単体の性能スコアとして扱うべきではありません。

DeepSeek V4:長いコンテキストは魅力、ただし検証体制が必須

DeepSeek-V4の技術文書は、V4 seriesがDeepSeek-V3からDeepSeekMoE frameworkとMulti-Token Prediction strategyを引き継ぎつつ、long contextの効率を高めるためにhybrid attentionを導入したと説明しています [30]

Artificial Analysisの比較表では、DeepSeek V4 Proのcontext windowは1,000k tokensで、Kimi K2.6の256k tokensを大きく上回ります [33]。長い仕様書、契約書、ログ、大量の社内文書をまとめて扱うような用途では、このコンテキスト長は強い魅力になります。

一方で、信頼性には注意が必要です。Artificial AnalysisはDeepSeek V4 Pro MaxのAA-Omniscienceを-10とし、DeepSeek V3.2 Reasoningの-21から改善したと報告していますが、同時にDeepSeek V4 Proのhallucination rateを94%、DeepSeek V4 Flashを96%としています [31]。つまり、長い文脈を入れられることと、答えが正しいことは別問題です。

DeepSeek V4 Proを本番業務で使うなら、検索・参照元に基づくgrounding、出典確認、人間によるレビュー、社内テストセットでの検証を組み合わせるのが現実的です。特に、誤答のコストが高い業務では慎重に扱うべきでしょう [30][31][33]

Kimi K2.6:オープンウェイトのマルチモーダル候補

Artificial Analysisは、Kimi K2.6を2026年4月リリースのopen weights modelとし、Artificial Analysis Intelligence Indexは54だと示しています [35]。別の記事では、Kimi K2.6が画像・動画入力とテキスト出力にネイティブ対応し、最大context lengthは256kだと説明されています [36]

DeepSeek V4 Proと比べると、context windowは256k tokensで、1,000k tokensのDeepSeek V4 Proより小さいです [33]。ただし、Kimi K2.6の見どころは、長文だけではなく、オープンウェイトでマルチモーダル入力に対応する点にあります [35][36]

現時点の注意点は、GPT-5.5やClaude Opus 4.7と同じ表で、Terminal-Bench 2.0、SWE-Bench Pro、GDPval、OSWorld-Verified、MCP Atlasなどを一括比較できる公開スコアが見当たらないことです [2][7][33][35][36]。そのため、Kimi K2.6は有力なshortlist候補ではありますが、直接比較スコアのない領域で優劣を断定するのは早計です。

用途別:どのモデルを候補に入れるべきか

やりたいことまず検討したいモデル根拠
Terminal automation / agentic workflowGPT-5.5Terminal-Bench 2.0でGPT-5.5が82.7%、Claude Opus 4.7が69.4% [2]
Software engineering / issue solvingClaude Opus 4.7SWE-Bench ProでClaude Opus 4.7が64.3%、GPT-5.5が58.6% [2]
Browserやtool workflowGPT-5.5またはClaude Opus 4.7BrowseCompはGPT-5.5が上、MCP AtlasはClaude Opus 4.7が上 [7]
Computer-use workflowGPT-5.5が小幅リードOSWorld-VerifiedはGPT-5.5が78.7%、Claude Opus 4.7が78.0% [7]
非常に長いコンテキスト処理DeepSeek V4 Procontext windowは1,000k tokens。ただしhallucination rate 94%の報告があるため検証が必要 [31][33]
Open-weight multimodalKimi K2.6open weights modelで、画像・動画入力とテキスト出力に対応 [35][36]
hallucinationを最小化したい重要業務本稿のデータだけでは総合勝者は未確定DeepSeek V4のリスクは明確だが、4モデルを同一条件で比較した信頼性指標はそろっていない [31]

ベンチマークを読むときの注意点

第1に、異なるソースの数字を足し合わせて総合ランキングを作るのは避けるべきです。Vellum、OpenAI、Artificial Analysisは、それぞれ異なるベンチマーク、異なる評価文脈、異なる掲載範囲で数字を出しています [2][7][31][33][35]

第2に、coding評価ではベンチマークの種類が重要です。研究文献でも、HumanEvalのような既存ベンチマークには限界があり、実際のissue solving能力を見るにはSWE-Benchのようなベンチマークも考慮すべきだと指摘されています [42]

第3に、context windowの大きさは正確性の保証ではありません。DeepSeek V4 Proは1,000k tokensのcontext windowを持つ一方、Artificial AnalysisはDeepSeek V4 Proのhallucination rateを94%と報告しています [31][33]。長く読めるモデルほど、むしろ回答の根拠確認が重要になる場面もあります。

まとめ

GPT-5.5は、agentic workflow、端末操作、ツール利用を重視するなら強い候補です。Terminal-Bench 2.0、BrowseComp、OSWorld-VerifiedでClaude Opus 4.7を上回っています [2][7]

Claude Opus 4.7は、software engineering寄りの仕事で特に検討価値があります。SWE-Bench Proでは64.3%で、GPT-5.5の58.6%を上回りました [2]

DeepSeek V4 Proは、1,000k tokensのlong contextが大きな魅力です。ただし、Artificial AnalysisがDeepSeek V4 Proのhallucination rateを94%と報告しているため、業務利用ではgroundingやレビューを前提にすべきです [31][33]

Kimi K2.6は、オープンウェイトかつマルチモーダルの候補として注目できます。Artificial Analysis Intelligence Indexは54で、画像・動画入力にも対応しますが、GPT-5.5やClaude Opus 4.7と直接比べられるベンチマークはまだ十分ではありません [35][36]

要するに、2026年時点の読み方は「GPT-5.5かClaudeか」ではなく、「どの業務に、どのリスク許容度で、どの評価指標を使うか」です。導入前には、公開ベンチマークだけでなく、自社の実データとワークフローに近い小さな評価セットを作って確認するのが最も堅実です。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • 4モデルを同一条件で丸ごと比較できる公開ベンチマークは見当たりません。GPT 5.5はTerminal Bench 2.0で82.7%対69.4%、Claude Opus 4.7はSWE Bench Proで64.3%対58.6%と、それぞれ強い領域が分かれます [2]
  • DeepSeek V4 Proは1,000k tokensの大きなコンテキストウィンドウが目立ちますが、Artificial AnalysisはDeepSeek V4 Proのhallucination rateを94%と報告しています [31][33]
  • Kimi K2.6はオープンウェイトのマルチモーダル候補です。画像・動画入力に対応し、Artificial Analysis Intelligence Indexは54ですが、GPT 5.5やClaude Opus 4.7との直接比較スコアはまだ限定的です [35][36]

人々も尋ねます

「GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6をどう選ぶ?2026年ベンチマーク比較」の短い答えは何ですか?

4モデルを同一条件で丸ごと比較できる公開ベンチマークは見当たりません。GPT 5.5はTerminal Bench 2.0で82.7%対69.4%、Claude Opus 4.7はSWE Bench Proで64.3%対58.6%と、それぞれ強い領域が分かれます [2]

最初に検証する重要なポイントは何ですか?

4モデルを同一条件で丸ごと比較できる公開ベンチマークは見当たりません。GPT 5.5はTerminal Bench 2.0で82.7%対69.4%、Claude Opus 4.7はSWE Bench Proで64.3%対58.6%と、それぞれ強い領域が分かれます [2] DeepSeek V4 Proは1,000k tokensの大きなコンテキストウィンドウが目立ちますが、Artificial AnalysisはDeepSeek V4 Proのhallucination rateを94%と報告しています [31][33]

次の実践では何をすればいいでしょうか?

Kimi K2.6はオープンウェイトのマルチモーダル候補です。画像・動画入力に対応し、Artificial Analysis Intelligence Indexは54ですが、GPT 5.5やClaude Opus 4.7との直接比較スコアはまだ限定的です [35][36]

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較:2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI40 ソース

引用された回答

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก [11][7][9]

Key findings

  • ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน [11]

  • GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ [11]

  • Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ [11]

  • GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ [11]

  • OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro [14]

  • Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 [2]

  • DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น [7]

  • หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

  • รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน [2][6][11][14][1]

  • แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 [2][14][6]

  • แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด [11][12][15][7]

  • งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving [1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบตัวอย่าง benchmark ที่พบใช้วัดอะไรหมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledgeGPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSRความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อนOpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน [14]
Coding / software engineeringSWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWEความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น [1]
Agentic / tool useTerminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArenaการใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอนBenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena [12]
Vision / multimodalMMMU Pro, image/video input testsความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long contextLongBench v2, MRCRv2, context-window testsการคงบริบทและดึงข้อมูลจากเอกสารยาวDeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน [9]
Safety / reliabilityCoT-Control, Petri, hallucination tests, AA-Omniscienceการควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือOpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max [14][4][7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metricGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6ข้อสรุปจากหลักฐาน
Terminal-Bench 2.082.7%69.4%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ [11]
SWE-Bench Pro58.6%64.3%Insufficient evidenceInsufficient evidenceClaude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ [11]
Expert-SWE internal73.1%Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ [11]
GDPval84.9%80.3%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ [11]
BenchLM aggregate: Agentic#2 / 99.5 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล [12]
BenchLM aggregate: Coding85.6 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน [12]
BenchLM aggregate: Reasoning100.0 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น [12]
Context windowInsufficient evidenceInsufficient evidence1,000k tokens256k tokensDeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ [9]
AA-OmniscienceInsufficient evidenceInsufficient evidence-10 สำหรับ V4 Pro MaxInsufficient evidenceDeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน [7]
Hallucination rateInsufficient evidenceInsufficient evidence94% สำหรับ V4 Pro/FlashInsufficient evidenceเป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis [7]

วิเคราะห์รายโมเดล

GPT-5.5

  • GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก [11]

  • จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval [11]

  • จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% [11]

  • เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ [14]

Claude Opus 4.7

  • Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ [2]

  • จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% [11]

  • Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ [11]

  • Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude [4]

DeepSeek V4

  • เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 [7]

  • ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน [7]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

  • หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro [9]

  • เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน [9]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

  • หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% [11]

  • หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% [11]

  • หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% [11]

  • หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน [9]

  • หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน [7]

  • หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

  • แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก [14][11]

  • แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก [2][11]

  • แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ [6]

  • แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ [9]

  • งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย [1]

Limitations / uncertainty

  • Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน

  • คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด

  • ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7

  • ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

  • GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval [11]

  • Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering [11]

情報源

  • [2] Everything You Need to Know About GPT-5.5vellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [7] Introducing GPT-5.5 - OpenAIopenai.com

    Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...

  • [20] System Prompts - Claude API Docsdocs.anthropic.com

    Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...

  • [22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com

    The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026

  • [30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co

    Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...

  • [31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai

    Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...

  • [35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai

    Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    ➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...

  • [42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org

    … Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024