studioglobal
トレンドを発見する
レポート公開済み14 ソース

GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6: เทียบเบนช์มาร์กแบบใช้งานจริง

ยังไม่ควรอ่านผลเป็นตารางผู้ชนะอันดับเดียว เพราะเบนช์มาร์กแต่ละชุดใช้เงื่อนไข reasoning เวลาอัปเดต และแหล่งคะแนนต่างกัน ควรเลือกตามงานมากกว่า [4][18] GPT 5.5 เด่นในภาพรวมและงานมูลค่าทางเศรษฐกิจ โดย GPT 5.5 high ได้ Intelligence 59 และ GPT 5.5 xhigh ได้ Elo 1785 ใน GDPval AA ส่วน Claude Opus 4.7 นำ GPT 5.5 ใน 6 จาก 10...

17K0
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマーク比較を示す抽象的なAIダッシュボード
GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較:ベンチマークで見る用途別の勝者4つの主要AIモデルを、総合性能・推論・速度・文脈長・価格の観点で比較するイメージ。
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較:ベンチマークで見る用途別の勝者. Article summary: 4モデルを完全同一条件で横比較した公開表は確認できないため、単一の勝者ではなく用途別に選ぶのが安全です。総合候補はGPT 5.5(AA Intelligence 59、GDPval AA Elo 1785)とClaude Opus 4.7(共通10ベンチマークで6勝4敗)です。[4][26][27]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](

openai.com

ก่อนดูตัวเลข คำถามที่ควรถามไม่ใช่ “โมเดลไหนเก่งที่สุด” แต่คือ “เราจะให้มันทำงานแบบไหน” เพราะเบนช์มาร์กสาธารณะของ LLM มักไม่ได้วัดภายใต้เงื่อนไขเดียวกันทั้งหมด ทั้งระดับ reasoning ที่เปิดใช้ ช่วงเวลาที่ประเมิน และคะแนนที่มาจากผู้ให้บริการเองหรือจากบุคคลที่สาม หากนำทุกอย่างมารวมเป็นอันดับเดียว อาจได้ข้อสรุปที่ชวนเข้าใจผิด [4][18]

ในบทความนี้ ส่วนของ DeepSeek จะยึด DeepSeek V4 Pro เป็นหลักเมื่อพูดถึงตัวเลขที่ตรวจสอบได้ เพราะ Artificial Analysis มีข้อมูลของ DeepSeek V4 Pro แบบ Reasoning, Max Effort เทียบกับ Kimi K2.6 ในตารางโมเดลโอเพนเวต ทั้งคะแนน Intelligence, context, ราคา และความเร็วเอาต์พุต [23]

สรุปเร็ว: ถ้าต้องเลือกตามงาน

งานที่ต้องทำตัวเลือกแรกที่ควรลองเหตุผล
งานทั่วไป งานเชิงเศรษฐกิจ และงานที่ต้องการความสามารถรวมสูงGPT-5.5GPT-5.5 high ได้คะแนน 59 ใน Artificial Analysis Intelligence Index และ GPT-5.5 xhigh ได้ Elo 1785 ใน GDPval-AA [26][27]
งาน reasoning ลึก รีวิวโค้ด ตรวจตราความถูกต้อง งานเฉพาะทางClaude Opus 4.7LLM Stats สรุปว่าใน 10 เบนช์มาร์กที่ GPT-5.5 และ Claude Opus 4.7 มีร่วมกัน Claude นำ 6 รายการ ส่วน GPT-5.5 นำ 4 รายการ [4]
งานใช้เครื่องมือระยะยาว เช่น terminal, browser, agent workflowGPT-5.5LLM Stats ระบุว่า GPT-5.5 แข็งแรงกว่าใน Terminal-Bench 2.0, BrowseComp, OSWorld-Verified และ CyberGym [4]
งานโอเพนเวตที่เน้นความเร็วและความคุ้มค่าKimi K2.6ตารางโอเพนโมเดลของ Artificial Analysis ให้ Kimi K2.6 มี Intelligence 54, context 256k, Price $1.7 และความเร็ว 112 tokens/s [23]
งาน context ยาวมากและต้องการต้นทุน API ต่ำDeepSeek V4 Pro / ตระกูล DeepSeek V4Artificial Analysis ระบุ DeepSeek V4 Pro มี context 1M ส่วน Mashable รายงานว่าราคา API ของ DeepSeek V4 ต่ำกว่า GPT-5.5 และ Claude Opus 4.7 [3][23]

ภาพรวม 4 รุ่น: จุดเด่นที่เห็นจากข้อมูลสาธารณะ

โมเดลจุดแข็งจากเบนช์มาร์กจุดที่ต้องดูด้านราคาและการใช้งาน
GPT-5.5GPT-5.5 high ได้ Intelligence 59 ใน Artificial Analysis และ GPT-5.5 xhigh ได้ Elo 1785 ใน GDPval-AA ซึ่งรายงานว่านำ Claude Opus 4.7 max อยู่ราว 30 คะแนน [26][27]Mashable รายงานราคา API ที่ $5 ต่อ 1 ล้าน input tokens และ $30 ต่อ 1 ล้าน output tokens [3]
Claude Opus 4.7LLM Stats สรุปเบนช์มาร์กร่วม 10 รายการว่า Claude นำ GPT-5.5 6 ต่อ 4 ส่วน Mashable รายงานตัวเลข เช่น SWE-Bench Pro 64.3%, GPQA Diamond 94.2% และ HLE with tools 54.7% [4][9]Mashable รายงานราคา API ที่ $5 ต่อ 1 ล้าน input tokens และ $25 ต่อ 1 ล้าน output tokens [3]
Kimi K2.6Artificial Analysis ให้ Intelligence 54 ในตารางโอเพนโมเดล ขณะที่ The Decoder รายงานค่าที่ Moonshot AI ประกาศ เช่น HLE with Tools 54.0, SWE-Bench Pro 58.6 และ BrowseComp 83.2 [20][23]Artificial Analysis ระบุ context 256k, Price $1.7 และความเร็ว 112 tokens/s [23]
DeepSeek V4 ProArtificial Analysis ให้ Intelligence 52 ส่วน DataCamp สรุปว่า DeepSeek V4 ยังไม่ได้เหนือกว่า GPT-5.5 หรือ Claude Opus 4.7 ในความสามารถล้วน ๆ [16][23]Artificial Analysis ระบุ context 1M, Price $2.2 และความเร็ว 36 tokens/s ส่วน Mashable รายงานราคา API ของ DeepSeek V4 ที่ $1.74 ต่อ 1 ล้าน input tokens และ $3.48 ต่อ 1 ล้าน output tokens [3][23]

GPT-5.5 vs Claude Opus 4.7: รุ่น frontier ชนะกันคนละสนาม

ถ้าเทียบเฉพาะ GPT-5.5 กับ Claude Opus 4.7 ภาพจะไม่ใช่ฝ่ายใดฝ่ายหนึ่งกวาดเรียบ แต่เป็นการผลัดกันนำตามประเภทงาน ตัวเลขหลักที่ Mashable รายงานมีดังนี้ [9]

เบนช์มาร์กGPT-5.5Claude Opus 4.7รุ่นที่นำ
SWE-Bench Pro58.6%64.3%Claude Opus 4.7
Terminal-Bench 2.082.7%69.4%GPT-5.5
Humanity's Last Exam40.6%31.2%GPT-5.5
Humanity's Last Exam with tools52.2%54.7%Claude Opus 4.7
BrowseComp84.4%79.3%GPT-5.5
GPQA Diamond93.6%94.2%Claude Opus 4.7
ARC-AGI-1 Verified94.5%92.0%GPT-5.5

LLM Stats มองภาพรวมของ 10 เบนช์มาร์กร่วมว่า Claude Opus 4.7 นำ 6 รายการ และ GPT-5.5 นำ 4 รายการ โดยกลุ่มที่ Claude แข็งคือ reasoning และงานระดับรีวิว ส่วนกลุ่มที่ GPT-5.5 เด่นคือการใช้เครื่องมือยาว ๆ เช่น terminal, browsing และงาน agent ที่ต้องทำหลายขั้นตอน [4]

แต่มีข้อควรระวังสำคัญ: LLM Stats ระบุว่าคะแนนเหล่านี้เป็นคะแนนแบบ self-reported ของแต่ละผู้ให้บริการใน tier reasoning สูง จึง “พอเทียบรูปทรงได้” แต่ไม่ใช่การทดสอบที่มีวิธีวิทยาเหมือนกันทุกจุด [4] นอกจากนี้ บางรายการอย่าง Humanity's Last Exam อาจให้ภาพการนำที่ต่างกันเมื่อดูคนละแหล่งข้อมูล [4][9]

Kimi K2.6 vs DeepSeek V4 Pro: ฝั่งโอเพนเวตเลือกความเร็วหรือ context ยาว

Kimi K2.6 และ DeepSeek V4 Pro ควรถูกมองเป็นตัวเลือกฝั่งโอเพนเวตมากกว่าจะนำไปชนกับโมเดลปิดระดับ frontier แบบตารางเดียวจบ ข้อมูลจาก Artificial Analysis ให้ภาพที่ค่อนข้างชัดว่า Kimi เร็วกว่า ส่วน DeepSeek ได้เปรียบเรื่อง context [23]

ตัวชี้วัดKimi K2.6DeepSeek V4 Pro
Artificial Analysis Intelligence5452
Context window256k1.00M
Price$1.7$2.2
Output speed112 tokens/s36 tokens/s

ถ้าดูเฉพาะตารางนี้ Kimi K2.6 ได้เปรียบด้านคะแนน Intelligence และความเร็วเอาต์พุต ขณะที่ DeepSeek V4 Pro ได้เปรียบชัดเจนเรื่อง context 1M [23] The Decoder ยังรายงานค่าที่ Moonshot AI ประกาศสำหรับ Kimi K2.6 เช่น HLE with Tools 54.0, SWE-Bench Pro 58.6 และ BrowseComp 83.2 [20]

อย่างไรก็ตาม การทดลองสาธารณะของ Kimi K2.6 ไม่ใช่การเทียบแบบเงื่อนไขเดียวกันทั้งหมดกับ GPT-5.5 หรือ Claude Opus 4.7 โดยโมเดลการ์ดบน Hugging Face ระบุว่า Kimi K2.6 ถูกประเมินด้วย thinking mode, temperature 1.0, top-p 1.0 และ context length 262,144 tokens ขณะที่คู่เทียบหลักในโมเดลการ์ดเป็น Claude Opus 4.6, GPT-5.4 และ Gemini 3.1 Pro [18]

สำหรับ DeepSeek V4 Pro จุดขายจึงไม่ใช่การเป็นแชมป์ความสามารถล้วน ๆ แต่เป็นการให้ประสิทธิภาพใกล้ frontier ในต้นทุนที่ต่ำกว่า DataCamp สรุปว่า DeepSeek V4 ยังไม่ได้เหนือกว่า GPT-5.5 หรือ Claude Opus 4.7 ใน pure capability แต่มีตำแหน่งที่น่าสนใจในฐานะโมเดล near-frontier ราคาต่ำ [16]

ราคา: อย่าผสมตัวเลขคนละชนิด

เวลาพูดว่าโมเดลไหน “ถูกกว่า” ต้องแยกตัวเลขอย่างน้อย 3 ประเภท

  1. ราคา API ต่อโทเคน — Mashable รายงานว่า DeepSeek V4 อยู่ที่ $1.74 ต่อ 1 ล้าน input tokens และ $3.48 ต่อ 1 ล้าน output tokens ส่วน GPT-5.5 อยู่ที่ $5/$30 และ Claude Opus 4.7 อยู่ที่ $5/$25 [3]

  2. คอลัมน์ Price ของ Artificial Analysis — ในตารางโอเพนโมเดล Kimi K2.6 อยู่ที่ $1.7 และ DeepSeek V4 Pro อยู่ที่ $2.2 แต่ไม่ควรนำไปเทียบตรง ๆ กับราคา API ต่อ 1 ล้านโทเคนของ Mashable เพราะเป็นคนละตัวชี้วัด [23]

  3. ต้นทุนในการรันเบนช์มาร์ก — Artificial Analysis รายงานว่าการรัน Intelligence Index มีต้นทุน $1,071 สำหรับ DeepSeek V4 Pro, $948 สำหรับ Kimi K2.6 และ $4,811 สำหรับ Claude Opus 4.7 [2]

ดังนั้นคำสรุปอย่าง “DeepSeek ถูกกว่า” หรือ “Claude แพงกว่า” ต้องถามต่อเสมอว่าหมายถึงราคา API, ต้นทุนประเมินเบนช์มาร์ก หรือค่าใช้จ่ายจริงใน workflow ที่มีจำนวน output tokens และจำนวนรอบการเรียกโมเดลต่างกัน [2][3][23]

ความปลอดภัยและความน่าเชื่อถือ: เป็นอีกแกนหนึ่ง ไม่ใช่คะแนนเดียวกับความเก่ง

Claude Opus 4.7 มีสัญญาณด้านความน่าเชื่อถือที่น่าสนใจ Mashable รายงานตามคำกล่าวของ Anthropic ว่า Claude Opus 4.7 มี honesty rate 92% และมีแนวโน้ม sycophancy น้อยลง [15] ฝั่ง Anthropic ยังระบุว่า Claude Opus 4.7 ทำคะแนนรวม 0.715 ใน internal research-agent benchmark แบบ 6 โมดูล ซึ่งเป็นคะแนนร่วมอันดับสูงสุด และในโมดูล General Finance เพิ่มจาก 0.767 ของ Opus 4.6 เป็น 0.813 [17]

แต่ตัวเลขเหล่านี้ไม่ใช่คะแนนชนิดเดียวกับ SWE-Bench Pro, GPQA Diamond หรือ BrowseComp เมื่อใช้งานจริง ควรแยกดูอย่างน้อย 5 เรื่อง: ความสามารถ, ราคา, ความเร็ว, ความเสี่ยงด้าน hallucination และความง่ายในการตรวจสอบย้อนหลัง [15][17]

ใช้งานจริง: routing หลายโมเดลมักปลอดภัยกว่ายึดโมเดลเดียว

ใน production การเลือกโมเดลเดียวให้ทำทุกอย่างอาจไม่คุ้มที่สุด MindStudio รายงานว่าในงาน coding ชุดเดียวกัน GPT-5.5 ใช้ output tokens น้อยกว่า Claude Opus 4.7 ถึง 72% แต่ก็ระบุด้วยว่าในงานโค้ดเบสขนาดใหญ่ที่ซับซ้อนและต้องใช้ reasoning สูง ความละเอียดรอบคอบของ Opus 4.7 อาจคุ้มกับต้นทุนที่สูงขึ้น [28]

แนวทางที่สมเหตุสมผลคือใช้ routing: งานสร้างหรือแก้ไขมาตรฐาน งาน terminal และงานที่ต้องเรียกหลายรอบเริ่มจาก GPT-5.5; งานรีวิวลึก งานตัดสินใจเชิงผู้เชี่ยวชาญ หรือเคสที่ต้องการความละเอียดเริ่มจาก Claude Opus 4.7; งานทดลองโอเพนเวตที่เน้นความเร็วและราคาลอง Kimi K2.6; ส่วนงานเอกสารยาวมากหรือ batch ปริมาณสูงให้ลอง DeepSeek V4 Pro [3][4][23][28]

บทสรุป: ไม่มีผู้ชนะเดี่ยว มีแต่ผู้ชนะตามงาน

จากข้อมูลสาธารณะตอนนี้ การเลือก GPT-5.5, Claude Opus 4.7, DeepSeek V4 Pro หรือ Kimi K2.6 แบบผู้ชนะเดียวไม่ใช่วิธีที่ปลอดภัยที่สุด ภาพที่ชัดกว่าคือ GPT-5.5 เด่นในงานรวมและงานมูลค่าทางเศรษฐกิจ, Claude Opus 4.7 เด่นใน reasoning และงานรีวิว, Kimi K2.6 เด่นในความเร็วและความคุ้มค่าฝั่งโอเพนเวต, ส่วน DeepSeek V4 Pro เด่นที่ context ยาวและราคา API ของตระกูล DeepSeek V4 ที่ต่ำกว่าโมเดลปิดชั้นนำ [3][4][23][26][27]

ยังมีรายละเอียดที่ต้องอ่านอย่างระวัง แม้ใน Artificial Analysis เอง หน้าโมเดล GPT-5.5 high ระบุ Intelligence 59 ขณะที่หน้ารวมโมเดลระบุ Claude Opus 4.7 Adaptive Reasoning, Max Effort ที่ Intelligence 57 เป็นผู้นำ ซึ่งสะท้อนว่าช่วงเวลาอัปเดตและการตั้งค่า reasoning มีผลต่อภาพที่เห็น [27][30] ทางเลือกที่มั่นคงที่สุดคือใช้เบนช์มาร์กเป็นจุดเริ่มต้น แล้วรันงานจริงของคุณเองแบบเล็ก ๆ เทียบกัน โดยดูงบประมาณ latency และระดับความผิดพลาดที่ยอมรับได้ควบคู่กัน [4][18][28]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • ยังไม่ควรอ่านผลเป็นตารางผู้ชนะอันดับเดียว เพราะเบนช์มาร์กแต่ละชุดใช้เงื่อนไข reasoning เวลาอัปเดต และแหล่งคะแนนต่างกัน ควรเลือกตามงานมากกว่า [4][18]
  • GPT 5.5 เด่นในภาพรวมและงานมูลค่าทางเศรษฐกิจ โดย GPT 5.5 high ได้ Intelligence 59 และ GPT 5.5 xhigh ได้ Elo 1785 ใน GDPval AA ส่วน Claude Opus 4.7 นำ GPT 5.5 ใน 6 จาก 10 เบนช์มาร์กร่วมตาม LLM Stats [4][26][27]
  • Kimi K2.6 เด่นในฝั่งโอเพนเวตด้านความเร็วและราคา โดย Artificial Analysis ให้ Intelligence 54 และ 112 tokens/s ขณะที่ DeepSeek V4 Pro เด่นที่ context 1M และตระกูล DeepSeek V4 มีราคา API ต่ำกว่า GPT 5.5 และ Claude Opus 4...

人々も尋ねます

「GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6: เทียบเบนช์มาร์กแบบใช้งานจริง」の短い答えは何ですか?

ยังไม่ควรอ่านผลเป็นตารางผู้ชนะอันดับเดียว เพราะเบนช์มาร์กแต่ละชุดใช้เงื่อนไข reasoning เวลาอัปเดต และแหล่งคะแนนต่างกัน ควรเลือกตามงานมากกว่า [4][18]

最初に検証する重要なポイントは何ですか?

ยังไม่ควรอ่านผลเป็นตารางผู้ชนะอันดับเดียว เพราะเบนช์มาร์กแต่ละชุดใช้เงื่อนไข reasoning เวลาอัปเดต และแหล่งคะแนนต่างกัน ควรเลือกตามงานมากกว่า [4][18] GPT 5.5 เด่นในภาพรวมและงานมูลค่าทางเศรษฐกิจ โดย GPT 5.5 high ได้ Intelligence 59 และ GPT 5.5 xhigh ได้ Elo 1785 ใน GDPval AA ส่วน Claude Opus 4.7 นำ GPT 5.5 ใน 6 จาก 10 เบนช์มาร์กร่วมตาม LLM Stats [4][26][27]

次の実践では何をすればいいでしょうか?

Kimi K2.6 เด่นในฝั่งโอเพนเวตด้านความเร็วและราคา โดย Artificial Analysis ให้ Intelligence 54 และ 112 tokens/s ขณะที่ DeepSeek V4 Pro เด่นที่ context 1M และตระกูล DeepSeek V4 มีราคา API ต่ำกว่า GPT 5.5 และ Claude Opus 4...

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較:2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI38 ソース

引用された回答

提供された証拠だけでは、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6を同一ベンチマーク上で厳密に横比較するには不十分です。確認できる範囲では、GPT-5.5は「新たな首位モデル」とされる一方、Claude Opus 4.7もArtificial Analysis系の文脈で首位級と示唆されており、Kimi K2.6は一部の公開モデル比較指標のみ数値が確認できます。[3][7][34]

Key findings

モデル確認できたベンチマーク・性能情報比較上の解釈
GPT-5.5Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。[34]総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。[3][34]
Claude Opus 4.7Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。[6]安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。[4][6]
DeepSeek V4Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。[7]Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。[7]
Kimi K2.6Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。[7]4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。[7]

Evidence notes

  • Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。[2]

  • ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。[2]

  • SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。[1]

  • GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。[3][34]

Limitations / uncertainty

  • Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。[1][3][5][7][34]

  • DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。[7]

  • Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。[4]

  • Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。[7]

Summary

  • 現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。[3][34]

  • Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。[4][6]

  • Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。[7]

  • DeepSeek V4は提供証拠だけでは評価不能です。[7]

情報源