← Back to Trending

答え公開済み6 日前Last edited 一昨日20 ソース

Qwen3.7 Max vs DeepSeek V4 vs Kimi K2.6：2026年最強AIモデルをベンチマークと価格で徹底比較

コーディング性能は三つ巴：SWE Bench Verifiedでは全モデルが80%台の超僅差。Qwen3.7 MaxはTerminal Benchで、DeepSeek V4 Pro MaxはLiveCodeBenchでそれぞれリード。推論能力のトップはQwen3.7 Max：数学コンペHMMT 2026で97.1%、GPQA Diamondで92.4%を記録し、純粋な推論タスクで最強の座に。

Studio Global AIで検索して事実確認さらにトレンドページを見る

422K0

Comparison chart of Qwen3.7-Max, DeepSeek V4, and Kimi K2.6 AI model benchmarks and pricing data — Research for benchmarks of Qwen3.7-Max, DeepSeek V4, Kimi K2.6A data-driven comparison of benchmarks and pricing for the three leading Chinese AI models in mid-2026.
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: Research for benchmarks of Qwen3.7-Max, DeepSeek V4, Kimi K2.6. Compare them as comprehensively as possible on both benchmarks & pricing in. Article summary: Here is the comprehensive comparison of Qwen3.7-Max, DeepSeek V4, and Kimi K2.6 across benchmarks and pricing — all data sourced from public results released between April–June 2026.. Topic tags: deepresearch, government, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek V4 vs Qwen, GPT, Claude, Kimi and MiniMax: Which Model Wins in 2026. DeepSeek V4 is out — Pro and Flash tiers, MIT license, 1M context, and pricing that undercuts the fr" source context "DeepSeek V4 vs Qwen, GPT-5.5, Claude 4.7, Kimi K2.6 (2026)" Reference image 2: visual subject "# Kimi K2.6 vs Qwen3.7-Max v
openai.com

2026年4月から6月にかけて、中国発の大規模言語モデル（LLM）が相次いでリリースされ、その性能競争はかつてないほど激化しています。本記事では、アリババの「Qwen3.7 Max」、DeepSeekの「DeepSeek V4 Pro Max」、Moonshot AIの「Kimi K2.6 Thinking」という最前線の3モデルに焦点を当て、公開されているベンチマークとAPI価格を包括的に比較します。

各モデルの強みと弱みをデータに基づいて深掘りし、どのような開発シナリオに最適かを見極めていきましょう。

主要ベンチマーク比較表

ソフトウェア工学 & エージェント型コーディング

ベンチマーク	Qwen3.7 Max	DeepSeek V4 Pro Max	Kimi K2.6 Thinking	備考
SWE-Bench Verified	80.4	80.6	80.2

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

人々も尋ねます

「Qwen3.7 Max vs DeepSeek V4 vs Kimi K2.6：2026年最強AIモデルをベンチマークと価格で徹底比較」の短い答えは何ですか?

コーディング性能は三つ巴：SWE Bench Verifiedでは全モデルが80%台の超僅差。Qwen3.7 MaxはTerminal Benchで、DeepSeek V4 Pro MaxはLiveCodeBenchでそれぞれリード。

最初に検証する重要なポイントは何ですか?

コーディング性能は三つ巴：SWE Bench Verifiedでは全モデルが80%台の超僅差。Qwen3.7 MaxはTerminal Benchで、DeepSeek V4 Pro MaxはLiveCodeBenchでそれぞれリード。推論能力のトップはQwen3.7 Max：数学コンペHMMT 2026で97.1%、GPQA Diamondで92.4%を記録し、純粋な推論タスクで最強の座に。

次の実践では何をすればいいでしょうか？

圧倒的な価格破壊力を持つDeepSeek V4 Pro：出力トークン価格は$0.87/1Mと競合の数分の一。オープンウェイトでの提供も最大の魅力。

情報源

Comments

0 comments

Loading comments...

ベンチマーク	Qwen3.7 Max	DeepSeek V4 Pro Max	Kimi K2.6 Thinking	備考
AA Intelligence Index v4.0	56.6 (世界5位)	52.0	—	Artificial Analysis社による総合的なAI知能指数。Qwenが中国モデルで最高位。
GPQA Diamond	92.4	—	—	大学院レベルの高度な科学的推論問題。
HLE (Humanity's Last Exam)	41.4	37.7	54.0 (ツール使用時)	人類最後の試験と称される超難問集。ツール活用時のKimiが最強。
HMMT 2026 (数学)	97.1%	95.2%	92.7%	ハーバードとMIT主催の高校生向け数学大会の超難問。Qwenが驚異の正答率。
AIME 2026	—	—	96.4%	アメリカ数学招待試験。Kimiが高いスコアを記録。
IMOAnswerBench	90.0	89.8	—	数学オリンピックレベルの問題解答能力。DeepSeekがわずかにリード。
Apex Math Reasoning	44.5	—	—	最先端の数学的推論ベンチマーク。
Chinese SimpleQA	—	84.4	75.9	中国語の事実に基づく質問応答。DeepSeekが中国語に強い。
DeepSearchQA (F1)	—	—	92.5	深いWebリサーチと情報合成能力。Kimiが他を圧倒。

価格項目	Qwen3.7 Max	DeepSeek V4 Pro Max	Kimi K2.6 Thinking	備考
入力 (キャッシュミス)	$2.50	$0.435 ($1.74 恒常価格)	$0.95	初回のプロンプト送信コスト。DeepSeekが圧倒的に安い。
出力	$7.50	$0.87 ($3.48 恒常価格)	$4.00	モデルの生成コスト。KimiがQwenより安く、DeepSeekが桁違いに安い。
キャッシュヒット (入力)	$0.25 (-90%割引)	$0.0036 (-99%割引)	$0.16 (-83%割引)	システムプロンプト等の再利用時の割引価格。DeepSeekはほぼ無料に近い。
コンテキストウィンドウ	100万トークン	100万トークン	25.6万トークン	一度に処理できる入力情報量。Kimiのみ狭い点に注意。
最大出力トークン数	65,536	384,000	—	一回のAPI呼び出しで生成可能な最大テキスト量。DeepSeekが長文生成に強い。
オープンウェイト	なし (APIのみ)	あり (Hugging Face)	あり	モデルデータを自社サーバーで動かせるか。

Qwen3.7 Max vs DeepSeek V4 vs Kimi K2.6：2026年最強AIモデルをベンチマークと価格で徹底比較 | 答え | Studio Global AI