| Kimi K2.6 | $0.60~$0.95 | $3.00~$4.00 | $0.10 | 26.2万 |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 100万 |
| Grok 4.3 | $1.25 | $2.50 | $0.30 | 100万 |
| DeepSeek V4-Flash | $0.14 | $0.28 | $0.0028 | 100万 |
| DeepSeek V4-Pro | $0.435 (恒久割引) | $0.87 (恒久割引) | $0.0036 | 100万 |
価格から見る重要ポイント:
ベンチマークは文脈があってこそ意味を持ちます。ここでは、しばしば誤解を招く単一の総合スコアではなく、「総合知能」「コーディング能力」「エージェント性能」という測定対象ごとに結果を整理しました。
このカテゴリは、知識、数学、科学的推論の純粋な能力を測定します。
Claude Opus 4.8は、GPT-5.5に対してわずかながら明確なリードを築きました。数学の性能では、前モデルから27.4ポイントもの驚異的な飛躍を見せています 。Qwen3.7-Maxは大学院レベルの科学推論(GPQA Diamond)でトップクラスに迫り、中国発モデルのトップランナーとして際立っています
。
開発者にとって最も重要なベンチマークです。
| ベンチマーク | DeepSeek V4-Pro | Kimi K2.6 | GPT-5.5 | Claude Opus 4.8 | Qwen3.7-Max |
|---|---|---|---|---|---|
| SWE-bench Verified | 80.6% | 80.2% | 88.7% | 88.6% | 72.5% |
| SWE-bench Pro | ~58% | 58.6% | 58.6% | 69.2% | 60.6% |
| LiveCodeBench v6 | 93.5% | 89.6% | — | — | — |
コーディング性能では明確な階層化が起きています。Claude Opus 4.8とGPT-5.5は、一般的なバグ修正(SWE-bench Verified)では最上位で並びますが、より難易度の高いProセットでは、Claudeが他を10ポイント以上引き離して独走しています 。一方、コーディングの費用対効果で見れば、DeepSeek V4-Proは右に出るものがありません。GPT-5.4クラスの性能を30分の1の価格で提供しているのです
。
実環境で自律的に行動するモデルの能力です。
| ベンチマーク | GPT-5.5 | Gemini 3.5 Flash | Claude Opus 4.8 | Qwen3.7-Max | Grok 4.3 |
|---|---|---|---|---|---|
| GDPval-AA Elo | 1769 | 1656 | 1890 | — | 1500 |
| Terminal-Bench 2.0/2.1 | 82.7% | 76.2% | 74.6% | 69.7% | — |
| τ²-Bench (指示追従性) | — | — | — | — | 98% |
GPT-5.5は、端末操作を伴うオープンエンドなエージェントタスクでは今なお最強の座を維持しています。しかし、Claude Opus 4.8が「GDPval-AA Elo(実タスク評価)」で示した圧倒的なスコアは、ビジネスでの実運用においてより信頼できる「相棒」となる可能性を示唆しています 。Grok 4.3は、指示追従性が求められる大量のタスクにおいて、魅力的な低予算オプションとなります
。
もはや価格だけでなく、能力でも競争に加わっています。Qwen3.7-Maxは、エージェントコーディングのベンチマーク「SWE-bench Pro」で全モデル中トップの60.6%を記録 。Kimi K2.6も同テストでGPT-5.5と同等の性能を示し、さらに「Humanity's Last Exam (HLE)」ではツール使用時のスコアで全モデルをリード(54.0%)
しています。中国発のモデルは、価格面で圧倒的な優位性を保ちつつ、中核的な推論タスクにおいて米国発の最先端モデルに挑戦状を叩きつけているのです。
あなたの優先順位が、選ぶべきモデルを決めます。
重要なのは、実際の本番環境に導入する前には、必ずご自身の固有のワークロードでテストを実行することです。ベンダーが公表するベンチマークは、あくまで有用な参考値であり、決定的な答えではないのです。
Comments
0 comments