これらの結果から見えるポイントは次の通りです。
SWE‑Bench Multilingual(GitHubの実際のバグ修正タスクを評価するベンチマーク)では、Composer 2.5はGPT‑5.5よりやや高く、Opus 4.7にほぼ並ぶ水準です。
つまり総合的には、Composer 2.5は 一部のコーディングタスクでは最先端モデルと肩を並べる性能 を示していますが、すべての評価でトップというわけではありません。
Composer 2.5でもっとも驚かれた点は価格です。
標準モデルの料金は以下の通りです。
さらに高速版として
これはAIコーディングエージェントでは非常に重要です。理由は、1つのタスクでも次のような大量のモデル呼び出しが発生するためです。
・リポジトリ検索
・変更計画の生成
・コード編集
・ビルドとテスト
・エラー修正
つまり トークン消費量が非常に大きいワークロード であり、価格が下がるほどAIエージェントを長く動かせるようになります。
報告されている訓練の特徴は次の通りです。
合成タスクを大量に使うことで、AIは次のような工程を何度も練習できます。
・変更計画を立てる
・コードを書き換える
・テストを実行する
・失敗を修正する
こうした反復によって、実際のソフトウェア開発に近い能力を強化する狙いがあります。
Composer 2.5は、Cursorのビジネス戦略の面でも重要な意味を持っています。
これまでCursor IDEは、主に
しかし自社モデルを持つことで、次の利点が生まれます。
・推論コストの削減
・外部プロバイダーへの依存低下
・IDEに最適化した挙動の制御
特にAnthropicの Claude Code は、モデルと開発ツールが一体化している点が強みです。CursorもComposerシリーズによって、同じ「モデル+ツール」統合型の競争に踏み込もうとしていると考えられます。
Composer 2.5は、すべてのベンチマークで最強というわけではありません。Terminal‑BenchではGPT‑5.5が依然として優位で、Claude Opus 4.7も依然として強力な競合です。
それでも注目される理由は明確です。
最先端に近いコーディング性能と、圧倒的に低い価格の組み合わせ。
もしCursorがこの性能向上を続けながら価格優位を維持できれば、IDE内で動くAIコーディングエージェントの経済性は大きく変わる可能性があります。
Comments
0 comments