答え公開済み2 か月前Last edited 先月16 ソース

Cursor Composer 2.5とは？ベンチマーク性能と価格、Claude Opus 4.7・GPT‑5.5との比較

Cursorの新モデル「Composer 2.5」は2026年5月18日に公開。SWE‑Bench Multilingualで79.8%、Terminal‑Bench 2.0で69.3%と、Claude Opus 4.7やGPT‑5.5と同クラスのコーディング性能を示した。[3][4] 価格は標準で入力100万トークンあたり0.50ドル、出力2.50ドルと大幅に低コスト。長時間のAIコーディングエージェント運用の経済性を大きく変える可能性がある。[18][19][4] Moonshot AIのKimi K2.5チェックポイントをベースに、合成コーディングタスクや強化学習で追加訓練。Cursorが外部AI依存を減らす戦略の一環と...

Studio Global AIで検索して事実確認さらにトレンドページを見る

Illustration representing Cursor Composer 2.5 competing with other frontier AI coding models — Cursor Composer 2.5: Benchmarks, Pricing, and How It Stacks Up to Claude Opus 4.7 and GPT‑5.5Cursor’s Composer 2.5 aims to deliver frontier‑level coding performance while dramatically lowering the cost of running AI coding agents.
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: Cursor Composer 2.5: Benchmarks, Pricing, and How It Stacks Up to Claude Opus 4.7 and GPT‑5.5. Article summary: Cursor’s Composer 2.5 is an in‑house coding model released May 18, 2026 that scores about 79.8% on SWE‑Bench Multilingual and 69.3% on Terminal‑Bench 2.0—roughly matching Claude Opus 4.7 on some benchmarks while costi.... Topic tags: cursor, ai coding, developer tools, ai models, benchmarks. Reference image context from search candidates: Reference image 1: visual subject "Composer 2.5 matches Opus 4.7 and GPT-5.5 on CursorBench 3.1 but costs less than a dollar per task - compared to up to eleven dollars for the competition. | Image: Cursor" source context "Cursor's Composer 2.5 matches Opus 4.7 and GPT-5.5 benchmarks ..." Reference image 2: visual subject "Composer 2.5 vs Opus | The Results Are Brutal Merv
openai.com

Cursor IDEを開発するAnysphereは、2026年5月18日に新しいAIコーディングモデル 「Composer 2.5」 を公開しました。これはソフトウェア開発作業に特化したモデルで、コード生成だけでなく、リポジトリの探索・複数ファイルの編集・ターミナル操作・テストの反復など、開発者が実際に行うワークフロー全体を支援することを目的としています。

今回のリリースが注目されている理由は主に2つあります。1つは Claude Opus 4.7やGPT‑5.5と同クラスのベンチマーク性能 を示している点、もう1つは トークン価格が大幅に低いこと です。

Composer 2.5は何を目的としたモデルか

Composerシリーズは、単純なコード補完ではなく 「エージェント型ソフトウェア開発」 を想定して設計されています。つまりAIが単発でコードを出すのではなく、次のような複数ステップの作業を継続的に実行することを前提としています。

・コードベース全体を分析して変更計画を立てる
・複数ファイルを横断して編集する
・ビルドやテストを実行する
・エラーを確認して修正を繰り返す

Cursorによると、Composer 2.5は前世代モデルよりも 長時間タスクでの安定性、複雑な指示への追従、IDE内での共同作業のしやすさ が改善されています。

これは近年のAI開発ツールの流れとも一致しています。従来の「コード補完AI」から、開発作業そのものを進めるエージェント型AI へと進化しているためです。

Claude Opus 4.7・GPT‑5.5とのベンチマーク比較

公開されているベンチマーク結果では、Composer 2.5は主要モデルとほぼ同じ層に位置しています。

主なスコアは次の通りです。

SWE‑Bench Multilingual
- Composer 2.5：79.8%
- Claude Opus 4.7：80.5%
- GPT‑5.5：77.8%
Terminal‑Bench 2.0
- Composer 2.5：69.3%
- Claude Opus 4.7：69.4%
- GPT‑5.5：82.7%
CursorBench v3.1
- Composer 2.5：63.2%

これらの結果から見えるポイントは次の通りです。

SWE‑Bench Multilingual（GitHubの実際のバグ修正タスクを評価するベンチマーク）では、Composer 2.5はGPT‑5.5よりやや高く、Opus 4.7にほぼ並ぶ水準です。

一方、Terminal‑Bench 2.0（ターミナル操作を含むエージェント能力の評価）では、Opus 4.7とはほぼ同等ですが、GPT‑5.5には大きく差をつけられています。

また前世代からの改善も大きく、例えばSWE‑Bench Multilingualでは 73.7% → 79.8% と大幅に向上しました。

つまり総合的には、Composer 2.5は 一部のコーディングタスクでは最先端モデルと肩を並べる性能 を示していますが、すべての評価でトップというわけではありません。

なぜ価格が大きなインパクトを持つのか

Composer 2.5でもっとも驚かれた点は価格です。

標準モデルの料金は以下の通りです。

入力：100万トークンあたり0.50ドル
出力：100万トークンあたり2.50ドル

さらに高速版として

入力：3.00ドル / 100万トークン
出力：15.00ドル / 100万トークン

というプランも提供されています。

比較として、Claude Opusクラスのモデルは 入力約5ドル、出力約25ドル／100万トークン とされるケースがあり、標準版Composerは特に出力コストで大幅に安くなっています。

これはAIコーディングエージェントでは非常に重要です。理由は、1つのタスクでも次のような大量のモデル呼び出しが発生するためです。

・リポジトリ検索
・変更計画の生成
・コード編集
・ビルドとテスト
・エラー修正

つまり トークン消費量が非常に大きいワークロード であり、価格が下がるほどAIエージェントを長く動かせるようになります。

モデルのベースと訓練方法

Composer 2.5は Moonshot AIの「Kimi K2.5」オープンウェイトモデル をベースに構築され、その上でCursorが追加トレーニングを行っています。

報告されている訓練の特徴は次の通りです。

前世代の 約25倍の合成コーディングタスク を使用
計算資源の 約85%を追加トレーニングと強化学習 に投入

合成タスクを大量に使うことで、AIは次のような工程を何度も練習できます。

・変更計画を立てる
・コードを書き換える
・テストを実行する
・失敗を修正する

こうした反復によって、実際のソフトウェア開発に近い能力を強化する狙いがあります。

Cursorの戦略：外部AI依存からの脱却

Composer 2.5は、Cursorのビジネス戦略の面でも重要な意味を持っています。

これまでCursor IDEは、主に

OpenAI
Anthropic
Google

などの外部モデルに依存して機能を提供していました。

しかし自社モデルを持つことで、次の利点が生まれます。

・推論コストの削減
・外部プロバイダーへの依存低下
・IDEに最適化した挙動の制御

特にAnthropicの Claude Code は、モデルと開発ツールが一体化している点が強みです。CursorもComposerシリーズによって、同じ「モデル＋ツール」統合型の競争に踏み込もうとしていると考えられます。

まとめ

Composer 2.5は、すべてのベンチマークで最強というわけではありません。Terminal‑BenchではGPT‑5.5が依然として優位で、Claude Opus 4.7も依然として強力な競合です。

それでも注目される理由は明確です。

最先端に近いコーディング性能と、圧倒的に低い価格の組み合わせ。

もしCursorがこの性能向上を続けながら価格優位を維持できれば、IDE内で動くAIコーディングエージェントの経済性は大きく変わる可能性があります。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

人々も尋ねます