DeepSeek V4とGPT-5.5を比べるとき、最初に見るべきなのは「どちらがランキングで上か」だけではありません。実務で重要なのは、どの公開データをどこまで信じ、どのワークロードに使うかです。コーディングエージェント、長文ドキュメント処理、ツール呼び出しを伴う業務フロー、根拠付きのQAでは、重視すべき指標が変わります。
公開情報を見る限り、GPT-5.5はAPI導入の見通しを立てやすいモデルです。OpenAIのAPIドキュメントには、モデルID gpt-5.5、1Mトークンのコンテキスト、128Kトークンの最大出力、入力$5/MTok・出力$30/MTok、Functions、Web search、File search、Computer useといったツール対応が明記されています [22]。一方、DeepSeek V4 Proは別の軸で目立ちます。Artificial Analysisは同モデルをopen weightsと説明し、テキスト入力・テキスト出力、1mトークンのコンテキストをサポートするとしています [
35]。
まず結論:本番APIならGPT-5.5、重み公開が必須ならDeepSeek V4 Pro
APIで本番運用する前提なら、GPT-5.5の方が評価しやすい状況です。コンテキスト長、最大出力、価格、ツール対応といった設計・見積もりに必要な条件が、OpenAIの公式ドキュメントにまとまっているためです [22]。
一方で、open weightsが必須条件ならDeepSeek V4 Proは試す価値があります。ただし、ここでいうopen weightsは、あくまでArtificial AnalysisがDeepSeek V4 Proをそう分類しているという意味です。学習データ、学習コード、運用パイプラインまで全てが公開されていることを自動的に意味するわけではありません [35]。
「総合ベンチマークでどちらが勝つか」と聞かれると、現時点では慎重に見るべきです。公開されている材料は、第三者記事によるSWE-bench Verifiedの比較 [2]、Artificial Analysisの仕様・評価情報 [
33][
41]、OpenAIのAPI仕様と安全性関連ドキュメント [
22][
24] などに分かれており、完全に同一条件で走らせた独立比較が十分にそろっているとは言い切れません。
公開情報を並べると何が分かるか
DeepSeekのAPIドキュメントには、2026年4月24日付で「DeepSeek-V4 Preview Release」が掲載されています [13]。OpenAIは2026年4月23日にGPT-5.5を発表し、4月24日の更新でGPT-5.5とGPT-5.5 ProがAPIで利用可能になったと記しています [
27]。公開時期はほぼ同じですが、外部から確認できる情報の粒度には差があります。
| 観点 | GPT-5.5 | DeepSeek V4 Pro | 実務での読み方 |
|---|---|---|---|
| 公開状況 | 2026年4月23日に発表、4月24日にAPI提供開始 [ | DeepSeek-V4 Preview Releaseが2026年4月24日付で掲載 [ | リリース時期はほぼ同時 |
| API仕様 | gpt-5.5、1Mコンテキスト、128K最大出力、入力$5/MTok・出力$30/MTok、公式ツール対応 [ | テキスト入力・出力、1mトークンのコンテキスト [ | GPT-5.5の方が費用、出力上限、tool-useを計画しやすい |
| 公開度 | Artificial AnalysisはGPT-5.5 highをproprietaryと分類 [ | Artificial AnalysisはDeepSeek V4 Proをopen weightsと分類 [ | 重み公開を重視するならDeepSeekが候補になる |
| コンテキスト | OpenAI API docsでは1Mトークン [ | Artificial Analysisでは1mトークン [ | どちらも長文コンテキストを前提に検討できる |
| 画像入力 | Artificial Analysisの比較ではGPT-5.5 highが画像入力に対応 [ | 同比較ではDeepSeek V4 Pro highは画像入力非対応 [ | マルチモーダル入力が必要ならGPT-5.5寄り |
| ツール対応 | Functions、Web search、File search、Computer use [ | 同等の公式ツール対応表は、今回の参照ソースでは確認できない | エージェント型ワークフローではGPT-5.5が組み込みやすい |
注意したいのは、数字の出どころです。OpenAI API docsはGPT-5.5のコンテキストを1Mトークンとしています [22]。一方、Artificial AnalysisのGPT-5.5 highとDeepSeek V4 Pro highの比較では、GPT-5.5 highが922kトークン、DeepSeek V4 Pro highが1000kトークンと表示されています [
41]。モデルのバリアント、reasoning level、コンテキストの定義が違う可能性があるため、複数サイトの数値を単純に足し合わせて判断するのは避けるべきです。
ベンチマークはどこまで信じてよいか
SWE-bench Verified:コーディングでは重要なシグナル
o-megaの総合記事は、SWE-bench VerifiedでGPT-5.5が88.7%、DeepSeek V4-Proが80.6%だったと報告しています。差は8.1ポイントです [2]。ソフトウェアエンジニアリング系のワークロードを重視するなら、これは無視しにくいシグナルです。
ただし、SWE-benchの1スコアだけで導入判断を完了するのは危険です。コーディングエージェントの結果は、プロンプト、reasoning level、ツール権限、リトライ回数、テストの走らせ方、パッチ形式、採点ハーネスによって大きく変わります。したがって、この88.7%対80.6%は「まずGPT-5.5から試す理由」にはなりますが、「全タスクでGPT-5.5が勝つ証明」ではありません [2]。
OpenAIのSystem Card:評価範囲は広いが、DeepSeekとの直接対決ではない
OpenAI Deployment Safety Hubは、GPT-5.5のcontrollabilityをCoT-Controlで測定していると説明しています。この評価スイートは、GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verifiedなどの既存ベンチマークから構成された1万3000件超のタスクを含みます [24]。
これはGPT-5.5がどのような範囲で評価されているかを知るうえで有用です。しかし、DeepSeek V4 Proと同一条件で横並びにした表ではありません。つまり、この情報だけを根拠に、GPT-5.5がDeepSeek V4よりGPQAやMMLU-Proで上だ、あるいは下だとは言えません [24]。
AA-Omniscience:DeepSeek V4 Proは知識面で改善、ただしハルシネーションに注意
Artificial Analysisは、DeepSeek V4 Pro MaxがAA-Omniscienceで-10を記録し、V3.2 Reasoningの-21から11ポイント改善したとしています。DeepSeek V4 Flash Maxは-23です [33]。同時に、DeepSeek V4 ProとV4 Flashのハルシネーション率はそれぞれ94%、96%とされ、答えを知らない場合でもほぼ常に回答してしまう傾向が示されています [
33]。
これは、社内QA、法務・金融・医療関連文書、コンプライアンス文書、根拠付き回答が必要な検索拡張生成などでは大きな論点です。DeepSeek V4 Proはopen weightsと長いコンテキストが魅力ですが、事実性が重要な用途では、retrieval、引用チェック、ソース確認、人間によるレビューを組み合わせる設計が必要になります [33][
35]。
用途別:どちらを選ぶべきか
GPT-5.5を選びやすいケース
GPT-5.5は、APIで早く組み込みたいチーム、費用と出力上限を見積もりたいチーム、公式のtool-useを前提にエージェントを作るチームに向いています。OpenAI API docsには、モデルID、価格、コンテキスト、最大出力、知識カットオフ日、Functions、Web search、File search、Computer useが明記されています [22]。
また、コーディングエージェントでは、第三者記事のSWE-bench VerifiedでGPT-5.5がDeepSeek V4-Proを上回ったというシグナルがあります [2]。ただし、実際に採用する前には、自社のリポジトリ、テスト、コード規約、レビュー基準で再評価すべきです。
画像入力や公式ツール連携が重要な場合も、現時点の参照ソースではGPT-5.5の方が選びやすい状況です。Artificial Analysisの比較ではGPT-5.5 highが画像入力に対応し、DeepSeek V4 Pro highは非対応とされています [41]。加えて、OpenAI API docsはGPT-5.5のFunctions、Web search、File search、Computer use対応を明記しています [
22]。
DeepSeek V4 Proを試す価値が高いケース
DeepSeek V4 Proは、open weightsを前提に検証したい場合に有力な候補です。Artificial Analysisは、DeepSeek V4 Proを2026年4月リリースのopen weightsモデルとし、テキスト入力・出力と1mトークンのコンテキストをサポートすると説明しています [35]。
一方で、事実確認型の用途では慎重さが必要です。Artificial Analysisが示したDeepSeek V4 Proの94%というハルシネーション率は、回答をそのままユーザーに出す設計には向かない可能性を示唆します [33]。使うなら、検索、引用、検証、レビューの層を明確に分けるべきです。
導入前にやるべき社内ベンチマーク
公開ベンチマークは出発点にすぎません。実際にトラフィックを流す、APIを購入する、デフォルトモデルにする前に、少なくとも次の条件をそろえて評価するのが現実的です。
- モデルとreasoning levelを固定する。 OpenAI docsはGPT-5.5にnone、low、medium、high、xhighのreasoning levelを示しています [
22]。Artificial Analysisの比較ページもlow、medium、highなどを分けています [
3][
37][
41]。
- 同じプロンプト、同じデータ、同じ採点ハーネスを使う。 片方だけ最適化済みプロンプトで走らせる比較は、公平な判断材料になりません。
- ツール利用の条件をそろえる。 コーディングエージェントでは、テスト実行の可否、リトライ回数、複数ファイル編集の可否だけでも結果が変わります。
- 正答率だけでなく運用上の失敗も測る。 フォーマット崩れ、出力の安定性、トークンコスト、レイテンシ、人間レビューが必要になる割合も重要です。
- ハルシネーション専用のテストを持つ。 DeepSeek V4 Pro/FlashではAA-Omniscience上のハルシネーション率が非常に高いため、事実性評価は別枠で行うべきです [
33]。
- 自社の実データを入れる。 日本語の問い合わせ、日本語ドキュメント、日本語コメントを含むコードベースを扱うなら、それらを社内evalに含めるべきです。
最終判断
API本番運用、tool-useを伴うコーディングエージェント、最大出力や価格を明確に見積もりたい用途では、GPT-5.5から検証を始めるのが現実的です [22]。open weightsが必須で、事実確認やレビューの仕組みを自前で組めるなら、DeepSeek V4 Proは十分に試す価値があります [
33][
35]。
「DeepSeek V4とGPT-5.5のどちらがベンチマークで勝つのか」という問いへの最も正確な答えは、現時点では「全面的に断定できるだけの公開・独立・同一条件のデータはまだ足りない」です。いま見えている範囲では、SWE-bench Verifiedの第三者報告ではGPT-5.5が優勢 [2]、API仕様と公式ツール対応でもGPT-5.5が見積もりやすく [
22]、DeepSeek V4 Proはopen weightsと長いコンテキストで存在感を持つ、という整理になります [
35]。




