DeepSeekのAPIドキュメントには、2026年4月24日付で「DeepSeek-V4 Preview Release」が掲載されています 。OpenAIは2026年4月23日にGPT-5.5を発表し、4月24日の更新でGPT-5.5とGPT-5.5 ProがAPIで利用可能になったと記しています
。公開時期はほぼ同じですが、外部から確認できる情報の粒度には差があります。
注意したいのは、数字の出どころです。OpenAI API docsはGPT-5.5のコンテキストを1Mトークンとしています 。一方、Artificial AnalysisのGPT-5.5 highとDeepSeek V4 Pro highの比較では、GPT-5.5 highが922kトークン、DeepSeek V4 Pro highが1000kトークンと表示されています
。モデルのバリアント、reasoning level、コンテキストの定義が違う可能性があるため、複数サイトの数値を単純に足し合わせて判断するのは避けるべきです。
o-megaの総合記事は、SWE-bench VerifiedでGPT-5.5が88.7%、DeepSeek V4-Proが80.6%だったと報告しています。差は8.1ポイントです 。ソフトウェアエンジニアリング系のワークロードを重視するなら、これは無視しにくいシグナルです。
ただし、SWE-benchの1スコアだけで導入判断を完了するのは危険です。コーディングエージェントの結果は、プロンプト、reasoning level、ツール権限、リトライ回数、テストの走らせ方、パッチ形式、採点ハーネスによって大きく変わります。したがって、この88.7%対80.6%は「まずGPT-5.5から試す理由」にはなりますが、「全タスクでGPT-5.5が勝つ証明」ではありません 。
OpenAI Deployment Safety Hubは、GPT-5.5のcontrollabilityをCoT-Controlで測定していると説明しています。この評価スイートは、GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verifiedなどの既存ベンチマークから構成された1万3000件超のタスクを含みます 。
これはGPT-5.5がどのような範囲で評価されているかを知るうえで有用です。しかし、DeepSeek V4 Proと同一条件で横並びにした表ではありません。つまり、この情報だけを根拠に、GPT-5.5がDeepSeek V4よりGPQAやMMLU-Proで上だ、あるいは下だとは言えません 。
Artificial Analysisは、DeepSeek V4 Pro MaxがAA-Omniscienceで-10を記録し、V3.2 Reasoningの-21から11ポイント改善したとしています。DeepSeek V4 Flash Maxは-23です 。同時に、DeepSeek V4 ProとV4 Flashのハルシネーション率はそれぞれ94%、96%とされ、答えを知らない場合でもほぼ常に回答してしまう傾向が示されています
。
これは、社内QA、法務・金融・医療関連文書、コンプライアンス文書、根拠付き回答が必要な検索拡張生成などでは大きな論点です。DeepSeek V4 Proはopen weightsと長いコンテキストが魅力ですが、事実性が重要な用途では、retrieval、引用チェック、ソース確認、人間によるレビューを組み合わせる設計が必要になります 。
GPT-5.5は、APIで早く組み込みたいチーム、費用と出力上限を見積もりたいチーム、公式のtool-useを前提にエージェントを作るチームに向いています。OpenAI API docsには、モデルID、価格、コンテキスト、最大出力、知識カットオフ日、Functions、Web search、File search、Computer useが明記されています 。
また、コーディングエージェントでは、第三者記事のSWE-bench VerifiedでGPT-5.5がDeepSeek V4-Proを上回ったというシグナルがあります 。ただし、実際に採用する前には、自社のリポジトリ、テスト、コード規約、レビュー基準で再評価すべきです。
画像入力や公式ツール連携が重要な場合も、現時点の参照ソースではGPT-5.5の方が選びやすい状況です。Artificial Analysisの比較ではGPT-5.5 highが画像入力に対応し、DeepSeek V4 Pro highは非対応とされています 。加えて、OpenAI API docsはGPT-5.5のFunctions、Web search、File search、Computer use対応を明記しています
。
DeepSeek V4 Proは、open weightsを前提に検証したい場合に有力な候補です。Artificial Analysisは、DeepSeek V4 Proを2026年4月リリースのopen weightsモデルとし、テキスト入力・出力と1mトークンのコンテキストをサポートすると説明しています 。
一方で、事実確認型の用途では慎重さが必要です。Artificial Analysisが示したDeepSeek V4 Proの94%というハルシネーション率は、回答をそのままユーザーに出す設計には向かない可能性を示唆します 。使うなら、検索、引用、検証、レビューの層を明確に分けるべきです。
公開ベンチマークは出発点にすぎません。実際にトラフィックを流す、APIを購入する、デフォルトモデルにする前に、少なくとも次の条件をそろえて評価するのが現実的です。
API本番運用、tool-useを伴うコーディングエージェント、最大出力や価格を明確に見積もりたい用途では、GPT-5.5から検証を始めるのが現実的です 。open weightsが必須で、事実確認やレビューの仕組みを自前で組めるなら、DeepSeek V4 Proは十分に試す価値があります
。
Comments
0 comments