結論から言うと、今回確認したOpenAIの公式資料で文書化されているのはGPT-5.4です。GPT-5.5「Spud」については、画像、フォーム、チャート、スキャン文書などをより強く理解する新モデルだという話が出ていますが、提供された公式ソース群ではGPT-5.5やSpudという公開モデルは確認できません [20][
23][
24]。
もちろん、これだけで「Spud」という名称が社内で一度も使われていないと断定することはできません。ここで言えるのは、Spudの公開時期、ベンチマーク性能、GPT-5.4を上回る画像・文書グラウンディング能力といった主張は、少なくとも今回の公式資料では裏付けられていない、ということです。
判定:GPT-5.5「Spud」は未確認として扱う
一次情報に近い資料を見る限り、根拠が強いのはGPT-5.4です。OpenAIのGPT-5.4モデルページは、GPT-5.4を複雑な専門業務向けのフロンティアモデルとして説明しており、最新モデルガイドとモデル一覧もGPT-5.4を案内しています [20][
23][
24]。
一方、今回確認したSpud関連の情報源は、一般のWeb記事、Reddit、X投稿、YouTube動画などです。OpenAIの公式モデルページ、モデルガイド、モデルカード、公式ベンチマーク報告ではありません [2][
3][
5][
7][
9][
12]。
AI導入や評価設計の観点では、リーク名やうわさを前提にするより、公式に文書化されたモデルで検証するほうが安全です。
主張チェック:SpudとGPT-5.4
| 確認した主張 | 判定 | ソースが示していること |
|---|---|---|
| GPT-5.5「Spud」はOpenAIの公式な公開モデルである | 未確認 | 今回確認したOpenAI公式資料はGPT-5.4を文書化しており、GPT-5.5やSpudのモデルページは確認できない [ |
| Spudは公開間近、またはすでに検証済みである | 未確認 | Spudへの言及は、一般Web記事やユーザー投稿型のSNS・動画ソースに由来する [ |
| OpenAIはマルチモーダルな文書ワークフローを文書化している | GPT-5.4について確認済み | OpenAIはGPT-5.4向けに、画像・文書理解のガイダンスと、密な画像や空間把握が必要なタスク向けのプロンプト指針を提供している [ |
| SpudはGPT-5.4よりマルチモーダル・グラウンディングに優れている | この資料では裏付けなし | 公式資料はGPT-5.4のガイダンスを示しているが、Spud固有の能力やベンチマーク根拠は示していない [ |
OpenAIが実際に文書化していること
OpenAIのGPT-5.4ページは、GPT-5.4を複雑な専門業務向けのフロンティアモデルと説明しています [20]。また、GPT-5.4のビジョンと文書理解に焦点を当てたCookbookページも提供されています [
1]。
今回取得された資料では、手書きの保険フォームからの構造化抽出、集合住宅の間取り図に対する空間推論、チャート理解、警察関連フォームからのバウンディングボックス抽出といった例が示されています [1]。
これらの例が重要なのは、実務の文書処理が単なる要約では済まないからです。信頼できる出力には、項目名と値、表のセル、グラフ上のマーク、手書き文字、文書レイアウト、位置関係といった、ページ上で確認できる証拠への結びつきが必要になります。
ただし、ここで見ているGPT-5.4資料はOpenAI自身によるガイドやデモであり、あらゆる本番文書ワークフローを対象にした独立監査済みのベンチマーク報告ではありません [1][
20][
22]。
OpenAIのプロンプト指針は、評価時にも実用的です。大きい画像、情報量が多い画像、または位置関係が重要な画像では、特にコンピューター操作、位置特定、OCR、クリック精度のタスクにおいてoriginalの画像詳細を使うよう推奨しています [22]。フォーム、スキャン、スクリーンショット、チャートを扱うワークフローでは、縮小や情報の削ぎ落としによって、モデルが確認すべき細部が失われる可能性があります。
「OCRできる」だけでは足りない理由
OCRは、画像や文書から文字を読む技術です。一方で、マルチモーダル・グラウンディングは、読んだ文字をレイアウト、位置、図表構造、視覚的な手がかり、推論と結びつけて、答えをページ上の証拠で確認できる形にすることを求めます。
研究分野の文脈でも、文書理解の評価はフォーム理解、領収書解析、文書VQAへ広がっています。VQAはVisual Question Answeringの略で、画像や文書に対して質問し、視覚情報に基づいて答えるタスクです [38]。
さらに複数ページの文書VQAでは、1ページの画像を読むだけでは足りません。関連ページを探し、文書内を移動し、必要な内容を検索し、対象ページを精査するような処理が必要になる場合があります [37]。
そのため、見栄えのよいスクリーンショット1枚のデモだけで、業務に使えるかどうかは判断できません。評価では、実際に処理する文書の種類、スキャン品質、ページ数、手書きの有無、表やグラフ、小さな文字、失敗しやすいケースまで含める必要があります。
いまOpenAIの画像・文書モデルを評価するなら
- リーク名ではなく、文書化されたモデルから始める。 今回確認した公式資料では、OpenAIの公開モデルとして確認できるのはGPT-5.4であり、GPT-5.5「Spud」は未確認です [
20][
23][
24]。
- 必要な画像情報を落とさない。 OCR、位置特定、クリック精度、コンピューター操作など、密な画像や空間把握が重要な入力では
originalの画像詳細を使うべきです [22]。
- 流暢さではなく証拠で採点する。 抽出タスクではフィールド値の一致を見ます。チャートでは値を根拠まで追えるかを確認します。フォームやスクリーンショットでは、位置が重要ならボックスや座標も求めるべきです。GPT-5.4の例にはバウンディングボックス抽出が含まれています [
1]。
- 自社・自分の実文書で試す。 評価対象にはフォーム、領収書、文書VQA型のタスクを含めるのが自然です。こうしたカテゴリは文書理解ベンチマークの文献にも登場します [
38]。
- 複数ページのケースを入れる。 複数ページ文書VQAでは、文書ナビゲーション、構造化された視覚推論、意味検索、対象ページの取得が必要になる場合があります [
37]。
- 単発プロンプトだけでなく、パイプライン全体を比べる。 タスクによっては1回のモデル呼び出しで足りる一方、OCR、レイアウト解析、検索、クロップ、ページ選択を組み合わせたほうがよい場合もあります。特に長い文書、情報量の多い文書、位置関係が重要な文書では差が出ます [
22][
37][
38]。
結論
「Spud」という名前は、うわさ寄りの情報源には登場します [2][
3][
5][
7][
9][
12]。しかし、今回確認した公式資料の範囲では、GPT-5.5「Spud」がOpenAIの公式な公開モデルであることは確認できません。
実務上の結論はシンプルです。OpenAIが文書化している画像・文書理解のワークフローについてはGPT-5.4を評価し、GPT-5.5「Spud」のマルチモーダル・グラウンディング性能に関する主張は、OpenAIが公式モデルページ、モデルガイド、モデルカード、またはベンチマーク報告を出すまで未証明として扱うべきです [1][
20][
22][
23][
24]。




