今回確認できるOpenAI APIのchangelog、Models、All models関連の情報では、GPT Image 2とGPT Image 1.5について、複雑な構図、空間関係、複数物体の配置精度を定量比較した公式データは示されていません。 したがって、厳密に言えば「GPT Image 1.5には公式モデルページがあり、プロンプト追従性の向上が説明されている」とは言えても、「GPT Image 2の配置精度がX%上がった」とは言えません。
GPT Image 2については、話題そのものが存在しないわけではありません。問題は、公開情報の足並みがそろっていないことです。
Mew Designの整理は慎重で、GPT Image 2はテスト中のように見えるものの、OpenAIの名前付きモデルとして正式に一般公開されているわけではない、という見方を示しています。 getimg.aiも、OpenAIはGPT Image 2を発表しておらず、公開ラインアップはgpt-image-1.5までだと説明しています。
第三者レビューにも同じ注意点があります。RenovateQRの記事では、GPT Image 2を標準化したプロンプト群で試したとし、商品写真、UIモックアップ、多言語サイン、フォトリアルなポートレート、ブランドコンテンツなどを検証対象に挙げています。 ただし、確認できる抜粋の範囲では、複数物体の配置成功率、左右・前後関係の正答率、GPT Image 1.5との完全な対照表といった再現可能なデータは提示されていません。
そのため、最も安全な言い方はこうです。GPT Image 2の存在、テスト、公開を主張する第三者情報はある。しかし、「複雑な構図と物体配置の精度がGPT Image 1.5よりどれだけ上がったか」については、公式で再現可能な専用の数値回答はまだ確認できない、ということです。
これは「ある第三者ソースではGPT Image 2の総合スコアがGPT Image 1.5より高く示されている」という材料にはなります。しかし、これをそのまま「物体配置の精度が271ポイント上がった」「配置正答率が何%改善した」と言い換えることはできません。
理由は明確です。
つまり、記事、製品ページ、営業資料で正確に書くなら、「第三者ページではGPT Image 2のスコアがGPT Image 1.5より高く示されている」までです。「公式に、物体配置精度がX%向上した」とは書くべきではありません。
GPT Image 2がGPT Image 1.5より複雑な構図に強いかを知るには、「見た目がよい」だけでは足りません。少なくとも、次のような検証が必要です。
同じプロンプト群で両モデルを比較する
モデル名、バージョン、スナップショット、設定を明記し、異なる時期や条件の出力を混ぜないようにします。
空間関係を個別に測る
左右、前後、上下、重なり、手に持つ、中央寄せ、画面端への配置、複数物体同士の関係などを明示的に評価します。
合否基準を先に決める
物体の種類、個数、相対位置、遮蔽、比率、指定テキスト、ブランド要素の保持などを項目ごとに判定します。
ブラインド評価や複数評価者を使う
きれいなサンプルだけを選ぶ、あるいはモデル名を知っている評価者が主観で点を付ける、といった偏りを避けます。
GenerationsとEditsを分ける
OpenAIのドキュメント自体が、テキストからの新規生成と既存画像の編集を別ワークフローとして分けています。評価でも分けて記録すべきです。
こうした条件がない場合、単発のサンプル画像、SNS上のスクリーンショット、総合スコアだけでは、「配置がどれだけ正確になったか」までは判断できません。
公式または再現可能な第三者ベンチマークが出るまでは、「GPT Image 2は配置が何%改善した」と前提にしないほうが安全です。実務では、次の進め方が現実的です。
現在の公開情報から最も強く言えるのは、GPT Image 1.5にはOpenAI APIの公式モデルページがあり、プロンプト追従性の向上が説明されていること、そしてGPT Image 1は前世代の画像生成モデルとして説明されていることです。
Comments
0 comments