另外,OpenAI API reference 入面有 screenshot 類型的 response schema,例如 type、file_id、image_url 等欄位。[46] 但這只是 API response 結構,不是 UI mockup 生成質素的比較證據;它不能用來推論 GPT Image 2 做 app screenshot 會更像真實產品畫面。
| 需要的證據 | 為何重要 |
|---|---|
| 同 prompt side-by-side | 同一個 UI prompt 分別由 GPT Image 1.5 同 GPT Image 2 生成,先可以公平比較。 |
| UI 專門 benchmark | 應量度 UI fidelity、細字可讀性、版面一致性、component consistency,而不只是整體美感。 |
| 盲測偏好結果 | Reviewer 不知道圖片來自哪個模型,評分才較少受「新模型應該更好」影響。 |
| 場景分組結果 | App screenshot、marketing hero、desktop scene、wireframe mockup 可能各有不同勝負。 |
因此,較準確的結論不是「GPT Image 2 沒有進步」,而是:就 app screenshot/UI mockup 自然度而言,現有公開文件不足以證明它穩定優於 GPT Image 1.5。
UI 圖像的自然感不只是「靚唔靚」。一張看起來吸引的產品圖,可能仍然有錯字、假 icon、變形 device frame、失真的 browser chrome,或者不合理的 dashboard layout。產品團隊可以把「自然」拆成以下 rubrics:
| 評分項目 | 應檢查什麼 |
|---|---|
| UI 排版 | spacing、alignment、visual hierarchy 是否像真實產品畫面。 |
| 文字可讀性 | 細字、label、數字、CTA 是否出現亂碼、變形或語意不一致。 |
| Component 一致性 | button、icon、tab、card、input style 是否前後一致。 |
| Screenshot realism | 是否太像概念海報、3D render 或電影場景,而不像真 app 截圖。 |
| Desktop realism | 視窗、menu bar、browser chrome、cursor、背景物件是否合理。 |
| Prompt adherence | 是否跟足指定平台、比例、內容、品牌限制與畫面結構。 |
這樣評估比單問「邊個自然啲」更有用,因為同一模型可能在 marketing hero image 更吸引,但在細字密集 dashboard 上更易出錯。
OpenAI Cookbook 有 image evals 相關材料,可作為設計 image generation/editing 評測流程的參考;但該材料本身並不是 GPT Image 2 vs GPT Image 1.5 的 UI benchmark。[53]
實務上,可以用一個小型但可重複的流程:
如果你今日要決定是否由 GPT Image 1.5 轉去 GPT Image 2,保守做法是將 GPT Image 2 視為候選升級模型,而不是已被公開證據證實的 UI screenshot 升級。
如果 GPT Image 2 在你自己的 prompt pack 盲測中,穩定贏出 UI 排版、細字可讀性、component consistency 同 screenshot realism,升級就有實務理據。相反,如果結果接近,或者 GPT Image 1.5 在某些 UI 細節更穩定,繼續使用 GPT Image 1.5 亦合理。
目前最強、最安全的結論是:OpenAI 文件確認 GPT Image 2 與 GPT Image 1.5 相關模型/API 工作流存在,但未提供足夠公開證據,證明 GPT Image 2 做 app screenshot、UI mockup 或桌面介面場景必然更自然。[14][
24][
26][
36]
output: ResponseComputerToolCallOutputScreenshot%20responses%20%3E%20(model)%20response computer tool call output screenshot%20%3E%20(schema)) { type, file\ id, image\ url }. {{ "id": "resp 67cb71b351908190a308f3859487620d06981a8637e6bc44", "id": "resp 67cb...
No extra text.\n", metadata={}, model='gpt-5.2-2025-12-11', object='response', output=[ResponseCodeInterpreterToolCall(id='ci 03756a1c45c8427000697ad91aaf108196974c45daf37a9a18', code="from PIL import Image, ImageOps\nimg1=Image.open('/mnt/data/143ba8edc474...
Comments
0 comments