講 AI 圖像模型,最易被「更真」、「更似相」、「大躍進」呢類字眼帶住走。今次關於 GPT Image 2 是否比 GPT Image 1.5 更 photorealistic,現有資料可以支持嘅結論其實窄好多:OpenAI 有正式文件介紹 GPT Image 1.5 同 GPT 圖像生成/編輯工作流程;但關於 GPT Image 2 嘅材料,主要係第三方爆料、預期升級、商業頁面或較籠統嘅性能說法。本文覆核到嘅來源,未見有一個受控、可重複嘅 GPT Image 2 對 GPT Image 1.5 寫實度基準測試。[1][
11][
12][
19][
20][
21][
22][
24]
結論:未證實
現時未有足夠證據話 GPT Image 2 一定比 GPT Image 1.5 更具相片寫實感。呢個係「未證實」,唔係話 GPT Image 2 較差。
欠缺嘅關鍵係一個直接、可重複嘅比較:同一批提示詞、相近生成設定、多次輸出、盲測評審,並且用專門量度「相片寫實度」嘅評分方法。OpenAI 現有來源有記錄 GPT Image 1.5 及 API 工作流程,但未提供官方 GPT Image 2 寫實度對比。[1][
11][
12][
15][
16][
17]
OpenAI 文件實際確認咗啲乜
OpenAI 嘅 GPT Image 1.5 模型頁將 GPT Image 1.5 描述為「state-of-the-art image generation model」,並稱佢係 OpenAI 最新嘅圖像生成模型,具備更好嘅指令跟從能力同 prompt adherence。[1]
OpenAI 圖像生成指南列出兩個核心流程:用文字 prompt 由零生成圖片,以及編輯已有圖片。[12] API 參考文件亦描述圖像編輯輸入同參數,例如 model、生成張數、quality、output format 等 GPT image model 工作流程會用到嘅設定。[
11] OpenAI cookbook 同 prompting 材料亦示範咗實際 GPT 圖像工作流,包括遮罩編輯同 GPT Image 1.5 prompt 例子。[
15][
16][
17]
呢啲資料可以證明產品能力同用法,但唔能夠證明 GPT Image 2 比 GPT Image 1.5 更寫實;因為當中未見 GPT Image 2 官方模型頁、官方 GPT Image 2 benchmark,亦未見兩者 head-to-head 嘅寫實度研究。[1][
11][
12][
15][
16][
17]
點解 GPT Image 2 嘅講法未夠力
本文覆核到嘅 GPT Image 2 頁面,未提供足以驗證「寫實度升級」嘅證據。
其中一篇以爆料同工作流程建議包裝 GPT Image 2。[19] 另一篇討論「可預期」嘅升級,包括文字渲染同相機控制改善。[
20] MindStudio 文章話 GPT Image 2 喺文字渲染方面似乎領先,但呢個只係較窄嘅能力,唔等同整體相片寫實度。[
21] JXP 文章提出更強講法,包括「99%+」文字準確度、預期原生 4K 輸出,以及寫實度有重大躍升;但所提供片段未見可重複評估方法,亦未見直接同 GPT Image 1.5 比較。[
22] Higgsfield 頁面則以商業圖像生成同「perfect text」作賣點推廣 GPT Image 2。[
24]
問題在於:文字渲染、prompt 跟從、解像度、商業可用性,全部都唔等於相片寫實度。一個模型可以更識排字、聽指令,甚至輸出更高解像度,但仍然未必喺光線、陰影、皮膚質感、材質、鏡頭感同物理一致性上可量化地更似真相。現有 GPT Image 2 來源未提供 prompt set、樣本數、生成設定、盲測方法,亦未提供針對 GPT Image 1.5 嘅 photorealism 分數。[19][
20][
21][
22][
24]
最接近 benchmark 嘅訊號,反而提示要小心
資料中較有排行榜性質嘅來源係 Artificial Analysis。其 Text to Image Arena 片段顯示,GPT Image 1.5 (high) 目前以 Elo 1274 排第一;排名根據盲測用戶投票計算,Elo 越高代表模型更常被用戶偏好。[33]
呢個對「用戶偏好」有參考價值,但仍然唔能夠證明 GPT Image 2 更寫實。原因係:呢個片段顯示嘅係整體 text-to-image 偏好排行榜,唔係 GPT Image 2 對 GPT Image 1.5 嘅專門寫實度 benchmark。[33]
證據逐項睇
| 證據 | 支持到乜 | 證明唔到乜 |
|---|---|---|
| OpenAI GPT Image 1.5 模型頁 | GPT Image 1.5 由 OpenAI 正式記錄為 state-of-the-art 圖像生成模型,並具備更好指令跟從同 prompt adherence。[ | 冇比較 GPT Image 1.5 同 GPT Image 2。[ |
| OpenAI 圖像生成同 API 文件 | OpenAI 支援圖像生成同圖像編輯流程,API 材料列出 model、quality、output format 等參數。[ | 工作流程文件唔係寫實度 benchmark。[ |
| OpenAI cookbook 同 prompting 指南 | 材料展示 GPT 圖像使用方式、遮罩、GPT Image 1.5 prompt 例子。[ | 冇提供 GPT Image 2 並排寫實度測試。[ |
| 第三方 GPT Image 2 頁面 | 討論爆料、預期升級、文字渲染、商業使用同廣泛性能聲稱。[ | 覆核到嘅片段未提供受控 GPT Image 2 vs GPT Image 1.5 寫實度評估。[ |
| Artificial Analysis Text to Image Arena | GPT Image 1.5 (high) 在盲測偏好排行榜以 Elo 1274 列首位。[ | 呢度未顯示為 GPT Image 2 對 GPT Image 1.5 嘅寫實度專項比較。[ |
咩先算係有力證明?
如果要認真判斷 GPT Image 2 是否比 GPT Image 1.5 更寫實,測試應該將「寫實度」同其他能力分開。最低限度應該包括:
- 同一批 prompt。 題材應涵蓋人物、產品、室內、戶外、低光、反射、不同材質同容易出錯嘅邊界情況。
- 可比嘅生成設定。 如果用 API 測試,應清楚記錄 model、quality、output format 同其他相關參數。[
11]
- 每個 prompt 多次輸出。 唔應該由一張特別靚或者特別差嘅圖決定勝負。
- 盲測。 評審唔應該知道邊張圖由邊個模型生成。Artificial Analysis Arena 使用盲測用戶投票,雖然佢提供嘅排行榜唔直接回答今次問題,但方法上有參考價值。[
33]
- 專門寫實度評分表。 應分開評光線、陰影、鏡頭表現、皮膚同材質紋理、物理一致性、反射同可見瑕疵,而唔好同文字準確度或 prompt 服從度混埋一齊。
- 公開成功例子同失敗例子。 只揀靚圖做 gallery,唔足以證明模型整體更強。
對實際團隊嘅建議
如果你正評估圖像模型用於產品、廣告、電商圖、社交內容或內部設計流程,應先將「GPT Image 2 更寫實」視為有待驗證嘅假設。OpenAI 來源可以畀你一個 GPT Image 1.5 嘅文件化基線,亦講清楚生成同編輯流程;但佢哋未證明 GPT Image 2 有寫實度升級。[1][
11][
12]
如果兩個模型都可以喺同一工作流使用,最實際做法係用你自己嘅 prompt 做同題盲測。正式轉 production workflow 前,唔好只因為第三方頁面話「寫實度大躍進」就轉。寫 marketing copy 時,除非你有透明 benchmark 支持,否則亦唔應該直接宣稱 GPT Image 2 比 GPT Image 1.5 更 photorealistic。[19][
20][
21][
22][
24]
一句講晒
GPT Image 2 將來可能證明更強,但以本文覆核到嘅證據,暫時未能確認佢比 GPT Image 1.5 更具相片寫實感。較穩陣嘅講法係:GPT Image 1.5 有 OpenAI 官方文件支持;Artificial Analysis 將 GPT Image 1.5 (high) 以 Elo 1274 列為盲測 Text to Image Arena 首位;但未有覆核來源證明 GPT Image 2 喺寫實度上勝過 GPT Image 1.5。[1][
33]




