圖入面啲字,往往係 AI 圖由「靚 demo」變成「可以交貨」嘅分水嶺。做海報、投影片、app mockup、產品標籤、資訊圖,甚至多語廣告,唔止要畫面靚,仲要字串啱、字形清、層次分明。就目前呢批資料睇,GPT Image 2 係文字密集圖片更值得先試嘅起點;但結論要講準:未有公開、透明、同題嘅 GPT Image 2 對 GPT Image 1.5 可讀性基準測試,可以證明佢好幾多個百分點。
先講結論
如果你最怕圖入面啲字串錯、變形、對唔齊,應該先試 GPT Image 2。OpenAI 開發者提示指南用 gpt-image-2 示範生成一張投影片,要求文字高度可讀、資料層次清楚、間距精緻,而且視覺風格要似專業簡報 [23]。OpenAI Developer Community 公告亦話
gpt-image-2 係為生產工作流而設,重點係圖片要準確、可讀、合品牌、本地化、配合最終使用版面,而且唔需要大量後期清理;公告亦特別提到多語文字渲染有改善 [32]。TechCrunch 則報道 OpenAI 新聞稿聲稱 ChatGPT Images 2.0 可處理以往容易令圖像模型出錯嘅細節,包括小字、圖示、UI 元素、密集構圖同細微風格限制,最高去到 2K 解像度 [
77]。
但要留神:呢啲證據唔等於有一份公開跑分,直接用同一批提示詞量度 GPT Image 2 比 GPT Image 1.5 好幾多。今次查到嘅資料入面,未見到涵蓋拼字、字形準確度、排版、語言、輸出尺寸同失敗率嘅透明對比。呢個空位好重要,因為 GPT Image 1.5 本身發布時都已經話改善咗文字渲染,特別係密集同細字 [69]。
證據實際支持到咩程度?
| 講法 | 狀態 |
|---|---|
gpt-image-2 出現喺 OpenAI 開發者材料,用於生成可讀投影片嘅例子。 | 有支持 [ |
gpt-image-2 被定位為可用於準確、可讀、本地化嘅生產工作流。 | 有支持 [ |
| ChatGPT Images 2.0 被描述為更能處理小字、UI 元素同密集構圖,最高 2K。 | TechCrunch 引述 OpenAI 新聞稿說法支持 [ |
| GPT Image 1.5 已改善密集同細字渲染。 | 有支持 [ |
| 有公開透明基準直接比較 GPT Image 2 與 GPT Image 1.5 嘅文字可讀性分數。 | 呢批資料入面未見到。 |
點解實務上會先揀 GPT Image 2?
重點唔係「新就一定好」,而係 GPT Image 2 周邊材料講嘅用途,正正對準圖中文字最容易出事嘅場景:投影片標題同註解、app 介面標籤、產品包裝、資訊圖、多語廣告、密集版面。OpenAI Developer Community 將 gpt-image-2 描述成為生產流程而設,要求輸出準確、可讀、合品牌、本地化、可直接放到目標版面用 [32]。
OpenAI 公開介紹 ChatGPT Images 2.0 嘅頁面亦展示涉及字體排印、編輯式文字、桌面 UI 等文字密集畫面嘅例子 [31]。再加上 TechCrunch 引述 OpenAI 話 Images 2.0 可處理小字、iconography、UI 元素、密集構圖同細微風格限制 [
77],所以如果你嘅交付物真係有好多字,GPT Image 2 係較合理嘅預設選擇。
GPT Image 1.5 仍然有佢嘅位置
唔應該將 GPT Image 1.5 當成「未識出字」嘅舊模型。佢推出時,OpenAI Developer Community 公告已提到更精準嘅圖像編輯、更好嘅提示遵循,以及文字渲染改善,尤其係密集同細字 [69]。如果你只係做大標題、短標籤、簡單 mockup,或者本身有人工校對流程,GPT Image 1.5 可能已經夠用。
不過,OpenAI API 圖像生成指南仍然將文字渲染列入 GPT Image 模型嘅限制之一,當中包括 gpt-image-1.5;指南話雖然相對 DALL·E 系列有明顯改善,但模型仍可能喺精準文字擺位同清晰度方面掙扎 [47]。換言之,無論用 1.5 定 2,都唔好當佢係零錯字保證。
99% 排版準確率?先唔好照單全收
有第三方網站或社交平台聲稱 GPT Image 2 有 99% typography 或 glyph accuracy,有啲仲提到英文、CJK 或 RTL 等文字系統 [4][
7][
78]。方向上可能同大家觀察到嘅進步一致,但今次資料未見到足夠測試方法,唔應該將 99% 當成已定案嘅公開基準。
一個 99% 講法要有意思,至少要交代:提示詞集合、語言同文字系統、生成次數、輸出尺寸、模型設定、評分準則、有冇計入失敗生成,以及係咪按最終發布尺寸去判斷可讀性。否則,一個模型可以喺大字海報標題表現好靚,但去到長段落、細則、圖表標籤、UI 控件或者複雜多語版面時,仍然甩漏百出。
名稱要分清:GPT Image 2 同 ChatGPT Images 2.0
資料入面有兩組相關叫法。面向開發者嘅材料用 gpt-image-2:OpenAI 提示指南有呢個 model ID,Developer Community 公告亦話 gpt-image-2 可用於 API 同 Codex [23][
32]。面向一般用戶嘅 OpenAI 發布頁同 TechCrunch 報道,就用 ChatGPT Images 2.0 呢個名 [
31][
77]。
由於呢批資料冇一句完整官方定義,將每一項 gpt-image-2 講法同每一項 ChatGPT Images 2.0 講法逐點對應,所以最穩陣寫法係:討論重疊證據時,講 GPT Image 2 / ChatGPT Images 2.0。
咁你應該點揀?
如果你嘅成品有多個文字區、小字標籤、資訊圖文案、產品包裝字、UI 元素、簡報文字、本地化廣告或者多語內容,先用 GPT Image 2。呢個建議來自 gpt-image-2 被定位為可讀生產工作流,以及 Images 2.0 被報道為可處理小字、UI 元素同密集構圖 [32][
77]。
如果你只需要短字、大字、容易校對嘅內容,或者現有流程已經接受 GPT Image 1.5 嘅輸出,1.5 仍然值得保留。佢本身已被宣布改善密集同細字渲染 [69]。
如果文字真係影響生意,自己做同題試跑
要決定轉唔轉生產流程,最好唔好只睇 showcase 圖。可以用同一批 prompt 做一個公平測試:
- **原文複製測試:**同一段標題、副標題同短標籤,兩個模型都要照字輸出。
- **小字測試:**加入註腳、圖表標籤、UI 控件或細則,並用最終發布尺寸檢查。
- **密集版面測試:**試做資訊圖、餐牌、dashboard 或多文字區投影片。
- **編輯保留測試:**只改一個字或一行文案,睇其他畫面元素有冇漂移。
- **多語測試:**用你團隊真實會發布嘅語言同文字系統。
- **人工評分:**檢查串字、漏字、替換、可讀性、對齊,以及係咪可以唔執圖直接用。
真正贏嘅唔係最靚嗰張示範圖,而係喺你嘅提示詞、尺寸同審稿流程入面,最穩定交到正確可讀文字嘅模型。
底線
GPT Image 2 睇落係處理圖中文字嘅較佳實務選擇,尤其係密集、小字、本地化同 UI 類文字。可以負責任咁講嘅結論係:OpenAI 相關材料將 GPT Image 2 / ChatGPT Images 2.0 放喺可讀生產輸出同細節文字處理脈絡入面;GPT Image 1.5 同時亦已改善密集同細字渲染;而今次資料未提供公開透明嘅 GPT Image 2 對 GPT Image 1.5 直接可讀性基準 [32][
77][
69]。




