คำตัดสินแบบสั้น
ถ้าภาพที่ต้องส่งงานจริงมีข้อความเป็นส่วนสำคัญ ให้ลอง GPT Image 2 ก่อน โดยเฉพาะงานอย่างโปสเตอร์ สไลด์ โฆษณาหลายภาษา ฉลากสินค้า อินโฟกราฟิก หรือ mockup หน้าจอแอป เหตุผลคือเอกสารของ OpenAI Developers ใช้ gpt-image-2 ในตัวอย่างงานสไลด์ที่ขอให้ข้อความอ่านง่าย มีลำดับข้อมูลชัด ระยะห่างเรียบร้อย และดูเหมือนงานนำเสนอมืออาชีพ [23] ขณะที่ประกาศใน OpenAI Developer Community ระบุว่า
gpt-image-2 ถูกสร้างมาสำหรับ workflow ระดับ production ที่ภาพต้องแม่นยำ อ่านออก อยู่ในแบรนด์ รองรับการ localized จัดรูปแบบให้เข้ากับปลายทาง และใช้งานได้โดยไม่ต้องเก็บงานหนัก พร้อมชี้ถึงการเรนเดอร์ข้อความหลายภาษาที่ดีขึ้น [32]
TechCrunch ยังรายงานคำกล่าวอ้างจาก press release ของ OpenAI ว่า ChatGPT Images 2.0 สามารถจัดการองค์ประกอบละเอียดที่โมเดลสร้างภาพมักพลาด เช่น ข้อความขนาดเล็ก ไอคอน องค์ประกอบ UI layout ที่หนาแน่น และข้อกำหนดด้านสไตล์ที่ละเอียด ได้ที่ความละเอียดสูงสุด 2K [77]
แต่ต้องพูดให้แม่น: นี่ไม่ใช่หลักฐานแบบ benchmark สาธารณะว่า GPT Image 2 ดีกว่า GPT Image 1.5 กี่เปอร์เซ็นต์ แหล่งข้อมูลที่ตรวจสอบได้ในชุดนี้ยังไม่มีการทดสอบแบบ prompt เดียวกัน วัดการสะกด ความถูกต้องของตัวอักษร การจัดแนว ภาษา ขนาด output และอัตราพลาดอย่างโปร่งใส และช่องว่างนี้สำคัญ เพราะ GPT Image 1.5 เองก็ถูกประกาศว่าปรับปรุงการเรนเดอร์ข้อความ โดยเฉพาะข้อความที่แน่นและเล็ก [69]
หลักฐานบอกอะไรได้บ้าง
| ประเด็น | สถานะ |
|---|---|
gpt-image-2 ปรากฏในเอกสารนักพัฒนาของ OpenAI สำหรับงานสร้างสไลด์ที่ต้องอ่านข้อความได้ชัด | มีหลักฐานรองรับ [ |
gpt-image-2 ถูกวางตำแหน่งสำหรับ workflow production ที่ต้องการภาพแม่นยำ อ่านออก และ localized | มีหลักฐานรองรับ [ |
| ChatGPT Images 2.0 ถูกอธิบายว่าสามารถจัดการข้อความขนาดเล็ก องค์ประกอบ UI และ layout แน่น ๆ ได้ถึง 2K | มีหลักฐานในฐานะคำกล่าวอ้างของ OpenAI ที่ TechCrunch รายงาน [ |
| GPT Image 1.5 ก็ปรับปรุงการเรนเดอร์ข้อความแน่นและข้อความขนาดเล็ก | มีหลักฐานรองรับ [ |
| มี benchmark สาธารณะ โปร่งใส วัด GPT Image 2 เทียบ GPT Image 1.5 โดยตรงเรื่องความอ่านออกของข้อความ | ไม่พบในแหล่งข้อมูลที่ตรวจสอบชุดนี้ |
ทำไม GPT Image 2 จึงเป็นตัวเลือกเริ่มต้นที่ดีกว่า
ประเด็นสำคัญไม่ใช่แค่ว่าโมเดลสร้างภาพสวยกว่าเดิมหรือไม่ แต่คือมันถูกออกแบบและสื่อสารมาเพื่อใช้กับงานที่ต้องส่งจริงมากกว่า เอกสารรอบ gpt-image-2 เน้นภาพที่อ่านออก ปรับภาษาและบริบทได้ อยู่ในแบรนด์ และจัดรูปแบบให้เหมาะกับพื้นผิวปลายทาง [32] นี่คือจุดที่ AI สร้างภาพมักสะดุดพอดี เช่น หัวข้อบนสไลด์ ป้ายปุ่มใน UI ข้อความบนฉลากสินค้า คำอธิบายในอินโฟกราฟิก และ copy โฆษณาหลายภาษา
หน้าเปิดตัวสาธารณะของ OpenAI สำหรับ ChatGPT Images 2.0 ยังยกตัวอย่างภาพที่เกี่ยวข้องกับ typography ข้อความเชิงบรรณาธิการ desktop UI และฉากภาพที่มีข้อความจำนวนมาก [31] เมื่อนำมารวมกับรายงานของ TechCrunch ที่ระบุว่า Images 2.0 รับมือกับข้อความเล็ก ไอคอน องค์ประกอบ UI และองค์ประกอบภาพที่หนาแน่นได้ดีขึ้น [
77] จึงมีเหตุผลพอที่จะมองว่า GPT Image 2 / ChatGPT Images 2.0 เหมาะเป็นจุดเริ่มต้นสำหรับงานที่อ่านตัวหนังสือในภาพต้องได้จริง
แต่ GPT Image 1.5 ยังไม่ใช่รุ่นที่ควรมองข้าม
อย่าเพิ่งสรุปว่า GPT Image 1.5 คือโมเดลยุคก่อนที่ทำข้อความไม่ได้เลย ประกาศเปิดตัวของ GPT Image 1.5 ระบุว่ารุ่นนี้มีการแก้ไขภาพที่แม่นขึ้น ทำตาม prompt ได้ดีขึ้น และปรับปรุงการเรนเดอร์ข้อความ โดยเฉพาะข้อความที่แน่นและเล็ก [69]
ดังนั้นสำหรับงานง่าย ๆ เช่น headline ตัวใหญ่ ป้ายสั้น ๆ mockup พื้นฐาน หรือ workflow ที่มีคนตรวจคำผิดก่อนเผยแพร่ GPT Image 1.5 อาจยังเพียงพอ โดยเฉพาะถ้าทีมมี prompt และขั้นตอนตรวจงานที่ใช้อยู่แล้ว
อย่างไรก็ตาม คู่มือ OpenAI API ยังจัดเรื่อง text rendering ไว้ในหมวดข้อจำกัดของ GPT Image models ที่ระบุชื่อ รวมถึง gpt-image-1.5 โดยบอกว่าแม้จะดีขึ้นมากเมื่อเทียบกับตระกูล DALL·E แต่โมเดลยังอาจมีปัญหากับตำแหน่งข้อความที่แม่นยำและความชัดเจนของข้อความ [47] พูดง่าย ๆ คือ ไม่ควรมองว่าโมเดลใดพิมพ์ถูกทุกครั้งโดยอัตโนมัติ
ระวังคำกล่าวอ้างเรื่อง typography 99%
มีแหล่งข้อมูลภายนอกและโพสต์โซเชียลบางแห่งที่อ้างตัวเลขแรง ๆ เช่น ความแม่นยำของตัวอักษรหรือ typography ระดับ 99% สำหรับ GPT Image 2 [4][
7][
78] ตัวเลขเหล่านี้อาจสะท้อนทิศทางที่น่าสนใจ แต่จากหลักฐานที่ตรวจสอบได้ ยังไม่เห็นวิธีทดสอบมากพอที่จะถือเป็นข้อเท็จจริงเชิง benchmark
ถ้าจะให้คำว่า 99% มีน้ำหนักจริง benchmark ควรเปิดเผยอย่างน้อยว่าใช้ชุด prompt อะไร ทดสอบภาษาและระบบอักษรใดบ้าง สร้างกี่ภาพ ขนาด output เท่าไร ตั้งค่าโมเดลอย่างไร ให้คะแนนจากอะไร นับภาพที่พลาดหรือไม่ และประเมินตอนดูที่ขนาดเผยแพร่จริงหรือขนาดเต็ม เพราะโมเดลอาจทำ headline ขนาดใหญ่บนโปสเตอร์ได้ดีมาก แต่ยังพลาดกับ paragraph ยาว ๆ fine print label กราฟ ปุ่ม UI หรือ layout หลายภาษาที่ซับซ้อน
หมายเหตุเรื่องชื่อ: GPT Image 2 กับ ChatGPT Images 2.0
แหล่งข้อมูลใช้ชื่อไม่เหมือนกันทั้งหมด ฝั่งนักพัฒนาใช้ชื่อ gpt-image-2 โดยคู่มือ prompting ของ OpenAI ใส่ model ID นี้ไว้ในตัวอย่าง และประกาศใน OpenAI Developer Community ระบุว่า gpt-image-2 พร้อมใช้งานใน API และ Codex [23][
32] ส่วนหน้าเปิดตัวสาธารณะของ OpenAI และรายงานของ TechCrunch ใช้ชื่อ ChatGPT Images 2.0 [
31][
77]
เพราะแหล่งข้อมูลที่มีไม่ได้ให้ประโยคเดียวที่ map ทุกคำกล่าวอ้างของ gpt-image-2 เข้ากับ ChatGPT Images 2.0 อย่างเป็นทางการ วิธีพูดที่ปลอดภัยที่สุดคือใช้ GPT Image 2 / ChatGPT Images 2.0 เมื่อกล่าวถึงหลักฐานที่ทับซ้อนกัน
แล้วควรใช้รุ่นไหน
เลือก GPT Image 2 ก่อน ถ้างานของคุณมีหลายโซนข้อความ ป้ายเล็ก copy อินโฟกราฟิก ข้อความบนบรรจุภัณฑ์ องค์ประกอบ UI ข้อความในสไลด์ โฆษณาที่ต้อง localized หรือเนื้อหาหลายภาษา คำแนะนำนี้สอดคล้องกับการวางตำแหน่งของ gpt-image-2 สำหรับ workflow ที่ต้องอ่านออกและใช้งานจริง รวมถึงคำกล่าวอ้างที่รายงานว่า Images 2.0 จัดการข้อความเล็ก UI และองค์ประกอบหนาแน่นได้ดีขึ้น [32][
77]
ยังพิจารณา GPT Image 1.5 ได้ ถ้าข้อความสั้น ตัวใหญ่ ตรวจง่าย หรือ workflow ปัจจุบันของคุณให้ผลที่ยอมรับได้อยู่แล้ว เพราะรุ่นนี้เองก็ถูกประกาศว่าปรับปรุงการเรนเดอร์ข้อความแน่นและข้อความเล็ก [69]
วิธีทดสอบให้แฟร์ก่อนเปลี่ยน workflow
ถ้าความถูกต้องของข้อความกระทบงานธุรกิจ อย่าตัดสินจากภาพโชว์เคสภาพเดียว ควรทดสอบแบบชนกันด้วย prompt เดียวกัน:
- Exact-copy test: ใช้ headline, subhead และ label สั้น ๆ ชุดเดียวกันกับทั้งสองรุ่น
- Small-text test: ใส่ footnote, label กราฟ, ปุ่ม UI หรือ fine print แล้วดูที่ขนาดเผยแพร่จริง
- Dense-layout test: สร้างอินโฟกราฟิก เมนู dashboard หรือสไลด์ที่มีหลายโซนข้อความ
- Edit-preservation test: แก้ข้อความจุดเดียว แล้วดูว่าส่วนอื่นของภาพยังนิ่งหรือเพี้ยนไปด้วยหรือไม่
- Multilingual test: ใช้ภาษาและระบบตัวอักษรที่ทีมของคุณต้องส่งงานจริง ไม่ใช่แค่ภาษาอังกฤษ
- Human scoring: ให้คนตรวจการสะกด คำตก คำแทนที่ผิด ความอ่านออก การจัดแนว และดูว่าส่งงานได้โดยไม่ต้องเก็บงานเพิ่มหรือไม่
ผู้ชนะไม่ใช่โมเดลที่สร้างภาพเดโมสวยที่สุด แต่คือโมเดลที่ทำข้อความถูก อ่านออก และคงเส้นคงวาที่สุดกับ prompt ขนาดงาน และขั้นตอนตรวจของคุณ
สรุปท้ายสุด
จากหลักฐานที่มี GPT Image 2 ดูเป็นตัวเลือกที่ดีกว่าในทางปฏิบัติสำหรับข้อความในภาพ โดยเฉพาะงานที่มีข้อความแน่น ตัวเล็ก localized หรือคล้าย UI แต่ข้อสรุปที่ป้องกันการพูดเกินจริงควรแคบกว่านั้น: เอกสารและรายงานที่เชื่อมกับ OpenAI วางตำแหน่ง GPT Image 2 / ChatGPT Images 2.0 ไว้รอบงาน production ที่ต้องอ่านออกและจัดการรายละเอียดข้อความได้ดีขึ้น ขณะที่ GPT Image 1.5 ก็ปรับปรุงข้อความแน่นและข้อความเล็กอยู่แล้ว และยังไม่มี benchmark สาธารณะโปร่งใสที่วัดสองรุ่นนี้แบบ head-to-head โดยตรง [32][
77][
69]




