จากแหล่งข้อมูลที่ตรวจสอบ ยังไม่พอจะพูดได้ว่า GPT Image 2 สร้างภาพที่สมจริงกว่า GPT Image 1.5 คำตัดสินจึงเป็น “ยังพิสูจน์ไม่ได้” ไม่ใช่ข้อสรุปว่า GPT Image 2 แย่กว่า
สิ่งที่ยังขาดคือการเปรียบเทียบโดยตรงและทำซ้ำได้ เช่น ใช้พรอมป์ชุดเดียวกัน ตั้งค่าใกล้เคียงกัน สร้างหลายภาพต่อพรอมป์ ให้ผู้ประเมินดูแบบไม่รู้ว่าเป็นโมเดลใด และมีเกณฑ์ให้คะแนนที่วัด “ความเหมือนภาพถ่ายจริง” โดยเฉพาะ เอกสาร OpenAI ที่ตรวจสอบยืนยัน GPT Image 1.5 และเวิร์กโฟลว์ API แต่ไม่ได้ให้การเปรียบเทียบด้าน photorealism ของ GPT Image 2 อย่างเป็นทางการ
หน้าโมเดล GPT Image 1.5 ของ OpenAI ระบุว่า GPT Image 1.5 เป็น “state-of-the-art image generation model” และบอกว่าเป็นโมเดลสร้างภาพล่าสุดของ OpenAI พร้อมความสามารถด้านการทำตามคำสั่งและการยึดตามพรอมป์ที่ดีขึ้น
คู่มือ image generation ของ OpenAI อธิบายเวิร์กโฟลว์หลัก 2 แบบ คือการสร้างภาพจากพรอมป์ข้อความ และการแก้ไขภาพที่มีอยู่แล้ว ส่วน API reference อธิบายอินพุตและพารามิเตอร์สำหรับงานแก้ไขภาพ เช่น โมเดล จำนวนภาพ คุณภาพ และรูปแบบไฟล์เอาต์พุตในเวิร์กโฟลว์ของโมเดลภาพตระกูล GPT
เอกสาร cookbook และคู่มือ prompting ยังครอบคลุมการใช้งานจริง เช่น การแก้ไขภาพด้วย mask และตัวอย่างพรอมป์สำหรับ GPT Image 1.5
หลักฐานเหล่านี้ยืนยันความสามารถของผลิตภัณฑ์ได้ในระดับหนึ่ง แต่ยังไม่ยืนยันว่า GPT Image 2 สมจริงกว่า GPT Image 1.5 เพราะไม่มีหน้าโมเดล GPT Image 2 อย่างเป็นทางการ ไม่มีเบนช์มาร์ก GPT Image 2 อย่างเป็นทางการ และไม่มีการศึกษาแบบเทียบหัวต่อหัวเรื่องความสมจริงในแหล่งข้อมูลที่ตรวจสอบ
หน้าข้อมูลเกี่ยวกับ GPT Image 2 ในชุดแหล่งข้อมูลที่ตรวจสอบยังไม่ให้หลักฐานระดับที่ใช้ยืนยันคำกล่าวอ้างด้านความสมจริงได้
แหล่งหนึ่งนำเสนอ GPT Image 2 ผ่านกรอบข่าวหลุดและคำแนะนำเวิร์กโฟลว์ อีกแหล่งพูดถึงสิ่งที่ “คาดว่า” จะอัปเกรด เช่น การเรนเดอร์ข้อความและการควบคุมกล้อง
บทความของ MindStudio ระบุว่าการปรับปรุงด้านการเรนเดอร์ข้อความของ GPT Image 2 ดูเหมือนจะทำให้โมเดลนำหน้าในมิตินั้น แต่ข้อนี้แคบกว่าคำว่า “ภาพสมจริงกว่า”
บทความของ JXP ใช้คำกล่าวอ้างแรงกว่า เช่น ความแม่นยำของข้อความ “99%+” เอาต์พุต 4K แบบ native ที่คาดหวัง และการก้าวกระโดดด้าน photorealism แต่เนื้อหาที่ให้มายังไม่มีวิธีประเมินที่ทำซ้ำได้ หรือการเทียบ GPT Image 1.5 โดยตรง
ส่วนหน้าของ Higgsfield นำเสนอ GPT Image 2 ในเชิงการใช้งานเชิงพาณิชย์และ “perfect text”
ประเด็นสำคัญคือ การเรนเดอร์ตัวอักษร การทำตามพรอมป์ ความละเอียดของภาพ และความเหมาะกับงานเชิงพาณิชย์ ไม่ใช่สิ่งเดียวกับความสมจริงแบบภาพถ่าย โมเดลหนึ่งอาจเก่งขึ้นมากเรื่องตัวหนังสือหรือการทำตามคำสั่ง โดยที่ยังไม่ได้พิสูจน์ว่าสมจริงกว่าในเชิงวัดผล แหล่งข้อมูล GPT Image 2 ที่ตรวจสอบไม่ได้ให้ชุดพรอมป์ จำนวนตัวอย่าง การตั้งค่าการสร้างภาพ วิธีรีวิวแบบ blind หรือคะแนนเฉพาะด้าน photorealism เมื่อเทียบกับ GPT Image 1.5
แหล่งข้อมูลที่มีลักษณะใกล้เคียงเบนช์มาร์กที่สุดในชุดนี้คือ Artificial Analysis โดย snippet ของ Text to Image Arena ระบุว่า GPT Image 1.5 (high) อยู่ลำดับนำด้วยคะแนน Elo 1274 และอันดับมาจากคะแนนโหวตแบบ blind user votes ซึ่ง Elo ที่สูงกว่าหมายถึงผู้ใช้เลือกโมเดลนั้นบ่อยกว่า
นี่เป็นข้อมูลที่มีน้ำหนักในแง่ “ความชอบโดยรวมของผู้ใช้” ภายในสนามทดสอบนั้น แต่ยังไม่พิสูจน์ว่า GPT Image 2 สมจริงกว่า GPT Image 1.5 เพราะ snippet ที่มีเป็นลีดเดอร์บอร์ด text-to-image โดยรวม ไม่ใช่เบนช์มาร์กเฉพาะ photorealism ที่เทียบ GPT Image 2 กับ GPT Image 1.5 โดยตรง
ถ้าจะตัดสิน GPT Image 2 เทียบ GPT Image 1.5 อย่างจริงจัง ควรแยก “ความสมจริงแบบภาพถ่าย” ออกจากจุดแข็งด้านอื่น เช่น ตัวหนังสือหรือการทำตามคำสั่ง อย่างน้อยควรมีองค์ประกอบเหล่านี้:
ถ้าคุณกำลังประเมินโมเดลสร้างภาพสำหรับงานโปรดักชัน ควรมองคำกล่าวอ้างว่า GPT Image 2 สมจริงกว่าเป็น “สมมติฐาน” จนกว่าจะตรวจสอบได้เอง เอกสารของ OpenAI ให้ baseline ที่เป็นทางการสำหรับ GPT Image 1.5 และอธิบายเวิร์กโฟลว์การสร้าง/แก้ไขภาพ แต่ไม่ได้พิสูจน์ว่า GPT Image 2 อัปเกรดด้านความสมจริง
สำหรับการทดสอบภายใน ให้รันสองโมเดลด้วยพรอมป์ของทีมเอง หากทั้งสองโมเดลเข้าถึงได้ในเวิร์กโฟลว์เดียวกัน สำหรับการย้ายระบบผลิตจริง ไม่ควรเปลี่ยนเพียงเพราะหน้าบุคคลที่สามบอกว่า “สมจริงขึ้นแบบก้าวกระโดด” และสำหรับข้อความการตลาด ควรหลีกเลี่ยงการระบุว่า GPT Image 2 สมจริงกว่า เว้นแต่คุณมีเบนช์มาร์กที่โปร่งใสรองรับคำกล่าวอ้างนั้น
GPT Image 2 อาจพิสูจน์ได้ในอนาคตว่าแข็งแกร่งกว่า แต่หลักฐานที่ตรวจสอบในตอนนี้ยังไม่ยืนยันว่ามันสร้างภาพสมจริงกว่า GPT Image 1.5 ข้อสรุปที่พูดได้อย่างปลอดภัยกว่าคือ GPT Image 1.5 มีเอกสารทางการจาก OpenAI, Artificial Analysis ระบุว่า GPT Image 1.5 (high) นำใน Text to Image Arena แบบ blind-vote ด้วย Elo 1274 และยังไม่มีแหล่งข้อมูลที่ตรวจสอบซึ่งพิสูจน์ว่า GPT Image 2 เหนือกว่า GPT Image 1.5 ด้าน photorealism
Comments
0 comments