เอกสารอ้างอิงภาพของ OpenAI ยังใช้ถ้อยคำว่าโมเดลสามารถสร้างภาพใหม่จาก prompt และ/หรือ input image ซึ่งสนับสนุนแนวคิดว่าเวิร์กโฟลว์นี้รับภาพเป็นอินพุตได้ ไม่ใช่ text-to-image เพียงอย่างเดียว สำหรับ GPT Image 2 โดยตรง Replicate ระบุว่าโมเดลสามารถสร้างภาพจากข้อความหรือแก้ไขภาพที่มีอยู่ได้ และ fal.ai มี endpoint
openai/gpt-image-2/edit พร้อมตัวอย่าง request ที่ส่งทั้ง prompt และ image_urls
หลักฐานจากเอกสารทางการของ OpenAI ที่ตรวจสอบแล้วชัดที่สุดในระดับ “ประเภทเวิร์กโฟลว์” คือ มีการแยก image generation กับ image editing เป็นคนละการทำงาน นอกจากนี้ snippet ของ reference ฝั่ง edit ยังกล่าวถึงผลลัพธ์ที่ส่งกลับโดยค่าเริ่มต้นสำหรับ “GPT image models” ซึ่งช่วยเชื่อม edit method กับตระกูลโมเดลภาพของ GPT แม้ snippet นั้นไม่ได้แจกแจงความสามารถทั้งหมดของ GPT Image 2 แบบครบถ้วนด้วยตัวเอง
ประเด็นนี้สำคัญสำหรับนักพัฒนา เพราะงาน edit เริ่มจากภาพเดิมแล้วสร้างภาพผลลัพธ์ใหม่ ส่วนงาน generation เริ่มจากพรอมป์ข้อความอย่างเดียว ดังนั้นหากอธิบาย GPT Image 2 ว่าเป็นแค่โมเดลสร้างภาพใหม่จากข้อความ จะไม่ครบถ้วนเมื่อหน้า integration ของ GPT Image 2 ที่ตรวจสอบระบุการแก้ไขภาพเดิมไว้อย่างชัดเจน
ถ้าต้องเขียนสเปกหรือเอกสารให้ทีม คำที่ปลอดภัยที่สุดคือ input image หรือ “ภาพอินพุต” เพราะครอบคลุมได้มากกว่า ส่วนคำว่า “อัปโหลด” อาจทำให้เข้าใจว่า endpoint ต้องรับไฟล์โดยตรงเสมอ ทั้งที่ตัวอย่างของ fal.ai สำหรับ GPT Image 2 edit ใช้พารามิเตอร์ image_urls ซึ่งยืนยันได้ว่า integration นั้นรับ URL ของรูปเป็นอินพุต
ในทางกลับกัน ถ้อยคำของ OpenAI กว้างกว่า โดยกล่าวถึง prompt และ/หรือ input image แต่ snippet ที่มีอยู่ไม่ได้แสดงรายละเอียด transport ทั้งหมดของ native OpenAI API สำหรับ GPT Image 2 ดังนั้นไม่ควรสรุปอัตโนมัติว่า parameter ของผู้ให้บริการรายหนึ่ง เช่น
image_urls จะตรงกับ schema ของ OpenAI โดยตรงทุกประการ
ก่อนนำขึ้น production ควรตรวจสอบหน้าโมเดล GPT Image 2 และเอกสาร image edit ของ OpenAI เวอร์ชันปัจจุบันอีกครั้ง เพราะ snippet ที่ตรวจสอบจากหน้าโมเดลไม่ได้แสดง schema, input limits หรือ availability ตามบัญชีแบบครบถ้วน
OpenAI GPT Image cookbook อธิบายเวิร์กโฟลว์แก้ไขภาพที่สามารถส่ง mask ได้ หากไม่ต้องการให้โมเดลเปลี่ยนบางส่วนของภาพอินพุต แต่เอกสารเดียวกันเตือนว่าโมเดลอาจยังแก้บางส่วนภายใน mask ได้ และถ้าต้องการ mask ที่แม่นยำจริง ๆ ควรใช้โมเดล image segmentation ช่วย
สรุปคือ mask เหมาะสำหรับ “กำกับทิศทาง” การแก้ไข ไม่ใช่หลักประกันว่าพื้นที่ที่ปิดไว้จะไม่เปลี่ยนแม้แต่พิกเซลเดียว
image_urls ว่าเป็นพารามิเตอร์ที่ยืนยันแล้วสำหรับ integration ของ fal.ai ไม่ใช่ชื่อพารามิเตอร์สากลของ OpenAI API เสมอไป GPT Image 2 สามารถใช้แก้ไขภาพอินพุตที่ส่งเข้าไปได้ จึงไม่ควรถูกอธิบายว่าเป็นโมเดลสร้างภาพใหม่จากข้อความเท่านั้น หลักฐานระดับเวิร์กโฟลว์มาจากเอกสาร OpenAI เรื่อง edit และ input image ส่วนตัวอย่างที่เจาะจง GPT Image 2 ชัดที่สุดมาจาก Replicate และ fal.ai อย่างไรก็ตาม นักพัฒนายังควรตรวจสอบ schema และข้อจำกัดล่าสุดของ native OpenAI API ก่อนนำไปใช้งานจริง
Comments
0 comments