| เอกสารทางการ |
OpenAI API Reference มีเมธอด Create image edit สำหรับการแก้ไขภาพที่มีอยู่ ส่วนคู่มือ Image generation ของ OpenAI ก็จัด Edits เป็นหนึ่งในความสามารถด้านภาพ และอธิบายว่าเป็นการปรับแก้ภาพเดิม
นอกจากนี้ เอกสาร API ของ OpenAI ยังมีหน้า model สำหรับ GPT Image 2 ด้วย
หลักฐานเหล่านี้พอจะสรุปได้อย่างระมัดระวังว่า GPT Image 2 อยู่ในกลุ่มเวิร์กโฟลว์ GPT image ที่มีความสามารถด้านการแก้ไขภาพ แต่ “มี image edit” กับ “รับประกันว่าแก้เฉพาะพิกเซลใน mask เท่านั้น” เป็นคนละเรื่องกัน ประเด็นแรกคือทางเข้าของฟังก์ชัน ส่วนประเด็นหลังคือคำมั่นเรื่องความคงเดิมของภาพ ซึ่งเอกสารสาธารณะที่อ้างได้ในตอนนี้ยังไม่เพียงพอจะรองรับคำกล่าวว่า พื้นที่นอก mask จะเหมือนเดิมทุกพิกเซล
ใน OpenAI Developer Community มีการพูดคุยเกี่ยวกับ masking ของ GPT Image 2 และมีคำตอบที่ระบุว่า API ของ gpt-image-2 รองรับ mask field นั่นแปลว่า mask สามารถเป็นส่วนหนึ่งของขั้นตอนทำงานได้ แต่ไม่ได้แปลว่ามันทำหน้าที่เหมือนเส้น selection หรือ layer mask ในโปรแกรมแต่งภาพทั่วไปที่ห้ามโมเดลแตะพื้นที่นอกขอบเขตอย่างเด็ดขาด
เหตุผลคือการแก้ภาพแบบนี้ยังเป็นการแก้ไขเชิงสร้างสรรค์ ไม่ใช่การคัดลอกพิกเซลแบบกลไก รายงานจากชุมชนนักพัฒนาระบุว่า mask ใน images.edit ไม่สามารถจำกัดการเปลี่ยนแปลงให้อยู่เฉพาะพื้นที่ที่กำหนดได้เสมอ อีกความเห็นหนึ่งระบุว่า ต่างจาก DALL·E 2 การ masking ใน GPT Image มีลักษณะเป็น prompt-based guidance มากกว่า กล่าวคือโมเดลใช้ mask เป็นแนวทาง แต่ไม่ได้จำเป็นต้องทำตามอย่างสมบูรณ์
หลักฐานที่หนักขึ้นคือผลงานประเมินบน arXiv ซึ่งระบุว่าโมเดลอย่าง GPT-Image ไม่สามารถจำกัดการแก้ไขให้อยู่เฉพาะในบริเวณ mask ได้อย่างน่าเชื่อถือในงาน masked edit นี่ไม่ได้แปลว่า GPT Image 2 จะแก้เฉพาะจุดล้มเหลวทุกครั้ง แต่เพียงพอจะหักล้างคำโฆษณาแบบเด็ดขาดว่า “แก้เฉพาะตรงที่เลือกเท่านั้น ส่วนอื่นไม่เปลี่ยนแน่นอน”
การใช้ GPT Image 2 เพื่อเปลี่ยนพื้นหลังเป็นงานแก้ไขภาพที่สมเหตุสมผล เพราะเอกสาร image edit และ Edits ของ OpenAI ครอบคลุมการปรับแก้ภาพที่มีอยู่แล้ว แต่หลังได้ภาพใหม่ อย่าดูแค่ว่าพื้นหลังเปลี่ยนเป็นสไตล์ที่ต้องการหรือไม่
ควรตรวจขอบสินค้า เงา แสงสะท้อน สัดส่วน สี และดูว่าวัตถุหลักถูกตีความใหม่หรือเปลี่ยนรูปไปหรือเปล่า เพราะ mask อาจไม่สามารถจำกัดพื้นที่แก้ไขได้อย่างเสถียร วิธีปลอดภัยคือวางภาพต้นฉบับกับภาพผลลัพธ์เทียบกันทีละจุด
การแก้แพ็กเกจเหมาะกับงาน mockup การสำรวจทิศทางงานออกแบบ หรือทำหลายเวอร์ชันเพื่อเลือกแนวทาง แต่ถ้าภาพจะถูกใช้ส่งลูกค้า ใช้ในแคมเปญ หรือใช้เป็นสื่อเชิงพาณิชย์ ต้องระวังมากขึ้น
ความเสี่ยงไม่ได้มีแค่ว่าโมเดลอาจแก้แพ็กเกจไม่ตรงคำสั่ง แต่อาจเปลี่ยนโลโก้ ตัวอักษร สัดส่วน หรือรายละเอียดรอบ ๆ ที่ตั้งใจจะเก็บไว้ด้วย นี่คือเหตุผลที่ไม่ควรนำ mask ไปอธิบายเหมือนเป็นการรับประกันความแม่นยำระดับพิกเซล
ถ้าต้องการลบรอยตำหนิ เปลี่ยนวัตถุเล็ก ๆ หรือปรับเฉพาะบางจุด สามารถใช้ mask ร่วมกับ prompt ที่ชัดเจนเพื่อทดลองได้ วิธีเขียน prompt ที่ปลอดภัยกว่าคือไม่บอกแค่ว่าต้องการเปลี่ยนอะไร แต่ต้องบอกด้วยว่าอะไรห้ามเปลี่ยน เช่น ใบหน้า รูปทรงสินค้า โลโก้ ข้อความ พื้นหลัง และทิศทางแสง
ถึงอย่างนั้น ผลลัพธ์ยังเป็นการแก้ไขเชิงสร้างสรรค์ หลังสร้างภาพเสร็จจึงต้องตรวจว่าพื้นที่นอก mask หรือพื้นที่ที่ไม่ได้สั่งแก้มีการ drift หรือเปลี่ยนรายละเอียดไปหรือไม่
ถ้อยคำที่ปลอดภัยกว่าคือ: GPT Image 2 มีพื้นฐานเวิร์กโฟลว์แก้ไขภาพ และสามารถใช้ร่วมกับ mask หรือ prompt ที่ระบุตำแหน่งเพื่อพยายามแก้เฉพาะจุดได้ แต่ข้อมูลสาธารณะยังไม่สนับสนุนการรับประกันว่าโมเดลจะแก้เฉพาะพิกเซลหรือเฉพาะบริเวณที่กำหนด โดยที่พื้นที่อื่นไม่เปลี่ยนเลย
ควรหลีกเลี่ยงการพูดว่า GPT Image 2 รับประกันการเปลี่ยนเฉพาะพื้นหลัง แพ็กเกจ หรือจุดที่เลือก โดยส่วนอื่นของภาพเหมือนเดิมทั้งหมด สำหรับภาพสินค้า ภาพแพ็กเกจ และสื่อเชิงพาณิชย์ แนวทางที่มั่นคงกว่าคือใช้มันเป็นเครื่องมือแก้ไขภาพเชิงสร้างสรรค์ที่ช่วยทำงานเร็วขึ้น แล้วตามด้วยการตรวจคุณภาพโดยมนุษย์เพื่อยืนยันว่าไม่มีส่วนที่ไม่ควรเปลี่ยนถูกแก้ไปโดยไม่ตั้งใจ
Comments
0 comments