เวลานำ GPT Image 2 ไปใช้กับรูปคน รูปสินค้า หรือภาพสำหรับลงโซเชียล คำถามสำคัญมักไม่ใช่แค่ว่า “แก้ภาพได้ไหม” แต่คือ “แก้แค่จุดเล็ก ๆ แล้วส่วนอื่นไม่เพี้ยนได้แน่หรือเปล่า”
คำตอบที่ตรวจสอบได้ในตอนนี้ควรพูดแบบระมัดระวัง: เอกสาร API ของ OpenAI มีหน้าโมเดล GPT Image 2 จริง [2] และตัวอย่างของ OpenAI Developers อธิบายเวิร์กโฟลว์แก้ภาพด้วย mask สำหรับ GPT Image [
15] แต่เอกสารทางการไม่ได้รับรองว่า mask จะทำหน้าที่เป็นตัวล็อกพื้นที่แบบพิกเซลต่อพิกเซล [
15]
สรุปก่อน: mask คือตัวช่วยชี้เป้า ไม่ใช่กุญแจล็อกภาพ
ในบริบทของการแก้ภาพด้วย AI, mask คือวิธีบอกโมเดลว่าบริเวณไหนควรถูกแก้หรือควรถูกหลีกเลี่ยง ไม่ใช่เลเยอร์ล็อกแบบที่คนทำงานกราฟิกอาจคุ้นจากซอฟต์แวร์แต่งภาพทั่วไป
ตัวอย่างของ OpenAI Developers ระบุว่าผู้ใช้สามารถใส่ mask ได้ หากไม่ต้องการให้โมเดลเปลี่ยนบางส่วนของภาพต้นฉบับ [15] แต่ข้อจำกัดอยู่ในเอกสารเดียวกัน: OpenAI เตือนว่าแม้ใช้ mask แล้ว โมเดลก็ยังอาจแก้บางส่วนที่อยู่ใน mask ได้ เพียงแต่จะพยายามหลีกเลี่ยง [
15]
ถ้าต้องการ mask ที่แม่นยำจริง ๆ เอกสารทางการแนะนำให้ใช้โมเดล image segmentation หรือโมเดลแยกวัตถุ/แยกพื้นที่ภาพเข้ามาช่วย [15] ดังนั้นคำอธิบายที่ปลอดภัยที่สุดคือ GPT Image ใช้ mask เพื่อ “กำกับ” การแก้เฉพาะจุดได้ แต่ไม่ควรมองว่า mask เป็นการรับประกันว่าส่วนอื่นของภาพจะไม่ถูกแตะเลย [
15]
เอกสารทางการยืนยันอะไรบ้าง
มี 3 เรื่องที่เอกสารทางการรองรับได้ชัดเจน
-
GPT Image 2 เป็นโมเดลที่ปรากฏในเอกสาร API ของ OpenAI หน้าเอกสารโมเดลของ OpenAI มีรายการ GPT Image 2 [
2] ข้อนี้ยืนยันการมีอยู่ของโมเดลในเอกสาร API แต่ไม่ได้แปลว่าในการแก้ภาพทุกครั้ง โมเดลจะรักษาใบหน้า แสง คอมโพส หรือพื้นที่ที่ไม่ได้เลือกไว้ได้สมบูรณ์ [
2][
15]
-
GPT Image มีตัวอย่างการแก้ภาพด้วย mask เอกสารตัวอย่างของ OpenAI Developers ระบุว่าสามารถให้ mask กับโมเดลได้ หากไม่ต้องการให้โมเดลเปลี่ยนบางส่วนของภาพต้นฉบับ และเมื่อใช้ mask ก็ยังต้องใช้ prompt หรือคำสั่งข้อความควบคู่กัน [
15]
-
เอกสารไม่ได้บอกว่า mask แม่นระดับพิกเซล ตรงกันข้าม เอกสารเตือนว่าโมเดลอาจยังแก้บางส่วนใน mask ได้ และถ้าต้องการขอบเขตที่แน่นอนควรใช้ image segmentation model [
15]
แล้วเรื่องหน้าคน แสง และคอมโพสล่ะ
ถ้าความต้องการคือ “ลบรอยเล็ก ๆ บนเสื้อ แต่หน้า สีผิว แสง ฉากหลัง และองค์ประกอบภาพต้องเหมือนเดิมทั้งหมด” หลักฐานทางการที่มีอยู่ยังไม่พอจะรับประกันระดับนั้น [2][
15]
mask อาจช่วยลดโอกาสที่พื้นที่ที่อยากเก็บไว้จะถูกเปลี่ยน แต่ถ้อยคำในเอกสารคือโมเดลจะ “หลีกเลี่ยง” ไม่ใช่ “ไม่มีวันเปลี่ยน” [15] ความต่างนี้สำคัญมาก โดยเฉพาะกับงานที่ผิดเพี้ยนเล็กน้อยก็มีผล เช่น ภาพบุคคล ภาพสินค้า โลโก้ แพ็กเกจที่มีตัวอักษร ภาพติดบัตร หรือภาพเชิงพาณิชย์ที่ต้องการแสงและสัดส่วนคงที่
สำหรับภาพประเภทนี้ ไม่ควรตัดสินแค่ว่าภาพที่ AI สร้างออกมาดูสวยหรือดูธรรมชาติ แต่ควรเก็บไฟล์ต้นฉบับไว้ แล้วตรวจเทียบทีละภาพว่ารายละเอียดใบหน้า ขอบสินค้า ตัวอักษร โลโก้ สัดส่วน และทิศทางแสงถูกเปลี่ยนไปหรือไม่ นี่เป็นการควบคุมความเสี่ยงที่สอดคล้องกับข้อจำกัดเรื่อง mask ที่ OpenAI ระบุไว้ [15]
รายงานจากชุมชนนักพัฒนาบอกอะไรได้ และบอกอะไรไม่ได้
ใน OpenAI Developer Community มีหลายกระทู้ที่เกี่ยวกับการใช้ mask กับ gpt-image-1 โดยผู้ใช้รายงานปัญหา เช่น mask edits รักษาพื้นที่เดิมได้ไม่ดี, mask ไม่สามารถจำกัดการแก้เฉพาะบริเวณที่ต้องการ, inpainting with a mask กลายเป็นการแทนที่ทั้งภาพ หรือ mask ถูกมองว่าไม่ทำงานตามคาด [3][
4][
9][
10]
มีความเห็นหนึ่งในชุมชนอธิบายว่า masking ของ GPT Image เป็นลักษณะ prompt-based หรืออาศัยคำสั่งเป็นหลัก และโมเดลยังสร้างภาพใหม่ทั้งภาพ โดยพยายามวาดพื้นที่ที่ไม่ถูกแก้ให้ใกล้เคียงต้นฉบับมากที่สุด ความเห็นนั้นยังระบุด้วยว่าโมเดลอาจไม่ทำตามรูปทรงของ mask ได้อย่างสมบูรณ์ [6]
อย่างไรก็ตาม ข้อมูลเหล่านี้ส่วนใหญ่พูดถึง gpt-image-1 และเป็นรายงานจากชุมชนนักพัฒนา ไม่ใช่คำมั่นด้านประสิทธิภาพอย่างเป็นทางการของ OpenAI สำหรับ GPT Image 2 [3][
4][
6][
9][
10] จึงไม่ควรสรุปตรง ๆ ว่า GPT Image 2 ต้องมีปัญหาแบบเดียวกันเสมอ แต่รายงานเหล่านี้สอดคล้องกับคำเตือนในเอกสารทางการว่า mask อาจไม่แม่นยำสมบูรณ์ [
15]
ควรมองคำโฆษณาแนว “แก้ระดับพิกเซล” อย่างไร
มีเว็บไซต์ภายนอกที่อธิบาย “GPT Image 2 Edit” ว่าสามารถแก้ภาพอ้างอิงด้วยคำสั่งภาษาธรรมชาติ และใช้ถ้อยคำอย่าง “surgical pixel-level edits” พร้อมระบุว่าไม่ต้องใช้ masks, layers หรือ Photoshop [5]
คำอธิบายแบบนี้อาจใช้ดูทิศทางการทำตลาดได้ แต่ถ้าคำถามคือ “จะแก้แค่จุดเล็ก ๆ และรับประกันว่าส่วนอื่นไม่เปลี่ยนได้ไหม” ควรให้น้ำหนักกับเอกสารทางการของ OpenAI และผลทดสอบของงานตัวเองมากกว่า [15]
กล่าวให้ชัดคือ ข้อมูลทางการรองรับว่า GPT Image ใช้ mask เพื่อกำกับการแก้ภาพเฉพาะส่วนได้ แต่ไม่รองรับคำกล่าวว่า mask จะรับประกันว่าพื้นที่ที่ไม่ได้ต้องการแก้จะไม่ถูกโมเดลเปลี่ยนเลย [15]
แนวทางใช้งานจริง: งานไหนพอลองได้ งานไหนต้องระวัง
ถ้าเป้าหมายคือทำคอนเซปต์เร็ว ๆ สร้างภาพทางเลือกสำหรับโซเชียล ลองเปลี่ยนฉากหลัง หรือสำรวจทิศทางภาพหลายแบบ การแก้ด้วย mask น่าทดลอง เพราะ OpenAI มีตัวอย่างเวิร์กโฟลว์นี้อยู่จริง [15]
แต่ถ้าเป็นงานที่ต้องแม่น เช่น ภาพสินค้าไฟนอล ภาพบุคคล ภาพติดบัตร โลโก้ แพ็กเกจ หรือภาพที่มีข้อความสำคัญ ควรตั้งมาตรฐานตรวจรับให้เข้มขึ้น:
- เขียน prompt ให้ชัด เมื่อใช้ mask ยังต้องมี prompt จึงควรบอกให้ชัดว่าต้องการแก้อะไร และส่วนใดต้องคงไว้ [
15]
- ถ้าขอบเขตต้องเป๊ะ ให้เตรียม mask ให้ดี OpenAI แนะนำว่าเมื่อต้องการ exact mask ควรใช้ image segmentation model เข้าช่วย [
15]
- มองผลลัพธ์เป็นฉบับเสนอ ไม่ใช่ไฟล์จบ เอกสารทางการเตือนว่า mask ยังอาจถูกแก้บางส่วนได้ ดังนั้นใบหน้า ขอบสินค้า ตัวอักษร และองค์ประกอบแบรนด์ควรถูกตรวจด้วยคน [
15]
- เก็บต้นฉบับและเทียบก่อน-หลัง สำหรับภาพที่ไวต่อสัดส่วน คอมโพส แสง หรือรายละเอียดสำคัญ ควรเปรียบเทียบกับไฟล์เดิมทีละจุด ไม่ใช่ดูแค่ว่าภาพใหม่ “เนียน” หรือไม่ [
15]
ประโยคที่ปลอดภัยที่สุด
GPT Image 2 สามารถอยู่ในเวิร์กโฟลว์แก้ภาพเฉพาะจุดเพื่อทดลองใช้งานได้ แต่จากข้อมูลที่ตรวจสอบได้ในตอนนี้ ยังไม่ควรรับประกันว่าโมเดลจะแก้เฉพาะพื้นที่เล็ก ๆ ที่ระบุเท่านั้น โดยที่ใบหน้า แสง และคอมโพสทั้งหมดไม่เปลี่ยนเลย เอกสาร OpenAI รองรับการใช้ mask เพื่อกำกับการแก้ภาพ และในเวลาเดียวกันก็เตือนว่า mask อาจไม่แม่นยำสมบูรณ์ งานที่ต้องความเป๊ะสูงจึงควรใช้ image segmentation, ตรวจเทียบก่อน-หลัง และให้คนตรวจรับขั้นสุดท้าย [2][
15]




