นักพัฒนาหลายคนอยากได้คำตอบเป็นตัวเลขเดียว เช่น 2, 5 หรือ 10 รูป ว่า GPT Image 2 Edit รวมภาพอ้างอิงได้สูงสุดกี่ภาพในหนึ่งคำขอ แต่จากหลักฐานที่ตรวจสอบ คำตอบยังไม่ใช่ตัวเลขนั้น เอกสาร Images API ของ OpenAI มีเมธอดสำหรับแก้ไขภาพ และเอกสารอ้างอิง Python ใช้ถ้อยคำว่า “The image(s) to edit” หรือ “ภาพที่จะแก้ไข” ในรูปเอกพจน์/พหูพจน์ แต่เอกสารทางการของ OpenAI ที่ตรวจสอบไม่ได้ระบุจำนวนภาพต้นทางสูงสุดต่อหนึ่งคำขอแก้ไขภาพ [15][
16][
17]
คำตอบแบบอ้างอิงได้
ถ้าคุณต้องเขียนข้อความในเอกสารผลิตภัณฑ์ หน้า UI หรือ validation logic ให้ใช้ถ้อยคำที่ปลอดภัยกว่าแบบนี้:
เวิร์กโฟลว์ GPT Image 2 Edit รองรับแนวคิดอินพุตภาพแบบพหูพจน์ แต่เอกสารอ้างอิงการแก้ไขภาพของ OpenAI ที่ตรวจสอบยังไม่ได้ระบุเพดานจำนวนภาพต้นทางเป็นตัวเลข [
15][
16][
17]
จุดสำคัญคือถ้อยคำ “image(s) to edit” ในเอกสาร Python API reference ของ OpenAI [16] มันบอกเป็นนัยว่าไม่ได้ถูกอธิบายแบบ “รับได้แค่ภาพเดียวเท่านั้น” แต่ก็ไม่ได้เท่ากับการประกาศเพดาน เช่น “อัปโหลดได้สูงสุด 10 ภาพ” หากไม่มีแหล่งข้อมูลเฉพาะจากผู้ให้บริการที่ระบุเช่นนั้นจริง [
16]
ภาพต้นทางไม่เหมือนภาพผลลัพธ์
ความสับสนหลักมักเกิดจาก API ภาพมีตัวเลขอยู่สองชุด:
- ภาพต้นทาง: ไฟล์ที่อัปโหลด หรือ URL ของภาพที่ใช้เป็นภาพอ้างอิงสำหรับการแก้ไข
- ภาพผลลัพธ์: ภาพที่โมเดลสร้างและส่งกลับมา
เอกสารบางแห่งพูดถึงจำนวน “ภาพที่จะสร้าง” ไม่ใช่จำนวนภาพที่อัปโหลดเป็นอินพุต ตัวอย่างเช่น เอกสาร image-edit ที่เข้ากันได้กับ OpenAI ของ Zenlayer ระบุว่าจำนวนภาพที่จะสร้างต้องอยู่ระหว่าง 1 ถึง 10 ซึ่งเป็นค่าของฝั่งเอาต์พุต ไม่ใช่เพดานภาพต้นทางที่อัปโหลด [19]
ตัวอย่างของ OpenVINO ที่เข้ากันได้กับ OpenAI ก็แยกสองเรื่องนี้ออกจากกันเช่นกัน ตัวอย่างส่งไฟล์เดียวด้วย image=@three_cats.png และใช้ n=4 เพื่อขอผลลัพธ์หลายภาพ ตัวอย่างที่ใช้ภาพต้นทางหนึ่งไฟล์ไม่ได้พิสูจน์ว่ารับได้สูงสุดหนึ่งไฟล์ และ n=4 ก็ไม่ได้แปลว่ารับภาพต้นทางได้ 4 ภาพ [20]
wrapper ภายนอกยังไม่ใช่คำตอบแทน OpenAI ทางการ
หน้าเอกสารของผู้ให้บริการภายนอกมีประโยชน์ต่อการใช้งานจริง แต่ไม่ควรนำไปสรุปเป็นข้อจำกัดทางการของ OpenAI เว้นแต่เอกสารนั้นระบุข้อจำกัดอย่างชัดเจน
หน้า openai/gpt-image-2/edit ของ Fal แสดงฟิลด์ image_urls เป็น array ในตัวอย่าง request ซึ่งสอดคล้องกับโครงสร้างที่รองรับหลาย URL ได้ในเชิงรูปแบบ แต่ตัวอย่างที่แสดงมี URL เดียว และไม่ได้ประกาศจำนวนภาพต้นทางสูงสุด [2]
WaveSpeedAI อธิบายเวิร์กโฟลว์ GPT Image 2 Edit ว่าสามารถผสานภาพอ้างอิงหลายภาพได้ แต่นั่นเป็นคำอธิบายจากผู้ให้บริการ ไม่ใช่ตัวเลขเพดานภาพต้นทางอย่างเป็นทางการจาก OpenAI [22]
ข้อจำกัดการอัปโหลดใน ChatGPT เป็นคนละเรื่อง
FAQ เรื่อง ChatGPT Image Inputs ของ OpenAI ระบุว่าจำนวนภาพที่ผู้ใช้เพิ่มในบทสนทนา ChatGPT ได้ขึ้นอยู่กับหลายปัจจัย รวมถึงขนาดของภาพ [7] FAQ นี้พูดถึงพฤติกรรมในบทสนทนาของ ChatGPT ส่วนเอกสาร Images API พูดถึงเมธอดแก้ไขภาพของ API การเอาสองอย่างนี้มาปนกันอาจทำให้เขียน validation logic ผิด [
7][
15]
สำหรับทีมที่กำลังสร้างผลิตภัณฑ์ ความแตกต่างนี้สำคัญมาก เพราะข้อจำกัดของหน้า ChatGPT, schema ของ wrapper ภายนอก และ OpenAI Images API อาจไม่เหมือนกัน ให้ตรวจสอบกับระบบที่คุณเรียกใช้งานจริงเสมอ
แนวทางปฏิบัติสำหรับนักพัฒนา
- เขียนข้อความให้แม่นยำ — “รองรับภาพอ้างอิงหลายภาพ” ปลอดภัยกว่า “อัปโหลดภาพต้นทางได้สูงสุด 10 ภาพ” เว้นแต่ผู้ให้บริการของคุณมีเอกสารระบุตัวเลขนั้นชัดเจน [
16][
19]
- แยกค่าฝั่งอินพุตกับเอาต์พุต — นับจำนวนภาพต้นทางแยกจาก
n, จำนวนภาพผลลัพธ์ หรือพารามิเตอร์ประเภท “images to generate” [19][
20]
- ทำข้อจำกัดให้ตั้งค่าแยกตามผู้ให้บริการ — ถ้าเรียก Fal, WaveSpeedAI หรือ wrapper อื่น ให้ทดสอบ schema และ error runtime ของผู้ให้บริการนั้น แทนการเดาว่ามีเพดานกลางของ OpenAI ที่ใช้เหมือนกันทั้งหมด [
2][
22]
- แจ้ง error ให้ผู้ใช้เข้าใจง่าย — หาก endpoint ปฏิเสธเพราะส่งภาพอ้างอิงมากเกินไป ให้บอกข้อจำกัดที่มีผลจริงของผู้ให้บริการนั้น โดยไม่สื่อว่าเป็นเพดานทางการของ GPT Image 2 Edit
สรุปสั้น ๆ
จากเอกสารที่ตรวจสอบ คำตอบยังไม่ใช่ตัวเลข OpenAI ใช้ถ้อยคำที่รองรับอินพุตภาพแบบพหูพจน์ผ่าน “image(s) to edit” แต่ไม่ได้ระบุจำนวนภาพต้นทางสูงสุดสำหรับหนึ่งคำขอแก้ไขภาพ [15][
16][
17]




