GPT Image 2 không nên được hiểu đơn giản là công cụ “text-to-image” chỉ tạo ảnh từ chữ. Các tài liệu và trang tích hợp được kiểm tra cho thấy có quy trình dùng ảnh có sẵn làm đầu vào rồi chỉnh sửa ảnh đó. Tuy nhiên, chi tiết triển khai phụ thuộc vào bề mặt API bạn dùng: tài liệu OpenAI xác lập luồng chỉnh sửa/ảnh đầu vào, còn ví dụ rõ ràng gắn trực tiếp với GPT Image 2 trong các nguồn đã kiểm tra đến từ Replicate và fal.ai.[5][
7][
15][
17][
18]
Câu trả lời ngắn: có, nhưng có điều kiện
Có — nếu “ảnh tải lên” được hiểu là ảnh có sẵn, ảnh tham chiếu hoặc ảnh đầu vào được đưa vào một quy trình chỉnh sửa. Hướng dẫn ảnh của OpenAI tách Generations — tạo ảnh mới từ prompt — khỏi Edits — chỉnh sửa ảnh hiện có.[17] API reference của OpenAI cũng liệt kê Edit an Image riêng với Generate an Image và Create Variation, nên chỉnh sửa ảnh không chỉ là một mẹo prompt nằm bên trên tính năng tạo ảnh.[
13][
15]
Tài liệu tham chiếu rộng hơn của OpenAI nói mô hình có thể tạo ảnh mới từ prompt và/hoặc ảnh đầu vào, tức là có hỗ trợ luồng dùng ảnh làm input chứ không chỉ nhập văn bản.[18] Riêng với GPT Image 2, Replicate mô tả mô hình này có thể tạo ảnh từ văn bản hoặc chỉnh sửa ảnh có sẵn; fal.ai cũng công bố endpoint
openai/gpt-image-2/edit với ví dụ request gồm prompt và image_urls.[5][
7]
Tài liệu OpenAI nói gì?
Điểm chắc nhất từ tài liệu chính thức của OpenAI là: tạo ảnh và chỉnh sửa ảnh là hai nhóm thao tác được ghi nhận riêng.[13][
15][
17] Một đoạn trong tài liệu tham chiếu về edit cũng nhắc đến hành vi trả về mặc định cho các “GPT image models”, qua đó nối phương thức edit với dòng mô hình GPT image, dù riêng đoạn này không tự nó trình bày đầy đủ toàn bộ năng lực của GPT Image 2.[
14]
Sự phân biệt này quan trọng. Với generation, bạn bắt đầu từ prompt văn bản và yêu cầu mô hình tạo ảnh mới. Với edit, bạn bắt đầu từ một ảnh đã có và yêu cầu mô hình tạo ra phiên bản mới dựa trên ảnh đó.[17][
18] Vì vậy, nếu mô tả GPT Image 2 như một mô hình chỉ tạo ảnh mới từ prompt thì chưa đủ, nhất là khi các trang tích hợp GPT Image 2 được kiểm tra đã ghi rõ luồng chỉnh sửa ảnh có sẵn.[
5][
7]
“Upload file”, URL ảnh hay ảnh đầu vào?
Cách nói an toàn nhất là ảnh đầu vào. Ví dụ edit của fal.ai cho GPT Image 2 dùng trường image_urls, nên trong tích hợp đó, ảnh được truyền vào bằng URL.[7] Trong khi đó, cách diễn đạt của tài liệu OpenAI rộng hơn: prompt và/hoặc input image, nhưng phần trích dẫn ở đây không hiển thị toàn bộ chi tiết truyền file/URL trong schema OpenAI gốc cho GPT Image 2.[
18]
Vì vậy, nhà phát triển không nên mặc định rằng tham số của một wrapper bên thứ ba, chẳng hạn image_urls, luôn trùng với tên trường trong OpenAI API trực tiếp. Đoạn tài liệu model page GPT Image 2 của OpenAI được kiểm tra cũng chưa thể hiện đầy đủ schema request, giới hạn input hay điều kiện khả dụng theo tài khoản; trước khi đưa vào production, nên đối chiếu lại model page và tài liệu image edit hiện hành của OpenAI.[1][
15]
Mask có hỗ trợ, nhưng đừng xem là “khóa pixel” tuyệt đối
Cookbook GPT Image của OpenAI mô tả luồng edit trong đó có thể cung cấp mask nếu bạn không muốn mô hình thay đổi một phần cụ thể của ảnh đầu vào.[19] Nhưng cùng ghi chú đó cũng cảnh báo rằng mô hình vẫn có thể chỉnh một số phần bên trong mask, và khuyến nghị dùng mô hình phân đoạn ảnh nếu cần mask thật chính xác.[
19]
Nói cách khác, mask hữu ích để định hướng vùng cần giữ hoặc vùng cần sửa, nhưng các nguồn được cung cấp không cho phép xem mask như ranh giới bảo vệ chính xác tuyệt đối theo từng pixel.[19]
Checklist nhanh trước khi tích hợp
- Nếu bài toán bắt đầu từ một ảnh có sẵn, hãy dùng luồng edit; OpenAI mô tả edits là thao tác chỉnh sửa ảnh hiện có, tách khỏi generations tạo ảnh từ đầu.[
17]
- Kiểm tra endpoint, trường request và tình trạng hỗ trợ model trong OpenAI API trực tiếp, thay vì chỉ dựa vào ví dụ của wrapper bên thứ ba.[
1][
7][
15]
- Xem
image_urlslà chi tiết đã được xác nhận trong tích hợp edit GPT Image 2 của fal.ai, không tự động xem đó là tên tham số chuẩn ở mọi API.[7][
15]
- Nếu dùng mask, hãy thiết kế sản phẩm với kỳ vọng “giảm khả năng thay đổi vùng đó”, không phải cam kết giữ nguyên từng pixel.[
19]
Kết luận
Có: GPT Image 2 có thể chỉnh sửa ảnh đầu vào được cung cấp, không bị giới hạn ở việc tạo ảnh hoàn toàn mới từ văn bản. Bằng chứng tổng quát mạnh nhất đến từ tài liệu OpenAI về luồng edit và input image, còn ví dụ gắn trực tiếp với GPT Image 2 rõ nhất trong các nguồn đã kiểm tra đến từ Replicate và fal.ai. Dù vậy, trước khi triển khai thật, nhà phát triển vẫn nên kiểm tra schema, giới hạn và điều kiện khả dụng mới nhất trong OpenAI API gốc.[1][
5][
7][
15][
17][
18]




