Khi dùng GPT Image 2 để sửa ảnh chân dung, ảnh sản phẩm hoặc hình đăng mạng xã hội, câu hỏi quan trọng thường không phải là có sửa được không. Câu hỏi khó hơn là: có thể chỉ sửa đúng một vết nhỏ, còn khuôn mặt, ánh sáng, nền và bố cục giữ nguyên hoàn toàn không?
Câu trả lời thận trọng hiện nay là: chưa nên xem đó là điều được bảo đảm. Tài liệu API của OpenAI có liệt kê GPT Image 2 như một mô hình trong hệ thống của OpenAI.[2] Nhưng phần hướng dẫn chính thức về GPT Image chỉ cho thấy mask có thể định hướng vùng chỉnh sửa; tài liệu không mô tả mask như một lớp khóa pixel tuyệt đối.[
15]
Kết luận nhanh: mask là chỉ dẫn, không phải ổ khóa
Trong tài liệu OpenAI Developers, người dùng có thể cung cấp mask nếu không muốn mô hình thay đổi một phần cụ thể của ảnh đầu vào.[15] Nói cách khác, mask có ích trong quy trình chỉnh ảnh cục bộ.
Nhưng giới hạn cũng được OpenAI nêu ngay trong ví dụ đó: dù có mask, mô hình vẫn có thể chỉnh một số phần bên trong vùng mask, chỉ là nó sẽ cố tránh làm vậy; nếu cần mask chính xác, OpenAI khuyến nghị dùng thêm mô hình phân đoạn ảnh.[15] Vì vậy, cách hiểu an toàn nhất là: mask giúp hướng mô hình tới vùng cần sửa, nhưng không phải cam kết rằng mọi pixel ngoài vùng đó sẽ bất biến.[
15]
Tài liệu chính thức thực sự xác nhận điều gì?
Có ba điểm có thể khẳng định từ nguồn chính thức.
Thứ nhất, GPT Image 2 xuất hiện trong tài liệu mô hình của OpenAI API.[2] Điều này đủ để nói đây là một mô hình được OpenAI liệt kê trong tài liệu, nhưng không đủ để suy ra rằng mọi lần chỉnh ảnh bằng GPT Image 2 đều sẽ giữ nguyên ổn định khuôn mặt, ánh sáng, bố cục hoặc các vùng không được chỉ định.[
2][
15]
Thứ hai, ví dụ chính thức của GPT Image có quy trình chỉnh ảnh với mask. Tài liệu nói có thể cung cấp mask khi không muốn mô hình thay đổi một phần cụ thể của ảnh; khi dùng mask, người dùng vẫn cần prompt, tức là mask và chỉ dẫn bằng chữ cùng tham gia điều hướng kết quả.[15]
Thứ ba, OpenAI không mô tả mask như bảo đảm ở cấp pixel. Ngược lại, tài liệu cảnh báo mô hình vẫn có thể chỉnh một phần trong mask và gợi ý dùng mô hình phân đoạn ảnh khi cần mask chính xác.[15]
Điều này có nghĩa gì với mặt người, ánh sáng và bố cục?
Nếu nhu cầu của bạn là chỉ xóa một vết bẩn nhỏ trên áo, còn mặt, màu da, ánh sáng, hậu cảnh và bố cục phải giống hệt ảnh gốc, dữ liệu chính thức hiện có không đủ để bảo đảm điều đó.[2][
15] Mask có thể giảm khả năng các vùng muốn giữ nguyên bị tác động, nhưng cách diễn đạt của OpenAI là mô hình sẽ tránh chỉnh, không phải tuyệt đối không chỉnh.[
15]
Điểm này đặc biệt quan trọng với các ảnh nhạy cảm về độ chính xác: khuôn mặt, đường viền sản phẩm, logo thương hiệu, chữ trên bao bì, ảnh giấy tờ hoặc ảnh thương mại cần ánh sáng nhất quán. Với các trường hợp này, không nên chỉ nhìn kết quả xem có đẹp hay tự nhiên không. Quy trình an toàn hơn là giữ lại ảnh gốc, so sánh từng ảnh trước và sau, rồi kiểm tra thủ công các chi tiết như mặt, mép vật thể, chữ, tỷ lệ khung hình và ánh sáng.[15]
Phản ánh từ cộng đồng: có giá trị cảnh báo, nhưng không phải kết luận về GPT Image 2
Trong OpenAI Developer Community có nhiều thảo luận liên quan đến gpt-image-1 về chỉnh ảnh với mask, gồm phản ánh mask giữ vùng gốc chưa tốt, mask không giới hạn chỉnh sửa đúng khu vực, inpainting với mask thay thế cả ảnh, hoặc mask bị bỏ qua.[3][
4][
9][
10]
Một phản hồi trong cộng đồng mô tả masking của GPT Image là dựa trên prompt, đồng thời nói mô hình vẫn tái tạo lại toàn bộ ảnh và chỉ cố vẽ vùng không chỉnh sao cho gần với ảnh gốc; phản hồi này cũng cho rằng mô hình có thể không bám chính xác hoàn toàn theo hình dạng mask.[6]
Những nội dung này chủ yếu nói về gpt-image-1 và không phải cam kết hiệu năng chính thức của OpenAI dành cho GPT Image 2. Vì vậy, không thể dùng chúng để kết luận GPT Image 2 chắc chắn gặp cùng vấn đề.[3][
4][
6][
9][
10] Dù vậy, chúng đi cùng hướng với cảnh báo trong cookbook chính thức rằng mask có thể không hoàn toàn chính xác, nên là tín hiệu rủi ro đáng lưu ý khi đưa vào quy trình làm việc thật.[
15]
Nên nhìn các quảng cáo kiểu chỉnh sửa pixel-level ra sao?
Một trang bên thứ ba mô tả GPT Image 2 Edit là công cụ có thể chỉnh ảnh tham chiếu bằng ngôn ngữ tự nhiên, thậm chí dùng cụm surgical pixel-level edits và nói không cần mask, layer hay Photoshop.[5] Những mô tả như vậy có thể xem là thông tin tiếp thị hoặc giới thiệu sản phẩm, nhưng khi đánh giá câu hỏi có thể chỉ sửa một vùng nhỏ và giữ nguyên hoàn toàn phần còn lại hay không, nên ưu tiên giới hạn được nêu trong tài liệu OpenAI và kết quả thử nghiệm của chính bạn.[
15]
Nói gọn: nguồn chính thức ủng hộ việc dùng mask để định hướng chỉnh sửa cục bộ; nguồn chính thức không ủng hộ cách nói rằng mask bảo đảm các vùng không chỉ định sẽ không bị mô hình đụng tới.[15]
Gợi ý thực tế khi dùng GPT Image 2 để chỉnh ảnh
Nếu mục tiêu là tạo bản nháp nhanh, thử ý tưởng thị giác, biến thể hình mạng xã hội hoặc hướng thay nền, chỉnh ảnh bằng mask đáng để thử vì OpenAI có ví dụ chính thức cho quy trình này.[15]
Nhưng nếu mục tiêu là ảnh chân dung chính xác, ảnh sản phẩm chính, ảnh giấy tờ, tài liệu thương hiệu hoặc hình có chữ quan trọng, nên đặt tiêu chuẩn nghiệm thu cao hơn:
- Viết prompt thật rõ. Khi dùng mask vẫn cần prompt, nên hãy nói rõ cần sửa gì và vùng nào cần giữ nguyên.[
15]
- Nếu cần ranh giới chính xác, hãy chuẩn bị mask tốt hơn. OpenAI khuyến nghị dùng mô hình phân đoạn ảnh khi cần exact mask.[
15]
- Xem ảnh xuất ra như bản ứng viên, không phải bản cuối. Vì OpenAI đã cảnh báo mask vẫn có thể bị chỉnh một phần, cần kiểm tra lại mặt người, mép sản phẩm, chữ và yếu tố thương hiệu.[
15]
- Luôn giữ ảnh gốc để so sánh trước và sau. Với ảnh nhạy cảm về bố cục, ánh sáng hoặc chi tiết quan trọng, nên đối chiếu từng vùng thay vì chỉ đánh giá tổng thể xem ảnh có trông tự nhiên không.[
15]
Câu an toàn nhất
GPT Image 2 có thể được đưa vào quy trình thử nghiệm chỉnh ảnh cục bộ, nhưng hiện chưa có cơ sở chính thức để nói rằng nó luôn chỉ sửa đúng một vùng nhỏ, còn mặt người, ánh sáng và bố cục hoàn toàn không bị ảnh hưởng. Tài liệu OpenAI ủng hộ việc dùng mask để định hướng chỉnh sửa, đồng thời cũng nhắc rằng mask có thể không chính xác tuyệt đối; với ảnh cần độ chuẩn cao, nên kết hợp phân đoạn ảnh, so sánh trước-sau và kiểm tra thủ công.[2][
15]




