Nếu dùng AI tạo ảnh cho key visual quảng cáo, ảnh sản phẩm, mockup giao diện hay cảnh có nhiều vật thể, câu hỏi quan trọng không chỉ là ảnh có đẹp hay không. Vấn đề là model có đặt đúng chiếc cốc bên trái laptop, giữ logo ở đúng góc, hay xếp các thành phần UI theo đúng thứ tự không.
Với dữ liệu có thể kiểm tra hiện tại, chưa thể trả lời câu hỏi này bằng một con số. Các trích đoạn tài liệu OpenAI API được cung cấp không đưa ra benchmark đối đầu GPT Image 2 vs GPT Image 1.5 về complex composition, spatial accuracy hay multi-object placement.[13][
14][
31][
33]
Có thể xác nhận điều gì?
Trước hết, GPT Image 1.5 có trang model trong OpenAI API. Trang này mô tả GPT Image 1.5 là model tạo ảnh có khả năng theo chỉ dẫn tốt hơn và bám prompt tốt hơn.[14] GPT Image 1 cũng có trang riêng, được mô tả là model tạo ảnh thế hệ trước, có thể nhận đầu vào văn bản và hình ảnh, rồi tạo đầu ra là hình ảnh.[
36]
Tài liệu tạo ảnh của OpenAI còn chia workflow thành hai nhóm: Generations, tức tạo ảnh mới từ prompt văn bản; và Edits, tức chỉnh sửa ảnh có sẵn.[24] Chi tiết này rất quan trọng khi đánh giá độ chính xác. Tạo từ đầu một cảnh nhiều vật thể khác với việc chỉnh một ảnh đã có để thêm, dời hoặc giữ nguyên một vật thể ở vị trí cụ thể.
Trong các trích đoạn từ changelog, trang Models và All models của OpenAI API, chưa thấy công bố chính thức nào đưa ra so sánh định lượng GPT Image 2 với GPT Image 1.5 về bố cục phức tạp, quan hệ không gian hoặc độ chính xác khi đặt nhiều vật thể.[13][
31][
33] Vì vậy, kết luận chặt chẽ nhất lúc này là: có thể nói GPT Image 1.5 là model có trang OpenAI API và được mô tả là bám prompt tốt hơn; chưa thể nói GPT Image 2 đặt vật thể chính xác hơn GPT Image 1.5 bao nhiêu phần trăm.[
14]
Vì sao GPT Image 2 vẫn là điểm mờ
Khó khăn không nằm ở việc không ai nhắc đến GPT Image 2. Vấn đề là các nguồn công khai nói không thống nhất. Mew Design chọn cách diễn đạt thận trọng: GPT Image 2 dường như đang được thử nghiệm nhưng chưa được công bố chính thức như một model OpenAI có tên gọi rõ ràng.[1] getimg.ai cũng viết rằng OpenAI chưa công bố GPT Image 2 và lineup công khai dừng ở gpt-image-1.5.[
5]
Ngược lại, một bài viết bên thứ ba khác lại khẳng định OpenAI đã ra mắt ChatGPT Images 2.0 hoặc gpt-image-2 vào ngày 21/4/2026, kèm điểm Arena 1.512.[2] Một bài review của RenovateQR cho biết tác giả đã thử GPT Image 2 với bộ prompt tiêu chuẩn, gồm ảnh sản phẩm, UI mockup, biển hiệu đa ngôn ngữ, chân dung và nội dung thương hiệu.[
4]
Nhưng phần còn thiếu mới là phần quyết định: các trích đoạn này không cung cấp bảng so sánh có thể tái lập về tỷ lệ đúng/sai khi đặt nhiều vật thể, quan hệ trái/phải, trước/sau, che khuất, căn lề hay giữ đúng bố cục giữa GPT Image 2 và GPT Image 1.5.[4] Vì vậy, cách viết an toàn hơn là: có nguồn bên thứ ba nói GPT Image 2 đang tồn tại, đang thử nghiệm hoặc đã ra mắt, nhưng chưa có câu trả lời chính thức, có thể tái lập và chuyên biệt cho câu hỏi đặt vật thể chính xác hơn bao nhiêu.[
1][
2][
4][
5]
Điểm 1.512 vs 1.241 không phải độ chính xác đặt vật thể
Một trang bên thứ ba liệt kê GPT Image 2 đạt 1.512 điểm và GPT Image 1.5 đạt 1.241 điểm, tức chênh 271 điểm.[6] Con số này có thể được xem như một tín hiệu rằng có nguồn cho rằng GPT Image 2 có điểm tổng thể cao hơn. Tuy nhiên, không nên biến nó thành câu khẳng định rằng độ chính xác đặt vật thể tăng 271 điểm, hay tăng một tỷ lệ phần trăm nào đó.
Có ba lý do chính:
- Trích đoạn điểm số không nói rõ bài đo có chuyên về bố cục phức tạp, quan hệ tương đối, che khuất hay multi-object placement hay không.[
6]
- Điểm tổng hợp không phải tỷ lệ pass/fail. Nếu không biết tập mẫu, cách chấm và loại lỗi, không thể quy đổi 1.512 vs 1.241 thành độ chính xác X%.[
6]
- Các nguồn tài liệu OpenAI API được trích dẫn không đưa ra benchmark cùng một bộ test cho GPT Image 2 và GPT Image 1.5 về spatial accuracy hoặc object placement.[
13][
14][
31][
33]
Nói cách khác: nếu viết tài liệu bán hàng, proposal hoặc bài giới thiệu sản phẩm, bạn có thể nói có trang bên thứ ba liệt kê điểm GPT Image 2 cao hơn GPT Image 1.5. Nhưng không nên viết rằng OpenAI đã chứng minh GPT Image 2 đặt vật thể chính xác hơn X%.[6][
13][
14]
Một benchmark đáng tin cần có gì?
Để thật sự biết GPT Image 2 có giỏi hơn GPT Image 1.5 trong bố cục phức tạp hay không, bài thử cần nghiêm túc hơn việc chọn vài ảnh đẹp để so sánh. Tối thiểu nên có:
- Cùng một bộ prompt cho cả hai model: ghi rõ tên model, phiên bản hoặc snapshot để tránh so kết quả ở các thời điểm và cấu hình khác nhau.
- Prompt chuyên đo quan hệ không gian: ví dụ trái/phải, trên/dưới, trước/sau, vật thể che vật thể, vật thể được cầm trên tay, căn giữa, sát mép, hoặc nhiều vật thể tương tác với nhau.
- Rubric pass/fail rõ ràng: chấm riêng nhận diện vật thể, số lượng vật thể, vị trí tương đối, che khuất, tỷ lệ, chữ hiển thị và yếu tố thương hiệu.
- Chấm mù hoặc nhiều người chấm: tránh chỉ chọn ảnh đẹp nhất, hoặc để người biết tên model chấm theo cảm tính.
- Tách Generations và Edits: vì tài liệu OpenAI phân biệt tạo ảnh từ đầu và chỉnh sửa ảnh có sẵn, kết quả của hai workflow này cũng nên được ghi riêng.[
24]
Nếu thiếu các điều kiện trên, một ảnh minh họa đơn lẻ, vài ảnh chụp màn hình trên mạng xã hội hoặc một điểm tổng hợp đều chưa đủ để trả lời câu hỏi đặt vật thể chính xác hơn bao nhiêu.
Nên làm gì nếu bạn đang dùng AI tạo ảnh cho công việc?
Trong lúc chưa có benchmark chính thức hoặc bên thứ ba có thể tái lập, đừng xem câu “GPT Image 2 đặt vật thể chuẩn hơn” như một sự thật đã được định lượng. Cách thực tế hơn là xây quy trình kiểm thử riêng cho nhu cầu của đội ngũ:
- Lấy GPT Image 1.5 làm baseline có thể trích dẫn, vì model này có trang OpenAI API và được mô tả là theo chỉ dẫn, bám prompt tốt hơn.[
14]
- Tạo một bộ prompt cố định cho các tình huống rủi ro cao: nhiều vật thể, trái/phải, trước/sau, che khuất, vị trí chữ, giữ logo, bố cục UI.
- Chấm pass/fail trước, chấm thẩm mỹ sau. Ảnh đẹp nhưng đặt sai vật thể vẫn là ảnh hỏng cho workflow sản phẩm.
- Ghi riêng kết quả text-to-image generation và image edits, vì OpenAI cũng phân hai loại workflow này trong tài liệu.[
24]
- Khi báo cáo cho khách hàng hoặc stakeholder nội bộ, tránh hứa mức cải thiện cụ thể. Cách nói chính xác hơn là: cần kiểm chứng bằng bài thử trên chính use case của mình.
Kết luận
Kết luận mạnh nhất được nguồn hiện có hỗ trợ là: GPT Image 1.5 có trang OpenAI API và được mô tả là bám prompt, theo chỉ dẫn tốt hơn; GPT Image 1 là model tạo ảnh thế hệ trước.[14][
36] Còn GPT Image 2 chính xác hơn GPT Image 1.5 bao nhiêu trong bố cục phức tạp và đặt vật thể, hiện chưa có đủ dữ liệu công khai có thể kiểm chứng để định lượng. Các nguồn bên thứ ba chưa thống nhất về trạng thái GPT Image 2, và điểm 1.512 vs 1.241 không thể được xem là thước đo riêng cho spatial accuracy hoặc object-placement accuracy.[
1][
2][
5][
6]




