Các lời khẳng định về GPT Image 2 đang lan nhanh, nhưng phần bằng chứng hiện có lại khiêm tốn hơn nhiều. Kết luận hợp lý từ các nguồn đã rà soát là: OpenAI có tài liệu chính thức cho GPT Image 1.5 và các luồng tạo, chỉnh sửa ảnh; còn tài liệu về GPT Image 2 trong bộ nguồn này chủ yếu là nguồn bên thứ ba, dựa trên rò rỉ, kỳ vọng hoặc mục đích thương mại. Không nguồn nào đưa ra benchmark có kiểm soát để so sánh độ chân thực ảnh giữa GPT Image 2 và GPT Image 1.5.[1][
11][
12][
19][
20][
21][
22][
24]
Kết luận kiểm chứng: chưa chứng minh
Chưa đủ cơ sở để nói GPT Image 2 chân thực hơn GPT Image 1.5. Đây là đánh giá chưa chứng minh, không phải kết luận rằng GPT Image 2 kém hơn.
Điểm còn thiếu là một phép so sánh trực tiếp và có thể lặp lại: cùng bộ prompt, thiết lập tương đương, nhiều ảnh đầu ra cho mỗi prompt, đánh giá mù và thang điểm tập trung riêng vào độ giống ảnh chụp thật. Các nguồn OpenAI đã rà soát có tài liệu về GPT Image 1.5 và workflow qua API, nhưng không đưa ra so sánh photorealism chính thức cho GPT Image 2.[1][
11][
12][
15][
16][
17]
OpenAI thực sự xác nhận điều gì?
Trang model GPT Image 1.5 của OpenAI mô tả GPT Image 1.5 là một “state-of-the-art image generation model” và nói đây là model tạo ảnh mới nhất của OpenAI, với khả năng làm theo chỉ dẫn và bám prompt tốt hơn.[1]
Tài liệu hướng dẫn tạo ảnh của OpenAI nêu hai workflow chính: tạo ảnh từ prompt văn bản và chỉnh sửa ảnh có sẵn.[12] Tài liệu tham chiếu API cũng mô tả đầu vào và tham số cho chỉnh sửa ảnh, như model, số lượng ảnh, chất lượng và định dạng đầu ra trong các workflow dùng GPT image model.[
11] Các tài liệu cookbook và hướng dẫn prompt của OpenAI trình bày những cách dùng thực tế, gồm chỉnh sửa bằng mask và ví dụ prompt cho GPT Image 1.5.[
15][
16][
17]
Những nguồn này cho thấy năng lực sản phẩm và cách triển khai. Tuy nhiên, chúng không chứng minh GPT Image 2 chân thực hơn GPT Image 1.5, vì không có trang model chính thức cho GPT Image 2, không có benchmark chính thức của GPT Image 2 và không có nghiên cứu đối đầu về độ giống ảnh thật.[1][
11][
12][
15][
16][
17]
Vì sao các tuyên bố về GPT Image 2 chưa đủ thuyết phục?
Các trang về GPT Image 2 trong bộ nguồn đã rà soát không cung cấp loại bằng chứng cần thiết cho một tuyên bố đã được kiểm chứng về photorealism.
Một trang đặt GPT Image 2 trong bối cảnh rò rỉ và hướng dẫn workflow.[19] Một trang khác bàn về các nâng cấp “được kỳ vọng”, gồm cải thiện hiển thị chữ và điều khiển camera.[
20] Bài của MindStudio nói các cải thiện về hiển thị chữ của GPT Image 2 có vẻ giúp model này vượt lên ở khía cạnh đó, nhưng đây là tuyên bố hẹp hơn nhiều so với độ chân thực ảnh.[
21] Bài của JXP đưa ra các tuyên bố mạnh hơn, gồm độ chính xác chữ “99%+”, kỳ vọng xuất ảnh 4K gốc và bước nhảy lớn về photorealism, nhưng đoạn trích được cung cấp không có phương pháp đánh giá có thể lặp lại hoặc so sánh trực tiếp với GPT Image 1.5.[
22] Trang của Higgsfield tiếp thị GPT Image 2 xoay quanh tạo ảnh thương mại và “perfect text”.[
24]
Điểm mấu chốt: chữ hiển thị đúng, bám prompt tốt, độ phân giải cao hay tiện dùng cho thương mại không đồng nghĩa với ảnh trông giống ảnh chụp thật hơn. Một model có thể giỏi typography hoặc nghe lệnh tốt hơn mà chưa chắc đạt điểm photorealism cao hơn. Các nguồn GPT Image 2 đã rà soát không công bố bộ prompt, số lượng mẫu, thiết lập tạo ảnh, phương pháp đánh giá mù hay điểm số riêng cho độ chân thực khi đối chiếu với GPT Image 1.5.[19][
20][
21][
22][
24]
Tín hiệu gần benchmark nhất cũng khuyên nên thận trọng
Nguồn có dáng dấp leaderboard hữu ích nhất trong hồ sơ này là Artificial Analysis. Đoạn trích từ Text to Image Arena cho biết GPT Image 1.5 (high) đang dẫn đầu với điểm Elo 1274; bảng xếp hạng dựa trên bình chọn mù của người dùng, trong đó Elo cao hơn nghĩa là model được người dùng ưu tiên thường xuyên hơn.[33]
Đây là tín hiệu có ý nghĩa về mức độ được ưa thích trong phạm vi bảng xếp hạng đó. Nhưng nó vẫn không chứng minh GPT Image 2 chân thực hơn GPT Image 1.5. Đoạn trích của Artificial Analysis là leaderboard tổng quát cho text-to-image, không phải benchmark chỉ đo photorealism giữa GPT Image 2 và GPT Image 1.5.[33]
Bảng kiểm chứng nhanh
| Bằng chứng | Hỗ trợ điều gì | Không chứng minh điều gì |
|---|---|---|
| Trang model GPT Image 1.5 của OpenAI | GPT Image 1.5 được OpenAI ghi nhận chính thức là model tạo ảnh state-of-the-art, bám chỉ dẫn và prompt tốt hơn.[ | Không so sánh GPT Image 1.5 với GPT Image 2.[ |
| Tài liệu tạo ảnh và API của OpenAI | OpenAI hỗ trợ workflow tạo ảnh và chỉnh sửa ảnh, với các tham số như model, chất lượng và định dạng đầu ra.[ | Tài liệu workflow không phải benchmark photorealism.[ |
| Cookbook và hướng dẫn prompt của OpenAI | Cho thấy các mẫu sử dụng GPT image, mask và ví dụ prompt cho GPT Image 1.5.[ | Không cung cấp bài test độ chân thực đối đầu với GPT Image 2.[ |
| Các trang bên thứ ba về GPT Image 2 | Bàn về rò rỉ, nâng cấp được kỳ vọng, hiển thị chữ, truy cập thương mại và các tuyên bố hiệu năng rộng.[ | Các đoạn trích không đưa ra đánh giá có kiểm soát giữa GPT Image 2 và GPT Image 1.5 về photorealism.[ |
| Artificial Analysis Text to Image Arena | GPT Image 1.5 (high) được liệt kê đầu bảng với Elo 1274 trong leaderboard bình chọn mù.[ | Không được trình bày ở đây như phép so sánh riêng về photorealism với GPT Image 2.[ |
Thế nào mới là bằng chứng đủ mạnh?
Một bài test đáng dùng để ra quyết định giữa GPT Image 2 và GPT Image 1.5 cần tách riêng độ chân thực ảnh khỏi các ưu điểm khác. Tối thiểu nên có:
- Cùng một bộ prompt cho cả hai model. Prompt nên bao phủ người, sản phẩm, nội thất, cảnh ngoài trời, ánh sáng yếu, phản chiếu, chất liệu và các tình huống dễ lỗi.
- Thiết lập tạo ảnh tương đương. Nếu kiểm thử qua API, cần ghi rõ model, chất lượng, định dạng đầu ra và các tham số liên quan trong workflow.[
11]
- Nhiều ảnh đầu ra cho mỗi prompt. Một ảnh quá đẹp hoặc quá lỗi không nên quyết định toàn bộ kết quả.
- Đánh giá mù. Người chấm không biết ảnh nào do model nào tạo. Artificial Analysis dùng bình chọn mù trong arena của họ; đó là một cách làm hữu ích, dù leaderboard được trích dẫn không trả lời trực tiếp câu hỏi photorealism này.[
33]
- Thang điểm riêng cho photorealism. Cần chấm ánh sáng, bóng đổ, hành vi ống kính, da và chất liệu, tính nhất quán vật lý, phản chiếu và lỗi thị giác tách biệt khỏi chữ trong ảnh hoặc mức độ tuân thủ prompt.
- Công khai ví dụ và lỗi thất bại. Một bộ ảnh tuyển chọn đẹp mắt chưa đủ để chứng minh lợi thế rộng của model.
Hàm ý thực tế cho đội ngũ sản xuất nội dung
Nếu đang chọn model ảnh cho sản xuất, hãy xem các tuyên bố GPT Image 2 chân thực hơn là giả thuyết cho đến khi tự kiểm chứng được. Nguồn từ OpenAI cho bạn một baseline được tài liệu hóa về GPT Image 1.5 và mô tả các workflow tạo, chỉnh sửa ảnh, nhưng không chứng minh GPT Image 2 đã nâng cấp độ chân thực.[1][
11][
12]
Nếu cả hai model cùng khả dụng trong một workflow, hãy chạy thử trên prompt của chính bạn. Với quyết định chuyển hệ thống sản xuất, không nên đổi chỉ vì một trang bên thứ ba nói có bước nhảy lớn về photorealism. Với nội dung marketing, cũng nên tránh khẳng định GPT Image 2 chân thực hơn nếu chưa có benchmark minh bạch chống lưng cho câu nói đó.[19][
20][
21][
22][
24]
Tóm lại
GPT Image 2 có thể sẽ chứng minh được năng lực tốt hơn trong tương lai, nhưng bằng chứng đã rà soát hiện chưa xác nhận rằng model này tạo ảnh chân thực hơn GPT Image 1.5. Kết luận an toàn hơn là: GPT Image 1.5 đã được OpenAI tài liệu hóa chính thức; Artificial Analysis liệt kê GPT Image 1.5 (high) đứng đầu Text to Image Arena dựa trên bình chọn mù với Elo 1274; và không nguồn nào trong bộ đã rà soát chứng minh lợi thế photorealism của GPT Image 2 so với GPT Image 1.5.[1][
33]




