Nếu đang chọn API tạo ảnh, câu hỏi đáng tiền không phải là “mô hình nào giỏi nhất?”. Câu hỏi thực tế hơn là: mô hình nào ít làm hỏng đúng loại ảnh của bạn nhất?
Với bằng chứng công khai hiện có, cách chia khá rõ: GPT Image 2 nên được thử trước cho ảnh có chữ, nhãn, menu, UI copy, poster, mockup sản phẩm và layout thương mại cần kiểm soát chặt. Nano Banana Pro đáng thử trước nếu bạn cần chân dung siêu thực, da tự nhiên, ánh sáng điện ảnh hoặc workflow đã xoay quanh Gemini [3][
6][
10][
26].
Kết luận nhanh
| Nếu workload của bạn chủ yếu là… | Nên thử trước | Vì sao |
|---|---|---|
| Chữ tiếng Anh trong ảnh, nhãn, menu, biển hiệu, UI copy, poster, chú thích sản phẩm | GPT Image 2 | Các so sánh công khai cho GPT Image 2 lợi thế rõ hơn ở chữ chính xác, thuật ngữ kỹ thuật và prompt nặng typography [ |
| Quảng cáo có cấu trúc, bao bì, mockup sản phẩm, layout thương hiệu | GPT Image 2 | Benchmark mù 10 bài của Vidguru ghi nhận GPT-Image 2 thắng 5 vòng và hòa 5 vòng trước Nano Banana 2, với khoảng cách lớn nhất ở độ trung thành khi chỉnh ảnh, logic vật liệu và layout thương mại [ |
| Chân dung photoreal, ảnh lifestyle, ảnh kiểu UGC, ánh sáng điện ảnh | Nano Banana Pro | Bài test trực tiếp của AVB cho Nano Banana Pro thắng ở chân dung siêu thực, selfie kiểu UGC và quảng cáo thể thao, nổi bật ở photorealism, kết cấu da và ánh sáng [ |
| Typography CJK, tức chữ Trung-Nhật-Hàn, hoặc ánh sáng kịch tính | Test Nano Banana Pro sớm | Genspark thấy Nano Banana 2 nhỉnh nhẹ ở polish typography CJK và dramatic lighting, nhưng đây là tín hiệu gián tiếp, không phải benchmark trực tiếp Nano Banana Pro [ |
| Ảnh sản phẩm, mockup thương mại điện tử, infographic, sơ đồ giải phẫu | Benchmark cả hai | Genspark cho rằng hai bên gần như hòa ở các nhóm này nếu prompt đủ tốt [ |
| Sơ đồ kỹ thuật, hình chú thích, schematic có nhãn | Benchmark cả hai | Analytics Vidhya mô tả bài annotated-diagram là rất sát nút; cả hai đều render đúng nhãn và điểm dữ liệu được yêu cầu [ |
| Stack đã dùng OpenAI, cần quota/rate limit rõ, job batch | GPT Image 2 | OpenAI có tài liệu model, rate limit, giá token và Batch API cho GPT Image 2 [ |
| Workflow đã dùng Gemini, cần tham số aspect ratio và 2K | Nano Banana Pro / Gemini image workflow | Tài liệu Nano Banana của Google cho thấy ví dụ Gemini API với ảnh inline, aspect ratio và tham số 2K [ |
Đọc benchmark cho đúng: đừng chỉ nhìn “ai thắng”
So sánh trực tiếp rõ nhất trong bộ nguồn là bài test 10 prompt của AVB giữa GPT Image 2.0 và Nano Banana Pro, được định danh là gemini-3-pro-image, chạy ngày 22/4/2026 [6]. Trong bài đó, GPT Image 2.0 render đủ 10/10 prompt; Nano Banana Pro render 9/10 và từ chối một prompt về CV của nhân vật nổi tiếng vì lý do chính sách [
6].
Tuy nhiên, nhiều bài so sánh hữu ích khác không phải test đúng Nano Banana Pro. Genspark, Analytics Vidhya và Vidguru so sánh GPT Image 2 với Nano Banana 2, không phải Nano Banana Pro [3][
9][
10]. Các kết quả này vẫn có giá trị để hiểu khuynh hướng của dòng Gemini/Nano Banana, nhưng không nên xem là thay thế hoàn toàn cho endpoint Nano Banana Pro mà bạn sẽ gọi trong production.
Tài liệu chính thức đáng tin nhất cho các phần như model, giá, giới hạn và tham số API: OpenAI liệt kê gpt-image-2-2026-04-21 cùng rate limit theo tier [13], trang giá OpenAI nêu giá token của GPT Image 2 [
14], trang giá Gemini nêu giá output ảnh [
25], còn tài liệu Google chỉ cách tạo ảnh Nano Banana qua Gemini API [
26]. Ngược lại, benchmark chất lượng công khai thường là tập prompt nhỏ, bài review hoặc test theo nền tảng cụ thể, chưa phải một bộ chuẩn độc lập, tái lập rộng rãi [
3][
6][
9][
10].
Một số trang so sánh đưa ra các con số rất cụ thể như thứ hạng leaderboard hoặc phần trăm chính xác văn bản, nhưng phần trích nguồn không đủ phương pháp luận để xem các con số đó là căn cứ quyết định nhà cung cấp cho production [5][
8].
GPT Image 2 mạnh ở đâu?
1. Chữ, typography và layout nhiều thông tin
Text rendering là lợi thế rõ nhất của GPT Image 2 trong các so sánh hiện có. Genspark ghi nhận GPT Image 2 nhỉnh hơn ở chữ chính xác và thuật ngữ kỹ thuật [3]. Trong bài test trực tiếp GPT Image 2.0 với Nano Banana Pro, AVB cho GPT Image 2.0 thắng ở typography trong ảnh, panel thoại manga, menu song ngữ và poster gig in lụa [
6].
Điểm này rất quan trọng với sản phẩm thương mại. Nếu một nhãn sai chữ, một món trong menu bị viết lệch, một chuỗi UI bị méo hoặc một callout sản phẩm bị hỏng khiến ảnh không dùng được, GPT Image 2 là API đáng thử trước hơn [3][
6]. Với tiếng Việt hoặc các ngôn ngữ ngoài phạm vi test, đừng suy luận quá đà: hãy đưa chính bộ chữ của bạn vào benchmark nội bộ.
2. Chỉnh sửa thương mại và thiết kế có cấu trúc
Benchmark mù 10 bài của Vidguru cho thấy GPT-Image 2 thắng 5 vòng và hòa 5 vòng còn lại trước Nano Banana 2; khoảng cách lớn nhất nằm ở độ trung thành khi chỉnh ảnh, logic vật liệu và công việc layout thương mại nặng cấu trúc [10].
Vì vậy, nếu đội của bạn làm quảng cáo, concept bao bì, mockup sản phẩm, key visual thương hiệu hoặc asset cần bố cục ổn định, GPT Image 2 là lựa chọn khởi đầu an toàn hơn.
Nano Banana Pro mạnh ở đâu?
1. Chân dung photoreal, da và ánh sáng
Tín hiệu trực tiếp mạnh nhất của Nano Banana Pro nằm ở mảng hình sáng tạo photoreal. Trong bài so sánh 10 prompt của AVB, Nano Banana Pro thắng ở prompt chân dung siêu thực, selfie kiểu UGC và quảng cáo thể thao; nguồn này nêu rõ photorealism, kết cấu da và ánh sáng là các điểm mạnh [6].
Nếu bạn làm chân dung biên tập, ảnh lifestyle, quảng cáo kiểu creator/UGC hoặc concept điện ảnh nơi cảm xúc ánh sáng quan trọng hơn độ chính xác từng chữ, Nano Banana Pro là ứng viên rất đáng thử trước [6].
2. Workflow Gemini-native
Tài liệu tạo ảnh Nano Banana của Google minh họa cách dùng Gemini API với ảnh inline, thiết lập aspect ratio và tham số độ phân giải 2K [26]. Nếu sản phẩm của bạn đã phụ thuộc vào tooling Gemini, hoặc đội kỹ thuật muốn xây quanh luồng API của Google, sự phù hợp hệ sinh thái có thể quan trọng hơn một chênh lệch nhỏ trong benchmark.
Những hạng mục chưa có người thắng rõ ràng
Với nhiều nhóm hình thương mại phổ biến, bằng chứng công khai chưa cho thấy một người thắng bền vững. Genspark cho rằng GPT Image 2 và Nano Banana 2 gần như hòa ở ảnh sản phẩm photoreal, mockup thương mại điện tử, infographic marketing và sơ đồ giải phẫu khi được prompt đúng cách [3].
Sơ đồ kỹ thuật cũng rất sát. Analytics Vidhya mô tả bài annotated-diagram là vòng gần nhất: Nano Banana 2 tạo sơ đồ kỹ thuật hai góc nhìn nghiêm ngặt với đường chú thích rõ, callout đo lường chính xác và schematic chi tiết; GPT Image 2 tạo kết quả phong cách blueprint cổ điển, bắt mắt, có typography trang trí và bố cục mạnh; cả hai đều render đúng các nhãn và điểm dữ liệu được yêu cầu [9]. Nếu bạn cần kích thước tuyệt đối, ký hiệu ngành hoặc chuẩn schematic nghiêm ngặt, bảng xếp hạng chung là chưa đủ — phải test bằng template thật của bạn.
Giá API: nhìn headline thì gần nhau, chi phí thật có thể khác
OpenAI liệt kê gpt-image-2 với input ảnh 8 USD/1.000.000 token, cached input ảnh 2 USD/1.000.000 token và output ảnh 30 USD/1.000.000 token [14]. Tài liệu OpenAI cũng nêu input văn bản 5 USD/1.000.000 token, cached input văn bản 1,25 USD/1.000.000 token và output văn bản 10 USD/1.000.000 token [
14][
21].
Google nêu output ảnh của Gemini có giá 30 USD/1.000.000 token; ảnh output đến 1024×1024 tiêu thụ 1.290 token, tương đương 0,039 USD mỗi ảnh [25].
Điểm rút ra: giá output ảnh headline khá giống nhau, nhưng chi phí thực tế có thể lệch đáng kể. Độ dài prompt, ảnh đầu vào, ảnh tham chiếu, độ phân giải, số vòng chỉnh sửa, số lần retry, tỷ lệ bị từ chối, caching và cách routing đều có thể làm thay đổi chi phí trên mỗi ảnh được chấp nhận [14][
25][
26]. Với job bất đồng bộ khối lượng lớn, OpenAI còn nói Batch API có thể tiết kiệm 50% cho input và output, chạy tác vụ bất đồng bộ trong 24 giờ [
15].
Giới hạn API và chi tiết routing cần kiểm tra
Trang model GPT Image 2 của OpenAI liệt kê rate limit theo tier: Free không được hỗ trợ; các tier trả phí tăng dần từ Tier 1 đến Tier 5 theo TPM và IPM [13]. Các mức được nêu trải từ Tier 1 với 100.000 TPM và 5 IPM đến Tier 5 với 8.000.000 TPM và 250 IPM [
13].
Ở phía Google, tài liệu Nano Banana image generation cho thấy ví dụ Gemini API dùng ảnh inline, aspect ratio và tham số 2K [26]. Nếu các tham số này khớp với yêu cầu sản phẩm, Nano Banana Pro có thể dễ tích hợp hơn trong workflow đã đặt Gemini làm trung tâm.
Nếu gọi qua router bên thứ ba, đừng mặc định giới hạn của nhà cung cấp gốc được giữ nguyên. Chẳng hạn, trang GPT Image 2 của Fal nêu kích thước tùy chỉnh phải là bội số của 16 ở cả hai cạnh, cạnh đơn tối đa 3840px, tỷ lệ tối đa 3:1 và tổng số pixel từ 655.360 đến 8.294.400 [17].
Vậy nên dùng API nào?
Chọn GPT Image 2 trước nếu bạn cần:
- Chữ tiếng Anh chính xác, nhãn, menu, UI copy, poster hoặc callout sản phẩm [
3][
6].
- Asset thương mại nặng layout như quảng cáo, bao bì, mockup sản phẩm và đồ họa thương hiệu có cấu trúc [
10].
- Truy cập OpenAI API với model, rate limit và giá token được tài liệu hóa rõ [
13][
14].
- Kinh tế batch cho job ảnh khối lượng lớn, chạy bất đồng bộ [
15].
Chọn Nano Banana Pro trước nếu bạn cần:
- Chân dung photoreal, ảnh kiểu UGC, lifestyle ad, kết cấu da hoặc ánh sáng điện ảnh [
6].
- Workflow Gemini/Nano Banana với tham số tạo ảnh được tài liệu hóa như aspect ratio và độ phân giải
2K[26].
- Điểm xuất phát cho typography CJK hoặc ánh sáng kịch tính, với lưu ý rằng tín hiệu CJK được trích từ Nano Banana 2 chứ không phải benchmark trực tiếp Nano Banana Pro [
3].
- Cách dự toán phù hợp với con số Google nêu cho ảnh 1024×1024: 1.290 output token, tương đương 0,039 USD mỗi ảnh [
25].
Benchmark cả hai nếu workload của bạn xoay quanh ảnh sản phẩm, mockup thương mại điện tử, infographic, sơ đồ giải phẫu hoặc schematic kỹ thuật, vì các so sánh hiện có cho kết quả rất sát ở những nhóm này [3][
9].
Cách tự benchmark để khỏi chọn nhầm
Trước khi chuẩn hóa vào một API, hãy tạo một bộ test nhỏ từ chính công việc thật của bạn. Bộ này nên chứa những thứ hay làm vỡ workflow: ảnh sản phẩm, quảng cáo thương hiệu, màn hình UI, sơ đồ, chữ đa ngôn ngữ, chỉnh sửa từ ảnh tham chiếu, bao bì, format mạng xã hội và các prompt có khả năng chạm chính sách.
Nên chấm từng output theo các tiêu chí:
- Độ chính xác và dễ đọc của chữ.
- Mức bám prompt.
- Logic bố cục và không gian.
- Độ trung thành với ảnh tham chiếu.
- Photorealism hoặc độ khớp style.
- Khả năng chỉnh tiếp qua prompt follow-up.
- Tỷ lệ artifact.
- Tỷ lệ bị từ chối.
- Độ trễ trong chính stack của bạn.
- Chi phí trên mỗi ảnh được duyệt.
Benchmark của Vidguru là một mẫu thử đáng tham khảo: dùng first-take generation, prompt giống nhau, reference giống nhau khi cần, và chấm theo prompt adherence, khả năng dùng thương mại, độ chính xác chữ, logic vật lý và độ trung thành với reference — không chỉ theo cảm giác đẹp/xấu [10].
Chốt lại
GPT Image 2 là API nên thử trước cho công việc nhiều chữ, có cấu trúc, cần layout thương mại ổn định. Nano Banana Pro là API nên thử trước cho chân dung, ánh sáng photoreal, kết cấu da và workflow Gemini-native. Với ảnh sản phẩm, sơ đồ và infographic, bằng chứng hiện tại quá sát để tuyên bố một người thắng chung; quyết định tốt nhất vẫn là benchmark riêng bằng prompt, ràng buộc và tiêu chí duyệt ảnh của chính bạn [3][
6][
9][
10].




