| Claude Opus 4.7 | Anthropic | $5,00 | $0,50 | $25,00 | 1 triệu token | 128K token |
| GPT-5.5 | OpenAI | $5,00 | $0,50 | $30,00 | Bậc ngữ cảnh ngắn; phụ phí ngữ cảnh dài từ ~272K token | 128K token |
| GPT-5.5 Pro | OpenAI | $30,00 | — | $180,00 | Bậc ngữ cảnh ngắn; phụ phí ngữ cảnh dài từ ~272K token | 128K token |
| Gemini 3.5 Flash | $1,50 | $0,15 | $9,00 | 1.048.576 token | 65.536 token |
| Grok 4.3 | xAI | $1,25 | $0,20 | $2,50 | 1 triệu token | — |
| DeepSeek V4 Flash | DeepSeek | $0,14 | $0,028 | $0,28 | 1 triệu token | 384K token |
| DeepSeek V4 Pro | DeepSeek | $1,74 | $0,145 | $3,48 | 1 triệu token | 384K token |
Claude Opus 4.8 và 4.7 có mức giá tiêu chuẩn giống hệt Opus 4.6, tiếp tục xu hướng giữ giá của Anthropic kể từ thế hệ Opus 4.5 . Tuy nhiên, điểm đáng chú ý là Opus 4.7 đã giới thiệu một bộ tokenizer mới, khiến cùng một văn bản đầu vào có thể tạo ra nhiều hơn đến 35% token so với Opus 4.6. Điều này đồng nghĩa với việc chi phí thực tế cho cùng một câu lệnh có thể tăng lên, dù giá trên mỗi token không đổi
.
Về phía GPT-5.5, mọi thứ phức tạp hơn một chút. Khi một yêu cầu vượt quá ngưỡng khoảng 272K token, giá đầu vào sẽ tăng gấp đôi và giá đầu ra tăng gấp rưỡi. Đây là cấu trúc giá bậc thang có thể khiến nhiều người dùng bất ngờ nếu không theo dõi sát độ dài câu lệnh . Grok 4.3 cũng áp dụng cách tiếp cận tương tự: giá tiêu chuẩn áp dụng cho yêu cầu dưới 200K token, sau đó giá sẽ tăng gấp đôi
.
DeepSeek V4 Flash là mô hình có giá rẻ nhất trong nhóm này với khoảng cách rất xa. Ở mức $0,14 cho đầu vào và $0,28 cho đầu ra mỗi triệu token, nó rẻ hơn khoảng 97% so với GPT-5.5 về chi phí đầu ra và gần 70% so với Grok 4.3 về chi phí đầu vào, biến nó thành lựa chọn hàng đầu cho các tác vụ tác nhân (agent) khối lượng lớn .
Prompt caching là cách hiệu quả nhất để giảm chi phí cho mỗi yêu cầu trên tất cả các nhà cung cấp. Khi các câu lệnh có chung một phần mở đầu – ví dụ như chỉ dẫn hệ thống hoặc lịch sử hội thoại dài – các token đầu vào được cache sẽ được tính phí chỉ bằng một phần nhỏ so với giá tiêu chuẩn.
Anthropic, OpenAI và Google đều áp dụng mức chiết khấu khoảng 90% cho đầu vào cache. DeepSeek niêm yết giá cache hit của V4 Flash là $0,028, giảm 80% so với giá cache miss $0,14 . Trong khi đó, Grok 4.3 đưa ra mức giá cache là $0,20 cho mỗi triệu token với các yêu cầu dưới 200K token
. Với những hệ thống có câu lệnh lặp lại thường xuyên, việc tận dụng các bậc cache này có thể dễ dàng cắt giảm một nửa hóa đơn API hàng tháng.
API Batch cung cấp một đòn bẩy chi phí lớn khác, thường giảm một nửa giá token tiêu chuẩn để đổi lấy thời gian phản hồi chậm hơn.
Kích thước cửa sổ ngữ cảnh và token đầu ra tối đa ảnh hưởng đến cả khả năng và chi phí. Cửa sổ ngữ cảnh lớn hơn có nghĩa là nhiều token đầu vào hơn cho mỗi yêu cầu, từ đó trực tiếp nhân hóa đơn của bạn lên.
Comments
0 comments