Khi nâng cấp mô hình AI, nhiều nhóm chỉ nhìn vào giá mỗi triệu token. Nhưng còn một biến số dễ bị bỏ qua: tokenizer, tức cơ chế tách nội dung thành token trước khi mô hình xử lý. Nếu tokenizer thay đổi, cùng một prompt có thể được tính thành số token khác. Trong khi đó, nhiều bảng giá API LLM dùng token đầu vào, token đầu ra hoặc các loại token liên quan đến cache làm đơn vị tính phí.[20][
12][
32][
2]
Với Claude Opus 4.7, đây không còn là chuyện lý thuyết. Anthropic cho biết tokenizer mới có thể dùng khoảng 1x đến 1,35x số token khi xử lý văn bản so với các mô hình trước, tức tối đa khoảng 35% nhiều hơn, và mức tăng thay đổi theo nội dung. Tài liệu cũng nói endpoint /v1/messages/count_tokens sẽ trả số token khác nhau cho Claude Opus 4.7 so với Claude Opus 4.6 trên cùng input.[34]
Câu trả lời ngắn: có thể tăng chi phí, nhưng không phải prompt nào cũng tăng 35%
Cách hiểu chính xác là: tokenizer mới có thể làm cùng một prompt phát sinh nhiều input token hơn. Nếu đơn giá input token giữ nguyên, phần chi phí input có thể tăng theo. Nhưng Anthropic nêu khoảng 1x–1,35x và nhấn mạnh mức này tùy nội dung, nên không nên diễn giải thành “mọi prompt đều đắt hơn 35%”.[34]
Cũng không nên lấy mức tăng token input để suy thẳng ra mức tăng toàn bộ hóa đơn. Tài liệu giá của Anthropic tách riêng Base Input TokensCache WritesCache HitsOutput Tokens12][
32][
2] Nói cách khác, input token tăng sẽ ảnh hưởng phần input, nhưng tổng chi phí còn phụ thuộc output token, cache hit hay cache write, mô hình đang dùng và cấu trúc request thực tế.[
12]
Vì sao cùng một đoạn chữ lại ra số token khác nhau?
Token không đồng nghĩa với số từ hay số ký tự. Hướng dẫn tiktoken của OpenAI cho thấy cần dùng đúng encoding để tính một đoạn văn bản sẽ được tách thành bao nhiêu token; tài liệu Gemini cũng nêu input và output của Gemini API đều được token hóa, bao gồm cả văn bản và hình ảnh.[20][
1]
Vì vậy, đếm ký tự hoặc dùng một tỷ lệ ước lượng chỉ phù hợp để dự toán rất thô. Với chi phí sản phẩm thật, con số đáng tin hơn là token count do chính mô hình hoặc API đích trả về. Việc Claude Opus 4.7 và Opus 4.6 trả số token khác nhau qua count_tokens là ví dụ rõ ràng rằng thay đổi tokenizer có thể làm thay đổi phép đếm trên cùng nội dung.[34]
Mức 35% nên được đọc thế nào?
| Cách nói thường gặp | Cách hiểu chính xác hơn |
|---|---|
| Opus 4.7 làm mọi prompt đắt hơn 35% | Quá đơn giản hóa. Tài liệu nêu khoảng 1x–1,35x token và tùy nội dung.[ |
| Cùng một đoạn văn có thể bị tính nhiều token hơn | Đúng. Anthropic nói tokenizer mới của Opus 4.7 có thể dùng nhiều token hơn và count_tokens sẽ khác Opus 4.6.[ |
| Tokenizer chỉ ảnh hưởng giới hạn context, không ảnh hưởng chi phí | Chưa đủ. Giá API thường tách input, output, cache và các trường token khác; token count thay đổi có thể làm thay đổi cách tính chi phí.[ |
| Muốn biết chính xác thì phải đo bằng công cụ chính thức | Đúng. OpenAI có tài liệu đếm input token và tiktoken, Gemini có count_tokens, Anthropic chỉ tới /v1/messages/count_tokens cho trường hợp Opus 4.7.[ |
Có thể ước tính chi phí ra sao?
Nếu chỉ xét input token và giả định đơn giá mỗi input token không đổi, có thể dùng công thức đơn giản:
Chi phí input tăng thêm ≈ (input token theo tokenizer mới − input token theo tokenizer cũ) × đơn giá mỗi input token
Nhưng công thức này chỉ tính phần input. Hóa đơn thực tế còn có thể gồm output token, cache write, cache hit hoặc các trường giá khác. Tài liệu giá của Anthropic đã tách các mục này; OpenAI và Gemini cũng có trang giá riêng để đối chiếu.[12][
32][
2]
Quy trình nên làm trước khi nâng cấp mô hình
1. Lấy toàn bộ payload thật, đừng chỉ lấy user message
Request thực tế có thể gồm system prompt, lịch sử hội thoại, context dài, dữ liệu từ tool, file, hình ảnh hoặc nhiều loại input khác. Gemini nêu mọi input và output đều được token hóa; hướng dẫn đếm token của OpenAI cũng minh họa việc tính input token với cả văn bản và hình ảnh.[1][
33]
2. Dùng token counter chính thức của mô hình đích
OpenAI có tài liệu responses.input_tokens.count và hướng dẫn tiktoken; Gemini cung cấp count_tokens; Anthropic trong tài liệu Opus 4.7 nhắc tới /v1/messages/count_tokens và nói Opus 4.7 sẽ trả số token khác Opus 4.6.[33][
20][
1][
34]
3. Lấy mẫu theo từng loại nội dung
Đừng chỉ thử một prompt ngắn. Vì Anthropic nói mức tăng token của Opus 4.7 thay đổi theo nội dung, nên nên đo các nhóm payload quan trọng: request có lưu lượng cao, context dài, request đắt nhất hoặc loại prompt xuất hiện thường xuyên nhất.[34]
4. Áp token delta vào bảng giá chính thức
Trước hết, so sánh input token count giữa mô hình cũ và mới. Sau đó dùng bảng giá chính thức của mô hình tương ứng để tính phần chênh lệch input. Cuối cùng, cộng lại các phần output, cache và các mục tính phí khác nếu có. Anthropic, OpenAI và Gemini đều có tài liệu giá chính thức để kiểm tra.[12][
32][
2]
5. Quyết định có cần tối ưu hay không
Nếu chênh lệch token nhỏ, có thể chỉ cần cập nhật ngân sách và dashboard giám sát. Nếu các payload có lưu lượng cao tăng đáng kể, khi đó mới nên cân nhắc rút gọn prompt, giảm context, cải thiện chiến lược cache hoặc tính lại chi phí mỗi request. Điểm mấu chốt không phải là hoảng vì con số 35%, mà là đo bằng token counter chính thức rồi áp vào bảng giá chính thức.[12][
34]
Điểm chốt
Tokenizer mới thật sự có thể làm cùng một prompt dùng nhiều token hơn. Với Claude Opus 4.7, Anthropic xác nhận khi xử lý văn bản, tokenizer mới có thể dùng khoảng 1x–1,35x token so với các mô hình trước, tức tối đa khoảng 35%, nhưng mức tăng tùy nội dung.[34]
Câu hỏi cần đặt ra không phải là “có 35% hay không”, mà là: payload thật của bạn tăng bao nhiêu input token trên mô hình mới, hành vi output có thay đổi không, cache được tính phí thế nào và bảng giá của nhà cung cấp áp dụng ra sao. Cách đáng tin cậy nhất trước khi nâng cấp là chạy token counter chính thức, rồi đưa kết quả vào mô hình chi phí dựa trên bảng giá chính thức.[33][
1][
34][
12][
32][
2]




