Chi phí Claude Opus 4.7 API không nên được ước tính chỉ bằng số lượt gọi. Với tài liệu dài hoặc hội thoại dài, khoản dễ đội lên nhất là phần ngữ cảnh bị gửi lại ở mỗi lượt. Nếu cùng một khối nội dung được dùng lặp lại, prompt caching có thể là ranh giới giữa ngân sách kiểm soát được và hóa đơn tăng rất nhanh.
Anthropic cho biết nhà phát triển có thể dùng model claude-opus-4-7 qua Claude API.[11] Các phép tính dưới đây chỉ dựa trên giá công khai của Claude API, không tính hợp đồng doanh nghiệp, endpoint qua nền tảng cloud, nhà cung cấp định tuyến bên thứ ba, thuế hoặc chênh lệch tỷ giá.[
2]
Trước hết: hiểu đúng đơn giá MTok
Trong tài liệu định giá Claude API, MTok nghĩa là 1 triệu token. Với Claude Opus 4.7, các mức giá công khai gồm input cơ bản, output và prompt caching như sau.[2]
| Hạng mục tính phí | Giá công khai Claude Opus 4.7 |
|---|---|
| Base input tokens | $5 / 1 triệu token |
| Output tokens | $25 / 1 triệu token |
| Cache write 5 phút | $6,25 / 1 triệu token |
| Cache write 1 giờ | $10 / 1 triệu token |
| Cache hit / refresh | $0,50 / 1 triệu token |
Nếu không dùng cache, công thức cơ bản là:[2]
Chi phí = input_tokens / 1.000.000 × 5
+ output_tokens / 1.000.000 × 25Khi dùng prompt caching, cần tách phần ngữ cảnh có thể tái sử dụng khỏi phần mới phát sinh. Phần được ghi vào cache 5 phút tính theo $6,25/MTok; phần ghi vào cache 1 giờ tính theo $10/MTok; các lượt cache hit hoặc refresh sau đó tính theo $0,50/MTok. Câu hỏi mới, tin nhắn mới hoặc nội dung chưa cache vẫn tính như input thông thường, còn phần model trả lời vẫn tính theo giá output.[2]
Tài liệu dài chỉ phân tích một lần: tính thẳng input + output
Nếu bạn chỉ đưa một tài liệu vào để tóm tắt, phân tích hoặc trích xuất thông tin một lần, không có chuỗi hỏi đáp tiếp theo, cách tính khá đơn giản: tài liệu, system prompt và câu hỏi đều là input; câu trả lời của model là output. Các ví dụ dưới đây dùng giá công khai Claude API.[2]
| Tình huống | Input | Output | Chi phí ước tính |
|---|---|---|---|
| Tóm tắt tài liệu dài vừa phải | 100k | 5k | khoảng $0,625 |
| Phân tích tài liệu trung bình-lớn | 300k | 8k | khoảng $1,70 |
| Phân tích tài liệu rất lớn | 1M | 10k | khoảng $5,25 |
Ví dụ với 300k input và 8k output:
300.000 / 1.000.000 × 5 = 1,50
8.000 / 1.000.000 × 25 = 0,20
Tổng cộng = 1,70 USDMột điểm dễ bị bỏ sót khi chuyển từ model cũ sang Opus 4.7: Anthropic ghi chú rằng Opus 4.7 dùng tokenizer mới, nên cùng một đoạn văn bản cố định có thể tăng số token tối đa 35%.[2]
Vì vậy, nếu trước đây bạn ước tính 300k input, một cách bảo thủ là nâng lên 405k input. Với 8k output, chi phí sẽ là:
405.000 / 1.000.000 × 5 = 2,025
8.000 / 1.000.000 × 25 = 0,20
Tổng cộng ≈ 2,23 USDHỏi nhiều lần trên cùng tài liệu: cache là điểm hòa vốn
Với sản phẩm hỏi đáp tài liệu, phần tốn tiền thường không nằm ở một câu trả lời riêng lẻ, mà ở việc cùng một tài liệu lớn bị đưa lại vào context ở từng lượt hỏi. Nếu người dùng sẽ hỏi tiếp trên cùng tài liệu, nên đưa prompt caching vào mô hình ngân sách ngay từ đầu.[2]
Giả sử:
- Tài liệu: 300k token
- Mỗi câu hỏi mới: 2k token
- Mỗi câu trả lời: 2k output token
- Dùng prompt cache 5 phút
| Cách làm | Thành phần chi phí | Chi phí ước tính |
|---|---|---|
| Lượt đầu: ghi cache 5 phút | 300k × $6,25/MTok + 2k × $5/MTok + 2k × $25/MTok | khoảng $1,935 |
| Lượt sau: cache hit | 300k × $0,50/MTok + 2k × $5/MTok + 2k × $25/MTok | khoảng $0,21 |
| Không dùng cache: gửi lại toàn bộ tài liệu mỗi lượt | 302k × $5/MTok + 2k × $25/MTok | khoảng $1,56 |
Ở lượt đầu, ghi cache 5 phút thậm chí đắt hơn so với không cache. Nhưng chỉ cần cùng tài liệu được hỏi sang lượt thứ hai, tổng chi phí đã đổi chiều:
Không cache, 2 lượt: khoảng 1,56 × 2 = 3,12 USD
Dùng cache 5 phút, 2 lượt: khoảng 1,935 + 0,21 = 2,145 USDVì vậy, khi lập ngân sách cho tính năng hỏi đáp tài liệu, câu hỏi quan trọng không chỉ là tài liệu dài bao nhiêu. Bạn cần biết tài liệu đó có được hỏi lặp lại không, các câu hỏi tiếp theo có rơi trong thời hạn cache không, và mỗi lượt có kéo thêm nhiều nội dung mới chưa cache hay không.[2]
Hội thoại dài: đừng trả tiền lại cho lịch sử giống hệt mỗi lượt
Hội thoại dài có logic chi phí gần giống tài liệu dài. Nếu ứng dụng cứ gửi lại toàn bộ lịch sử trò chuyện ở mỗi lượt, input cost sẽ cộng dồn rất nhanh. Phần lịch sử ổn định, có khả năng tái sử dụng nên được đánh giá để cache.[2]
Giả sử:
- Lịch sử hội thoại: 200k token
- Tin nhắn mới mỗi lượt: 1k token
- Output mỗi lượt: 2k token
| Cách làm | Chi phí ước tính |
|---|---|
| Không cache: mỗi lượt gửi 200k lịch sử + 1k tin mới + 2k output | khoảng $1,055 / lượt |
| Ghi 200k lịch sử vào cache 5 phút: lượt đầu | khoảng $1,305 |
| Sau khi cache 5 phút hit: mỗi lượt | khoảng $0,155 / lượt |
| Ghi 200k lịch sử vào cache 1 giờ: lượt đầu | khoảng $2,055 |
| Sau khi cache 1 giờ hit: mỗi lượt | khoảng $0,155 / lượt |
Chọn cache 5 phút hay 1 giờ không nên chỉ nhìn giá ghi cache. Hãy nhìn hành vi thực tế của người dùng:
- Nếu người dùng thường hỏi liên tục trong vòng 5 phút, cache 5 phút là giả định đáng thử trước.
- Nếu họ hay quay lại sau hơn 5 phút nhưng vẫn trong vòng 1 giờ, cache 1 giờ có thể hợp lý hơn dù lượt ghi đầu tiên đắt hơn.
- Nếu khoảng cách giữa các lượt rất khó đoán, nên lấy mẫu traffic thật, đo tỷ lệ cache hit rồi mới tối ưu kiến trúc.
Tác vụ batch: trước tiên hãy lập ngân sách bảo thủ
Batch, hay xử lý theo lô, thường dùng cho phân tích ngoại tuyến, gán nhãn dữ liệu, tóm tắt hàng loạt hoặc phân loại số lượng lớn. Tuy nhiên, nếu chưa xác nhận tài khoản, hợp đồng hoặc endpoint bạn dùng có áp dụng batch pricing cụ thể hay không, đừng đưa một mức chiết khấu chưa kiểm chứng vào ngân sách cần phê duyệt.
Cách bảo thủ là tính trước theo giá API đồng bộ công khai, sau đó thay đơn giá khi bạn đã xác nhận được giá batch thực tế.[2]
Tổng chi phí = tổng input_tokens / 1.000.000 × 5
+ tổng output_tokens / 1.000.000 × 25Ví dụ: 10.000 tác vụ, mỗi tác vụ có 2k input và 500 output.
Tổng input = 10.000 × 2.000 = 20.000.000 token
Tổng output = 10.000 × 500 = 5.000.000 token
Chi phí input = 20 × 5 = 100 USD
Chi phí output = 5 × 25 = 125 USD
Tổng cộng = 225 USDCon số $225 ở đây là ngân sách bảo thủ theo giá đồng bộ, chưa tính bất kỳ batch discount nào. Khi đã xác nhận đơn giá thực tế, bạn chỉ cần thay các mức $5 và $25 bằng giá áp dụng cho tài khoản hoặc nền tảng của mình.
Nếu bạn không gọi trực tiếp Claude API của Anthropic mà đi qua nền tảng cloud hoặc nhà cung cấp định tuyến model, hóa đơn thực tế có thể khác. Dữ liệu bên thứ ba từ CloudPrice liệt kê Opus 4.7 ở loại Anthropic / global là $5 input và $25 output mỗi MTok, đồng thời ghi một số mã vùng AWS Bedrock ở mức $5,50 input và $27,50 output mỗi MTok. Những dữ liệu như vậy hữu ích để kiểm tra chéo, nhưng ngân sách chính thức vẫn nên dựa trên trang billing, hợp đồng và tài liệu chính thức của nền tảng bạn dùng.[12]
Đừng quên buffer: lý thuyết thường thấp hơn hóa đơn thật
Nếu chưa có log token thực tế, ước tính bằng kịch bản lý tưởng thường hơi lạc quan. Ít nhất nên thêm phần đệm cho ba nhóm rủi ro:
- Rủi ro tokenizer khi chuyển model: Opus 4.7 có tokenizer mới, và cùng một đoạn văn bản cố định có thể tăng tối đa 35% token.[
2]
- Tỷ lệ cache hit chưa chắc chắn: cache chỉ giảm chi phí rõ rệt khi ngữ cảnh thực sự được dùng lại và vẫn còn trong thời hạn hiệu lực.[
2]
- Hành vi sử dụng ngoài giả định: người dùng có thể yêu cầu output dài hơn, thử lại nhiều lần, tải tài liệu lớn hơn hoặc duy trì hội thoại dài hơn kế hoạch.
Một cách đặt buffer không chính thức, thiên về quản trị ngân sách:
| Giai đoạn | Hệ số ngân sách nên cân nhắc |
|---|---|
| PoC / chạy thử | Giá trị lý thuyết × 1,2 đến 1,5 |
| Đã lên production, traffic tương đối ổn định | Giá trị lý thuyết × 1,35 đến 1,6 |
| Chuyển từ model cũ sang Opus 4.7 và phụ thuộc nhiều vào long context | Giá trị lý thuyết × 1,5 đến 1,8 |
Các hệ số này không phải báo giá chính thức của Anthropic. Sau khi vận hành thật, nên dùng log token, tỷ lệ cache hit và hóa đơn thực tế để cập nhật lại mô hình chi phí.
Mẫu tính nhanh cho đội sản phẩm hoặc kỹ thuật
Nếu không dùng cache, có thể ước tính chi phí tháng như sau:
Chi phí tháng ≈ số request mỗi ngày × 30
× (input trung bình / 1.000.000 × 5
+ output trung bình / 1.000.000 × 25)Nếu có cache, đừng gộp tất cả thành một dòng. Hãy tách riêng:
Chi phí tháng ≈ chi phí input thông thường
+ chi phí cache write
+ chi phí cache hit / refresh
+ chi phí outputTrước khi triển khai, ít nhất nên điền các biến sau:
| Biến | Ví dụ |
|---|---|
| Input trung bình mỗi request | 300.000 token |
| Output trung bình mỗi request | 8.000 token |
| Số request mỗi ngày | 1.000 |
| Cache write tokens | 300.000 cho mỗi tài liệu |
| Cache hit tokens | 300.000 cho mỗi lượt hit |
| Cache hit rate | 60% |
| Buffer do tokenizer | tối đa tạm tính × 1,35 |
| Buffer vận hành | ví dụ × 1,35 đến 1,6 |
Chốt lại: nên bắt đầu từ đâu?
Với phân tích tài liệu một lần, hãy lấy giá $5/MTok input và $25/MTok output để tính trực tiếp.[2]
Với hỏi đáp lặp lại trên cùng tài liệu hoặc hội thoại dài phải mang nhiều lịch sử, hãy thử tính prompt caching trước khi chốt kiến trúc. Trong ví dụ tài liệu 300k token, câu hỏi 2k token và output 2k token, lượt cache hit 5 phút chỉ khoảng $0,21, trong khi gửi lại toàn bộ tài liệu mỗi lần khoảng $1,56.[2]
Với batch, nếu chưa xác nhận được giá áp dụng, hãy lập ngân sách theo giá đồng bộ công khai rồi điều chỉnh sau. Nếu đang chuyển từ model cũ sang Opus 4.7, nên nhân ước tính input token tối đa với 1,35 trước, sau đó cộng thêm buffer vận hành. Cách này thường gần thực tế hơn so với chỉ nhìn bảng giá niêm yết.[2]




