答案已發布2026年4月29日Last edited 2026年5月6日3 個來源

Claude Opus 4.7 API: cách tính chi phí cho tài liệu dài, chat dài và batch

Giá công khai của Claude Opus 4.7 API là $5/MTok cho input và $25/MTok cho output; với tài liệu dài chỉ chạy một lần, có thể tính trực tiếp theo công thức input + output.[2] Prompt caching là điểm mấu chốt khi hỏi nhiều lần trên cùng tài liệu hoặc hội thoại dài: cache write 5 phút là $6,25/MTok, cache write 1 giờ là...

使用 Studio Global AI 搜尋並查證事實探索更多內容

16K0

Claude Opus 4.7 API 價格試算與長上下文成本分析示意圖 — Claude Opus 4.7 API 價格試算：長文件、長對話與批次任務預算指南長文件與長對話的 API 預算，應拆成 input、output、prompt caching 與安全 buffer 分別估算。
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 API 價格試算：長文件、長對話與批次任務預算指南. Article summary: Claude Opus 4.7 API 的基礎價是每百萬 input tokens $5、output tokens $25；一次性任務可直接套公式，但長文件與長對話若會反覆查問，成本關鍵通常是 prompt caching 與 token buffer。[2]. Topic tags: ai, anthropic, claude, api pricing, prompt caching. Reference image context from search candidates: Reference image 1: visual subject "# Claude Opus 4.7 上线完全指南（2026 最新）：核心升级与国内 API 接入方案. **Claude Opus 4.7 于 2026 年 4 月 16 日正式发布，API model ID 为 `claude-opus-4-7`，定价维持与 Opus 4.6 相同的 $5/M 输入 token、$25/M 输出 token 不变，1M t" source context "Claude Opus 4.7 上线完全指南（2026 最新）：核心升级与 ..." Reference image 2: visual subject "Claude API 定价 2026：Anthropic 最新 Opus、Sonnet、Haiku 成本. | **Claude Opus 4.7** | $5.00 | $25.00 | 最新旗舰，适合复杂编码、智能体和高自治任务 |. | **Claude Opus 4.6** | $5.00 | $25.00 | 上一代旗舰，适合迁移对照和已固定版本部" source context "Claude API 定价2
openai.com

Chi phí Claude Opus 4.7 API không nên được ước tính chỉ bằng số lượt gọi. Với tài liệu dài hoặc hội thoại dài, khoản dễ đội lên nhất là phần ngữ cảnh bị gửi lại ở mỗi lượt. Nếu cùng một khối nội dung được dùng lặp lại, prompt caching có thể là ranh giới giữa ngân sách kiểm soát được và hóa đơn tăng rất nhanh.

Anthropic cho biết nhà phát triển có thể dùng model claude-opus-4-7 qua Claude API.^[11] Các phép tính dưới đây chỉ dựa trên giá công khai của Claude API, không tính hợp đồng doanh nghiệp, endpoint qua nền tảng cloud, nhà cung cấp định tuyến bên thứ ba, thuế hoặc chênh lệch tỷ giá.^[2]

Trước hết: hiểu đúng đơn giá MTok

Trong tài liệu định giá Claude API, MTok nghĩa là 1 triệu token. Với Claude Opus 4.7, các mức giá công khai gồm input cơ bản, output và prompt caching như sau.^[2]

Hạng mục tính phí	Giá công khai Claude Opus 4.7
Base input tokens	$5 / 1 triệu token
Output tokens	$25 / 1 triệu token
Cache write 5 phút	$6,25 / 1 triệu token
Cache write 1 giờ	$10 / 1 triệu token
Cache hit / refresh	$0,50 / 1 triệu token

Nếu không dùng cache, công thức cơ bản là:^[2]

text

Chi phí = input_tokens / 1.000.000 × 5
        + output_tokens / 1.000.000 × 25

Khi dùng prompt caching, cần tách phần ngữ cảnh có thể tái sử dụng khỏi phần mới phát sinh. Phần được ghi vào cache 5 phút tính theo $6,25/MTok; phần ghi vào cache 1 giờ tính theo $10/MTok; các lượt cache hit hoặc refresh sau đó tính theo $0,50/MTok. Câu hỏi mới, tin nhắn mới hoặc nội dung chưa cache vẫn tính như input thông thường, còn phần model trả lời vẫn tính theo giá output.^[2]

Tài liệu dài chỉ phân tích một lần: tính thẳng input + output

Nếu bạn chỉ đưa một tài liệu vào để tóm tắt, phân tích hoặc trích xuất thông tin một lần, không có chuỗi hỏi đáp tiếp theo, cách tính khá đơn giản: tài liệu, system prompt và câu hỏi đều là input; câu trả lời của model là output. Các ví dụ dưới đây dùng giá công khai Claude API.^[2]

Tình huống	Input	Output	Chi phí ước tính
Tóm tắt tài liệu dài vừa phải	100k	5k	khoảng $0,625
Phân tích tài liệu trung bình-lớn	300k	8k	khoảng $1,70
Phân tích tài liệu rất lớn	1M	10k	khoảng $5,25

Ví dụ với 300k input và 8k output:

text

300.000 / 1.000.000 × 5  = 1,50
8.000 / 1.000.000 × 25   = 0,20
Tổng cộng                 = 1,70 USD

Một điểm dễ bị bỏ sót khi chuyển từ model cũ sang Opus 4.7: Anthropic ghi chú rằng Opus 4.7 dùng tokenizer mới, nên cùng một đoạn văn bản cố định có thể tăng số token tối đa 35%.^[2]

Vì vậy, nếu trước đây bạn ước tính 300k input, một cách bảo thủ là nâng lên 405k input. Với 8k output, chi phí sẽ là:

text

405.000 / 1.000.000 × 5  = 2,025
8.000 / 1.000.000 × 25   = 0,20
Tổng cộng                 ≈ 2,23 USD

Hỏi nhiều lần trên cùng tài liệu: cache là điểm hòa vốn

Với sản phẩm hỏi đáp tài liệu, phần tốn tiền thường không nằm ở một câu trả lời riêng lẻ, mà ở việc cùng một tài liệu lớn bị đưa lại vào context ở từng lượt hỏi. Nếu người dùng sẽ hỏi tiếp trên cùng tài liệu, nên đưa prompt caching vào mô hình ngân sách ngay từ đầu.^[2]

Giả sử:

Tài liệu: 300k token
Mỗi câu hỏi mới: 2k token
Mỗi câu trả lời: 2k output token
Dùng prompt cache 5 phút

Cách làm	Thành phần chi phí	Chi phí ước tính
Lượt đầu: ghi cache 5 phút	300k × $6,25/MTok + 2k × $5/MTok + 2k × $25/MTok	khoảng $1,935
Lượt sau: cache hit	300k × $0,50/MTok + 2k × $5/MTok + 2k × $25/MTok	khoảng $0,21
Không dùng cache: gửi lại toàn bộ tài liệu mỗi lượt	302k × $5/MTok + 2k × $25/MTok	khoảng $1,56

Ở lượt đầu, ghi cache 5 phút thậm chí đắt hơn so với không cache. Nhưng chỉ cần cùng tài liệu được hỏi sang lượt thứ hai, tổng chi phí đã đổi chiều:

text

Không cache, 2 lượt: khoảng 1,56 × 2 = 3,12 USD
Dùng cache 5 phút, 2 lượt: khoảng 1,935 + 0,21 = 2,145 USD

Vì vậy, khi lập ngân sách cho tính năng hỏi đáp tài liệu, câu hỏi quan trọng không chỉ là tài liệu dài bao nhiêu. Bạn cần biết tài liệu đó có được hỏi lặp lại không, các câu hỏi tiếp theo có rơi trong thời hạn cache không, và mỗi lượt có kéo thêm nhiều nội dung mới chưa cache hay không.^[2]

Hội thoại dài: đừng trả tiền lại cho lịch sử giống hệt mỗi lượt

Hội thoại dài có logic chi phí gần giống tài liệu dài. Nếu ứng dụng cứ gửi lại toàn bộ lịch sử trò chuyện ở mỗi lượt, input cost sẽ cộng dồn rất nhanh. Phần lịch sử ổn định, có khả năng tái sử dụng nên được đánh giá để cache.^[2]

Giả sử:

Lịch sử hội thoại: 200k token
Tin nhắn mới mỗi lượt: 1k token
Output mỗi lượt: 2k token

Cách làm	Chi phí ước tính
Không cache: mỗi lượt gửi 200k lịch sử + 1k tin mới + 2k output	khoảng $1,055 / lượt
Ghi 200k lịch sử vào cache 5 phút: lượt đầu	khoảng $1,305
Sau khi cache 5 phút hit: mỗi lượt	khoảng $0,155 / lượt
Ghi 200k lịch sử vào cache 1 giờ: lượt đầu	khoảng $2,055
Sau khi cache 1 giờ hit: mỗi lượt	khoảng $0,155 / lượt

Chọn cache 5 phút hay 1 giờ không nên chỉ nhìn giá ghi cache. Hãy nhìn hành vi thực tế của người dùng:

Nếu người dùng thường hỏi liên tục trong vòng 5 phút, cache 5 phút là giả định đáng thử trước.
Nếu họ hay quay lại sau hơn 5 phút nhưng vẫn trong vòng 1 giờ, cache 1 giờ có thể hợp lý hơn dù lượt ghi đầu tiên đắt hơn.
Nếu khoảng cách giữa các lượt rất khó đoán, nên lấy mẫu traffic thật, đo tỷ lệ cache hit rồi mới tối ưu kiến trúc.

Tác vụ batch: trước tiên hãy lập ngân sách bảo thủ

Batch, hay xử lý theo lô, thường dùng cho phân tích ngoại tuyến, gán nhãn dữ liệu, tóm tắt hàng loạt hoặc phân loại số lượng lớn. Tuy nhiên, nếu chưa xác nhận tài khoản, hợp đồng hoặc endpoint bạn dùng có áp dụng batch pricing cụ thể hay không, đừng đưa một mức chiết khấu chưa kiểm chứng vào ngân sách cần phê duyệt.

Cách bảo thủ là tính trước theo giá API đồng bộ công khai, sau đó thay đơn giá khi bạn đã xác nhận được giá batch thực tế.^[2]

text

Tổng chi phí = tổng input_tokens / 1.000.000 × 5
             + tổng output_tokens / 1.000.000 × 25

Ví dụ: 10.000 tác vụ, mỗi tác vụ có 2k input và 500 output.

text

Tổng input  = 10.000 × 2.000 = 20.000.000 token
Tổng output = 10.000 × 500   = 5.000.000 token

Chi phí input  = 20 × 5  = 100 USD
Chi phí output = 5 × 25  = 125 USD
Tổng cộng      = 225 USD

Con số $225 ở đây là ngân sách bảo thủ theo giá đồng bộ, chưa tính bất kỳ batch discount nào. Khi đã xác nhận đơn giá thực tế, bạn chỉ cần thay các mức $5 và $25 bằng giá áp dụng cho tài khoản hoặc nền tảng của mình.

Nếu bạn không gọi trực tiếp Claude API của Anthropic mà đi qua nền tảng cloud hoặc nhà cung cấp định tuyến model, hóa đơn thực tế có thể khác. Dữ liệu bên thứ ba từ CloudPrice liệt kê Opus 4.7 ở loại Anthropic / global là $5 input và $25 output mỗi MTok, đồng thời ghi một số mã vùng AWS Bedrock ở mức $5,50 input và $27,50 output mỗi MTok. Những dữ liệu như vậy hữu ích để kiểm tra chéo, nhưng ngân sách chính thức vẫn nên dựa trên trang billing, hợp đồng và tài liệu chính thức của nền tảng bạn dùng.^[12]

Đừng quên buffer: lý thuyết thường thấp hơn hóa đơn thật

Nếu chưa có log token thực tế, ước tính bằng kịch bản lý tưởng thường hơi lạc quan. Ít nhất nên thêm phần đệm cho ba nhóm rủi ro:

Rủi ro tokenizer khi chuyển model: Opus 4.7 có tokenizer mới, và cùng một đoạn văn bản cố định có thể tăng tối đa 35% token.^[2]
Tỷ lệ cache hit chưa chắc chắn: cache chỉ giảm chi phí rõ rệt khi ngữ cảnh thực sự được dùng lại và vẫn còn trong thời hạn hiệu lực.^[2]
Hành vi sử dụng ngoài giả định: người dùng có thể yêu cầu output dài hơn, thử lại nhiều lần, tải tài liệu lớn hơn hoặc duy trì hội thoại dài hơn kế hoạch.

Một cách đặt buffer không chính thức, thiên về quản trị ngân sách:

Giai đoạn	Hệ số ngân sách nên cân nhắc
PoC / chạy thử	Giá trị lý thuyết × 1,2 đến 1,5
Đã lên production, traffic tương đối ổn định	Giá trị lý thuyết × 1,35 đến 1,6
Chuyển từ model cũ sang Opus 4.7 và phụ thuộc nhiều vào long context	Giá trị lý thuyết × 1,5 đến 1,8

Các hệ số này không phải báo giá chính thức của Anthropic. Sau khi vận hành thật, nên dùng log token, tỷ lệ cache hit và hóa đơn thực tế để cập nhật lại mô hình chi phí.

Mẫu tính nhanh cho đội sản phẩm hoặc kỹ thuật

Nếu không dùng cache, có thể ước tính chi phí tháng như sau:

text

Chi phí tháng ≈ số request mỗi ngày × 30
              × (input trung bình / 1.000.000 × 5
                 + output trung bình / 1.000.000 × 25)

Nếu có cache, đừng gộp tất cả thành một dòng. Hãy tách riêng:

text

Chi phí tháng ≈ chi phí input thông thường
              + chi phí cache write
              + chi phí cache hit / refresh
              + chi phí output

Trước khi triển khai, ít nhất nên điền các biến sau:

Biến	Ví dụ
Input trung bình mỗi request	300.000 token
Output trung bình mỗi request	8.000 token
Số request mỗi ngày	1.000
Cache write tokens	300.000 cho mỗi tài liệu
Cache hit tokens	300.000 cho mỗi lượt hit
Cache hit rate	60%
Buffer do tokenizer	tối đa tạm tính × 1,35
Buffer vận hành	ví dụ × 1,35 đến 1,6

Chốt lại: nên bắt đầu từ đâu?

Với phân tích tài liệu một lần, hãy lấy giá $5/MTok input và $25/MTok output để tính trực tiếp.^[2]

Với hỏi đáp lặp lại trên cùng tài liệu hoặc hội thoại dài phải mang nhiều lịch sử, hãy thử tính prompt caching trước khi chốt kiến trúc. Trong ví dụ tài liệu 300k token, câu hỏi 2k token và output 2k token, lượt cache hit 5 phút chỉ khoảng $0,21, trong khi gửi lại toàn bộ tài liệu mỗi lần khoảng $1,56.^[2]

Với batch, nếu chưa xác nhận được giá áp dụng, hãy lập ngân sách theo giá đồng bộ công khai rồi điều chỉnh sau. Nếu đang chuyển từ model cũ sang Opus 4.7, nên nhân ước tính input token tối đa với 1,35 trước, sau đó cộng thêm buffer vận hành. Cách này thường gần thực tế hơn so với chỉ nhìn bảng giá niêm yết.^[2]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Giá công khai của Claude Opus 4.7 API là $5/MTok cho input và $25/MTok cho output; với tài liệu dài chỉ chạy một lần, có thể tính trực tiếp theo công thức input + output.[2]
Prompt caching là điểm mấu chốt khi hỏi nhiều lần trên cùng tài liệu hoặc hội thoại dài: cache write 5 phút là $6,25/MTok, cache write 1 giờ là $10/MTok, còn cache hit / refresh là $0,50/MTok.[2]
Với tác vụ batch, nếu chưa xác nhận được mức giá hoặc chiết khấu áp dụng cho tài khoản, nên lập ngân sách bảo thủ theo giá API đồng bộ rồi điều chỉnh sau theo hợp đồng hoặc nền tảng thực tế.

大家也會問

「Claude Opus 4.7 API: cách tính chi phí cho tài liệu dài, chat dài và batch」的簡短答案是什麼？

Giá công khai của Claude Opus 4.7 API là $5/MTok cho input và $25/MTok cho output; với tài liệu dài chỉ chạy một lần, có thể tính trực tiếp theo công thức input + output.[2]

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

Với tác vụ batch, nếu chưa xác nhận được mức giá hoặc chiết khấu áp dụng cho tài khoản, nên lập ngân sách bảo thủ theo giá API đồng bộ rồi điều chỉnh sau theo hợp đồng hoặc nền tảng thực tế.

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具

Claude Security 公測版詳解：Anthropic 如何用 AI 掃描企業程式碼漏洞

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？

Grok 4.3 API：1M context 與 $1.25/$2.50 定價，對模型與語音競爭意味什麼

小米 Q5 不是 MIX 5？最新線索更像指向小米 18 系列

小米 Q5 是 MIX 5 嗎？目前更可能是小米 18 系列線索

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta用AI查年齡：Instagram與Facebook青少年保護新規一次看

研究對話

你2026年4月20日

研究問題

搜尋並查核事實：Claude Opus 4.7 的 API 價格怎麼算？長文件、長對話、批次任務預算要抓多少？

Studio Global AI2026年4月20日12 個來源

附引用的答案

我查到的官方 Claude API 定價是：Claude Opus 4.7 為每百萬 input tokens $5、每百萬 output tokens $25，且官方公告明說它的價格與 Opus 4.6 相同。^[2]^[11] 如果你要抓預算，我會用「同步 API 單價 + Opus 4.7 最多 35% tokenizer 膨脹 + 是否用 prompt caching」這三件事來算；批次任務的精確折扣百分比，這次我無法從已抓到的官方內容中可靠抽出，所以保守預算先不要把未驗證折扣算進去。 ^[2]

官方單價怎麼算
- 同步 Messages API：費用 = input tokens ÷ 1,000,000 × $5 + output tokens ÷ 1,000,000 × $25。^[2]
- Prompt caching 5 分鐘寫入：cached 部分改按 $6.25/MTok 計；1 小時寫入：$10/MTok；之後 cache hit / refresh：$0.50/MTok。^[2]
- Anthropic 也註明 Opus 4.7 換了新 tokenizer，同一段固定文字的 token 數最多可能比先前模型多 35%。^[2]
長文件預算怎麼抓
- 單次分析 100k input + 5k output，約 $0.625。^[2]
- 單次分析 300k input + 8k output，約 $1.70。^[2]
- 單次分析 1M input + 10k output，約 $5.25。^[2]
- 如果你是從較舊的 Opus 版本升上來，想抓保守值，可先把 input token 預估乘 1.35；例如原本估 300k input，保守抓成 405k input，搭配 8k output 時約 $2.23。^[2]
長文件反覆問答，該不該用 cache
- 例：300k token 文件，第一次建立 5 分鐘 cache，再加 2k 新問題與 2k 輸出，約 $1.935。^[2]
- 同一份文件在 cache 命中時，再問一次 2k 新問題、拿 2k 輸出，約 $0.21。^[2]
- 所以只要同一大文件會被反覆查問 2 次以上，prompt caching 通常就很值得。^[2]
長對話預算怎麼抓
- 例：你每輪都帶 200k 歷史對話，再加 1k 新訊息，模型輸出 2k；如果不用 cache，每輪約 $1.055。^[2]
- 若先把那 200k 歷史做 5 分鐘 cache，第一次寫入那輪約 $1.305；之後命中 cache 的每輪約 $0.155。^[2]
- 如果使用者回覆間隔常超過 5 分鐘、但通常不超過 1 小時，1 小時 cache 可能更合理；同樣 200k 歷史的第一次寫入約 $2.055，之後命中時每輪仍約 $0.155。^[2]
批次任務預算怎麼抓
- 精確 batch discount：Insufficient evidence。這次我沒辦法從已抓到的官方頁面內容中可靠核出折扣百分比，所以不建議你先把某個未驗證折扣寫進正式預算。
- 保守抓法：先完全按同步 API 單價編列，之後若你再核到官方 batch 折扣，再把預算下修。
- 例：10,000 筆任務，每筆 2k input + 500 output，先按同步價抓約 $225。^[2]
- 如果你不是直連 Claude API，而是走 AWS Bedrock / Vertex AI 的 regional 或 multi-region endpoint，官方定價頁說這類端點可能比 global endpoint 再貴 10%；Claude API 第一方預設是 global。^[2]
我會怎麼抓實務 buffer
- PoC / 試跑：用理論值 × 1.2 到 1.5。
- 正式上線但流量穩定：用理論值 × 1.35 到 1.6。
- 從舊模型遷移到 Opus 4.7、又大量依賴長上下文：先用理論值 × 1.5 到 1.8，因為 tokenizer 膨脹會直接放大 input 成本。^[2]
一個簡單結論
- 一次性長文件分析，直接用 $5 / $25 算就好。^[2]
- 長文件反覆追問、長對話多輪往返，一定要把 prompt caching 算進架構，不然成本會被重複送入的歷史內容吃掉。^[2]
- 批次任務若你現在就要簽核預算，先按「沒有 batch 折扣」抓最安全。

如果你要，我下一則可以直接幫你做一個「輸入文件大小、每輪對話長度、每日任務量」的 Opus 4.7 預算試算表。

來源

[2] Pricing - Claude API Docsplatform.claude.com
The "Base Input Tokens" column shows standard input pricing, "Cache Writes" and "Cache Hits" are specific to prompt caching, and "Output Tokens" shows output pricing. Prompt caching multipliers apply on top of fast mode pricing. Fast mode is not available w...
[11] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Skip to main contentSkip to footer. Developers can use claude-opus-4-7 via the Claude API. . . ![Image 5: logo](
[12] Anthropic.Claude Opus 4 7 Pricing & Specs | AI Models | CloudPricecloudprice.net
Claude Opus 4.7is a textmodel fromAWS Bedrock logoAWS Bedrock with a context window of 1.0M tokens and max output of 128K tokens. claude-opus-4-7 Anthropic logoAnthropic Text 5.00 25.00 1.0M 128K yes yes . anthropic.claude-opus-4-7 AWS Bedrock logoAWS Bedro...

熱門探索內容

答案已發布2026年4月29日Last edited 2026年5月6日3 個來源

Claude Opus 4.7 API: cách tính chi phí cho tài liệu dài, chat dài và batch

使用 Studio Global AI 搜尋並查證事實探索更多內容

16K0

Trước hết: hiểu đúng đơn giá MTok

Trong tài liệu định giá Claude API, MTok nghĩa là 1 triệu token. Với Claude Opus 4.7, các mức giá công khai gồm input cơ bản, output và prompt caching như sau.^[2]

Hạng mục tính phí	Giá công khai Claude Opus 4.7
Base input tokens	$5 / 1 triệu token
Output tokens	$25 / 1 triệu token
Cache write 5 phút	$6,25 / 1 triệu token
Cache write 1 giờ	$10 / 1 triệu token
Cache hit / refresh	$0,50 / 1 triệu token

Nếu không dùng cache, công thức cơ bản là:^[2]

text

Chi phí = input_tokens / 1.000.000 × 5
        + output_tokens / 1.000.000 × 25

Tài liệu dài chỉ phân tích một lần: tính thẳng input + output

Tình huống	Input	Output	Chi phí ước tính
Tóm tắt tài liệu dài vừa phải	100k	5k	khoảng $0,625
Phân tích tài liệu trung bình-lớn	300k	8k	khoảng $1,70
Phân tích tài liệu rất lớn	1M	10k	khoảng $5,25

Ví dụ với 300k input và 8k output:

text

300.000 / 1.000.000 × 5  = 1,50
8.000 / 1.000.000 × 25   = 0,20
Tổng cộng                 = 1,70 USD

Vì vậy, nếu trước đây bạn ước tính 300k input, một cách bảo thủ là nâng lên 405k input. Với 8k output, chi phí sẽ là:

text

405.000 / 1.000.000 × 5  = 2,025
8.000 / 1.000.000 × 25   = 0,20
Tổng cộng                 ≈ 2,23 USD

Hỏi nhiều lần trên cùng tài liệu: cache là điểm hòa vốn

Giả sử:

Tài liệu: 300k token
Mỗi câu hỏi mới: 2k token
Mỗi câu trả lời: 2k output token
Dùng prompt cache 5 phút

Cách làm	Thành phần chi phí	Chi phí ước tính
Lượt đầu: ghi cache 5 phút	300k × $6,25/MTok + 2k × $5/MTok + 2k × $25/MTok	khoảng $1,935
Lượt sau: cache hit	300k × $0,50/MTok + 2k × $5/MTok + 2k × $25/MTok	khoảng $0,21
Không dùng cache: gửi lại toàn bộ tài liệu mỗi lượt	302k × $5/MTok + 2k × $25/MTok	khoảng $1,56

Ở lượt đầu, ghi cache 5 phút thậm chí đắt hơn so với không cache. Nhưng chỉ cần cùng tài liệu được hỏi sang lượt thứ hai, tổng chi phí đã đổi chiều:

text

Không cache, 2 lượt: khoảng 1,56 × 2 = 3,12 USD
Dùng cache 5 phút, 2 lượt: khoảng 1,935 + 0,21 = 2,145 USD

Hội thoại dài: đừng trả tiền lại cho lịch sử giống hệt mỗi lượt

Giả sử:

Lịch sử hội thoại: 200k token
Tin nhắn mới mỗi lượt: 1k token
Output mỗi lượt: 2k token

Cách làm	Chi phí ước tính
Không cache: mỗi lượt gửi 200k lịch sử + 1k tin mới + 2k output	khoảng $1,055 / lượt
Ghi 200k lịch sử vào cache 5 phút: lượt đầu	khoảng $1,305
Sau khi cache 5 phút hit: mỗi lượt	khoảng $0,155 / lượt
Ghi 200k lịch sử vào cache 1 giờ: lượt đầu	khoảng $2,055
Sau khi cache 1 giờ hit: mỗi lượt	khoảng $0,155 / lượt

Chọn cache 5 phút hay 1 giờ không nên chỉ nhìn giá ghi cache. Hãy nhìn hành vi thực tế của người dùng:

Nếu người dùng thường hỏi liên tục trong vòng 5 phút, cache 5 phút là giả định đáng thử trước.
Nếu họ hay quay lại sau hơn 5 phút nhưng vẫn trong vòng 1 giờ, cache 1 giờ có thể hợp lý hơn dù lượt ghi đầu tiên đắt hơn.
Nếu khoảng cách giữa các lượt rất khó đoán, nên lấy mẫu traffic thật, đo tỷ lệ cache hit rồi mới tối ưu kiến trúc.

Tác vụ batch: trước tiên hãy lập ngân sách bảo thủ

Cách bảo thủ là tính trước theo giá API đồng bộ công khai, sau đó thay đơn giá khi bạn đã xác nhận được giá batch thực tế.^[2]

text

Tổng chi phí = tổng input_tokens / 1.000.000 × 5
             + tổng output_tokens / 1.000.000 × 25

Ví dụ: 10.000 tác vụ, mỗi tác vụ có 2k input và 500 output.

text

Tổng input  = 10.000 × 2.000 = 20.000.000 token
Tổng output = 10.000 × 500   = 5.000.000 token

Chi phí input  = 20 × 5  = 100 USD
Chi phí output = 5 × 25  = 125 USD
Tổng cộng      = 225 USD

Đừng quên buffer: lý thuyết thường thấp hơn hóa đơn thật

Nếu chưa có log token thực tế, ước tính bằng kịch bản lý tưởng thường hơi lạc quan. Ít nhất nên thêm phần đệm cho ba nhóm rủi ro:

Rủi ro tokenizer khi chuyển model: Opus 4.7 có tokenizer mới, và cùng một đoạn văn bản cố định có thể tăng tối đa 35% token.^[2]
Tỷ lệ cache hit chưa chắc chắn: cache chỉ giảm chi phí rõ rệt khi ngữ cảnh thực sự được dùng lại và vẫn còn trong thời hạn hiệu lực.^[2]
Hành vi sử dụng ngoài giả định: người dùng có thể yêu cầu output dài hơn, thử lại nhiều lần, tải tài liệu lớn hơn hoặc duy trì hội thoại dài hơn kế hoạch.

Một cách đặt buffer không chính thức, thiên về quản trị ngân sách:

Giai đoạn	Hệ số ngân sách nên cân nhắc
PoC / chạy thử	Giá trị lý thuyết × 1,2 đến 1,5
Đã lên production, traffic tương đối ổn định	Giá trị lý thuyết × 1,35 đến 1,6
Chuyển từ model cũ sang Opus 4.7 và phụ thuộc nhiều vào long context	Giá trị lý thuyết × 1,5 đến 1,8

Mẫu tính nhanh cho đội sản phẩm hoặc kỹ thuật

Nếu không dùng cache, có thể ước tính chi phí tháng như sau:

text

Chi phí tháng ≈ số request mỗi ngày × 30
              × (input trung bình / 1.000.000 × 5
                 + output trung bình / 1.000.000 × 25)

Nếu có cache, đừng gộp tất cả thành một dòng. Hãy tách riêng:

text

Chi phí tháng ≈ chi phí input thông thường
              + chi phí cache write
              + chi phí cache hit / refresh
              + chi phí output

Trước khi triển khai, ít nhất nên điền các biến sau:

Biến	Ví dụ
Input trung bình mỗi request	300.000 token
Output trung bình mỗi request	8.000 token
Số request mỗi ngày	1.000
Cache write tokens	300.000 cho mỗi tài liệu
Cache hit tokens	300.000 cho mỗi lượt hit
Cache hit rate	60%
Buffer do tokenizer	tối đa tạm tính × 1,35
Buffer vận hành	ví dụ × 1,35 đến 1,6

Chốt lại: nên bắt đầu từ đâu?

Với phân tích tài liệu một lần, hãy lấy giá $5/MTok input và $25/MTok output để tính trực tiếp.^[2]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Giá công khai của Claude Opus 4.7 API là $5/MTok cho input và $25/MTok cho output; với tài liệu dài chỉ chạy một lần, có thể tính trực tiếp theo công thức input + output.[2]
Prompt caching là điểm mấu chốt khi hỏi nhiều lần trên cùng tài liệu hoặc hội thoại dài: cache write 5 phút là $6,25/MTok, cache write 1 giờ là $10/MTok, còn cache hit / refresh là $0,50/MTok.[2]
Với tác vụ batch, nếu chưa xác nhận được mức giá hoặc chiết khấu áp dụng cho tài khoản, nên lập ngân sách bảo thủ theo giá API đồng bộ rồi điều chỉnh sau theo hợp đồng hoặc nền tảng thực tế.

大家也會問

「Claude Opus 4.7 API: cách tính chi phí cho tài liệu dài, chat dài và batch」的簡短答案是什麼？

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具

Claude Security 公測版詳解：Anthropic 如何用 AI 掃描企業程式碼漏洞

Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？

Grok 4.3 API：1M context 與 $1.25/$2.50 定價，對模型與語音競爭意味什麼

小米 Q5 不是 MIX 5？最新線索更像指向小米 18 系列

小米 Q5 是 MIX 5 嗎？目前更可能是小米 18 系列線索

Meta用AI查年齡：Instagram與Facebook青少年保護新規一次看

研究對話

你2026年4月20日

研究問題

搜尋並查核事實：Claude Opus 4.7 的 API 價格怎麼算？長文件、長對話、批次任務預算要抓多少？

Studio Global AI2026年4月20日12 個來源

附引用的答案

官方單價怎麼算
- 同步 Messages API：費用 = input tokens ÷ 1,000,000 × $5 + output tokens ÷ 1,000,000 × $25。^[2]
- Prompt caching 5 分鐘寫入：cached 部分改按 $6.25/MTok 計；1 小時寫入：$10/MTok；之後 cache hit / refresh：$0.50/MTok。^[2]
- Anthropic 也註明 Opus 4.7 換了新 tokenizer，同一段固定文字的 token 數最多可能比先前模型多 35%。^[2]
長文件預算怎麼抓
- 單次分析 100k input + 5k output，約 $0.625。^[2]
- 單次分析 300k input + 8k output，約 $1.70。^[2]
- 單次分析 1M input + 10k output，約 $5.25。^[2]
- 如果你是從較舊的 Opus 版本升上來，想抓保守值，可先把 input token 預估乘 1.35；例如原本估 300k input，保守抓成 405k input，搭配 8k output 時約 $2.23。^[2]
長文件反覆問答，該不該用 cache
- 例：300k token 文件，第一次建立 5 分鐘 cache，再加 2k 新問題與 2k 輸出，約 $1.935。^[2]
- 同一份文件在 cache 命中時，再問一次 2k 新問題、拿 2k 輸出，約 $0.21。^[2]
- 所以只要同一大文件會被反覆查問 2 次以上，prompt caching 通常就很值得。^[2]
長對話預算怎麼抓
- 例：你每輪都帶 200k 歷史對話，再加 1k 新訊息，模型輸出 2k；如果不用 cache，每輪約 $1.055。^[2]
- 若先把那 200k 歷史做 5 分鐘 cache，第一次寫入那輪約 $1.305；之後命中 cache 的每輪約 $0.155。^[2]
- 如果使用者回覆間隔常超過 5 分鐘、但通常不超過 1 小時，1 小時 cache 可能更合理；同樣 200k 歷史的第一次寫入約 $2.055，之後命中時每輪仍約 $0.155。^[2]
批次任務預算怎麼抓
- 精確 batch discount：Insufficient evidence。這次我沒辦法從已抓到的官方頁面內容中可靠核出折扣百分比，所以不建議你先把某個未驗證折扣寫進正式預算。
- 保守抓法：先完全按同步 API 單價編列，之後若你再核到官方 batch 折扣，再把預算下修。
- 例：10,000 筆任務，每筆 2k input + 500 output，先按同步價抓約 $225。^[2]
- 如果你不是直連 Claude API，而是走 AWS Bedrock / Vertex AI 的 regional 或 multi-region endpoint，官方定價頁說這類端點可能比 global endpoint 再貴 10%；Claude API 第一方預設是 global。^[2]
我會怎麼抓實務 buffer
- PoC / 試跑：用理論值 × 1.2 到 1.5。
- 正式上線但流量穩定：用理論值 × 1.35 到 1.6。
- 從舊模型遷移到 Opus 4.7、又大量依賴長上下文：先用理論值 × 1.5 到 1.8，因為 tokenizer 膨脹會直接放大 input 成本。^[2]
一個簡單結論
- 一次性長文件分析，直接用 $5 / $25 算就好。^[2]
- 長文件反覆追問、長對話多輪往返，一定要把 prompt caching 算進架構，不然成本會被重複送入的歷史內容吃掉。^[2]
- 批次任務若你現在就要簽核預算，先按「沒有 batch 折扣」抓最安全。

如果你要，我下一則可以直接幫你做一個「輸入文件大小、每輪對話長度、每日任務量」的 Opus 4.7 預算試算表。

來源

[2] Pricing - Claude API Docsplatform.claude.com
The "Base Input Tokens" column shows standard input pricing, "Cache Writes" and "Cache Hits" are specific to prompt caching, and "Output Tokens" shows output pricing. Prompt caching multipliers apply on top of fast mode pricing. Fast mode is not available w...
[11] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Skip to main contentSkip to footer. Developers can use claude-opus-4-7 via the Claude API. . . ![Image 5: logo](
[12] Anthropic.Claude Opus 4 7 Pricing & Specs | AI Models | CloudPricecloudprice.net
Claude Opus 4.7is a textmodel fromAWS Bedrock logoAWS Bedrock with a context window of 1.0M tokens and max output of 128K tokens. claude-opus-4-7 Anthropic logoAnthropic Text 5.00 25.00 1.0M 128K yes yes . anthropic.claude-opus-4-7 AWS Bedrock logoAWS Bedro...

熱門探索內容

答案已發布2026年4月29日Last edited 2026年5月6日3 個來源

Claude Opus 4.7 API: cách tính chi phí cho tài liệu dài, chat dài và batch

使用 Studio Global AI 搜尋並查證事實探索更多內容

16K0

Trước hết: hiểu đúng đơn giá MTok

Trong tài liệu định giá Claude API, MTok nghĩa là 1 triệu token. Với Claude Opus 4.7, các mức giá công khai gồm input cơ bản, output và prompt caching như sau.^[2]

Hạng mục tính phí	Giá công khai Claude Opus 4.7
Base input tokens	$5 / 1 triệu token
Output tokens	$25 / 1 triệu token
Cache write 5 phút	$6,25 / 1 triệu token
Cache write 1 giờ	$10 / 1 triệu token
Cache hit / refresh	$0,50 / 1 triệu token

Nếu không dùng cache, công thức cơ bản là:^[2]

text

Chi phí = input_tokens / 1.000.000 × 5
        + output_tokens / 1.000.000 × 25

Tài liệu dài chỉ phân tích một lần: tính thẳng input + output

Tình huống	Input	Output	Chi phí ước tính
Tóm tắt tài liệu dài vừa phải	100k	5k	khoảng $0,625
Phân tích tài liệu trung bình-lớn	300k	8k	khoảng $1,70
Phân tích tài liệu rất lớn	1M	10k	khoảng $5,25

Ví dụ với 300k input và 8k output:

text

300.000 / 1.000.000 × 5  = 1,50
8.000 / 1.000.000 × 25   = 0,20
Tổng cộng                 = 1,70 USD

Vì vậy, nếu trước đây bạn ước tính 300k input, một cách bảo thủ là nâng lên 405k input. Với 8k output, chi phí sẽ là:

text

405.000 / 1.000.000 × 5  = 2,025
8.000 / 1.000.000 × 25   = 0,20
Tổng cộng                 ≈ 2,23 USD

Hỏi nhiều lần trên cùng tài liệu: cache là điểm hòa vốn

Giả sử:

Tài liệu: 300k token
Mỗi câu hỏi mới: 2k token
Mỗi câu trả lời: 2k output token
Dùng prompt cache 5 phút

Cách làm	Thành phần chi phí	Chi phí ước tính
Lượt đầu: ghi cache 5 phút	300k × $6,25/MTok + 2k × $5/MTok + 2k × $25/MTok	khoảng $1,935
Lượt sau: cache hit	300k × $0,50/MTok + 2k × $5/MTok + 2k × $25/MTok	khoảng $0,21
Không dùng cache: gửi lại toàn bộ tài liệu mỗi lượt	302k × $5/MTok + 2k × $25/MTok	khoảng $1,56

Ở lượt đầu, ghi cache 5 phút thậm chí đắt hơn so với không cache. Nhưng chỉ cần cùng tài liệu được hỏi sang lượt thứ hai, tổng chi phí đã đổi chiều:

text

Không cache, 2 lượt: khoảng 1,56 × 2 = 3,12 USD
Dùng cache 5 phút, 2 lượt: khoảng 1,935 + 0,21 = 2,145 USD

Hội thoại dài: đừng trả tiền lại cho lịch sử giống hệt mỗi lượt

Giả sử:

Lịch sử hội thoại: 200k token
Tin nhắn mới mỗi lượt: 1k token
Output mỗi lượt: 2k token

Cách làm	Chi phí ước tính
Không cache: mỗi lượt gửi 200k lịch sử + 1k tin mới + 2k output	khoảng $1,055 / lượt
Ghi 200k lịch sử vào cache 5 phút: lượt đầu	khoảng $1,305
Sau khi cache 5 phút hit: mỗi lượt	khoảng $0,155 / lượt
Ghi 200k lịch sử vào cache 1 giờ: lượt đầu	khoảng $2,055
Sau khi cache 1 giờ hit: mỗi lượt	khoảng $0,155 / lượt

Chọn cache 5 phút hay 1 giờ không nên chỉ nhìn giá ghi cache. Hãy nhìn hành vi thực tế của người dùng:

Nếu người dùng thường hỏi liên tục trong vòng 5 phút, cache 5 phút là giả định đáng thử trước.
Nếu họ hay quay lại sau hơn 5 phút nhưng vẫn trong vòng 1 giờ, cache 1 giờ có thể hợp lý hơn dù lượt ghi đầu tiên đắt hơn.
Nếu khoảng cách giữa các lượt rất khó đoán, nên lấy mẫu traffic thật, đo tỷ lệ cache hit rồi mới tối ưu kiến trúc.

Tác vụ batch: trước tiên hãy lập ngân sách bảo thủ

Cách bảo thủ là tính trước theo giá API đồng bộ công khai, sau đó thay đơn giá khi bạn đã xác nhận được giá batch thực tế.^[2]

text

Tổng chi phí = tổng input_tokens / 1.000.000 × 5
             + tổng output_tokens / 1.000.000 × 25

Ví dụ: 10.000 tác vụ, mỗi tác vụ có 2k input và 500 output.

text

Tổng input  = 10.000 × 2.000 = 20.000.000 token
Tổng output = 10.000 × 500   = 5.000.000 token

Chi phí input  = 20 × 5  = 100 USD
Chi phí output = 5 × 25  = 125 USD
Tổng cộng      = 225 USD

Đừng quên buffer: lý thuyết thường thấp hơn hóa đơn thật

Nếu chưa có log token thực tế, ước tính bằng kịch bản lý tưởng thường hơi lạc quan. Ít nhất nên thêm phần đệm cho ba nhóm rủi ro:

Rủi ro tokenizer khi chuyển model: Opus 4.7 có tokenizer mới, và cùng một đoạn văn bản cố định có thể tăng tối đa 35% token.^[2]
Tỷ lệ cache hit chưa chắc chắn: cache chỉ giảm chi phí rõ rệt khi ngữ cảnh thực sự được dùng lại và vẫn còn trong thời hạn hiệu lực.^[2]
Hành vi sử dụng ngoài giả định: người dùng có thể yêu cầu output dài hơn, thử lại nhiều lần, tải tài liệu lớn hơn hoặc duy trì hội thoại dài hơn kế hoạch.

Một cách đặt buffer không chính thức, thiên về quản trị ngân sách:

Giai đoạn	Hệ số ngân sách nên cân nhắc
PoC / chạy thử	Giá trị lý thuyết × 1,2 đến 1,5
Đã lên production, traffic tương đối ổn định	Giá trị lý thuyết × 1,35 đến 1,6
Chuyển từ model cũ sang Opus 4.7 và phụ thuộc nhiều vào long context	Giá trị lý thuyết × 1,5 đến 1,8

Mẫu tính nhanh cho đội sản phẩm hoặc kỹ thuật

Nếu không dùng cache, có thể ước tính chi phí tháng như sau:

text

Chi phí tháng ≈ số request mỗi ngày × 30
              × (input trung bình / 1.000.000 × 5
                 + output trung bình / 1.000.000 × 25)

Nếu có cache, đừng gộp tất cả thành một dòng. Hãy tách riêng:

text

Chi phí tháng ≈ chi phí input thông thường
              + chi phí cache write
              + chi phí cache hit / refresh
              + chi phí output

Trước khi triển khai, ít nhất nên điền các biến sau:

Biến	Ví dụ
Input trung bình mỗi request	300.000 token
Output trung bình mỗi request	8.000 token
Số request mỗi ngày	1.000
Cache write tokens	300.000 cho mỗi tài liệu
Cache hit tokens	300.000 cho mỗi lượt hit
Cache hit rate	60%
Buffer do tokenizer	tối đa tạm tính × 1,35
Buffer vận hành	ví dụ × 1,35 đến 1,6

Chốt lại: nên bắt đầu từ đâu?

Với phân tích tài liệu một lần, hãy lấy giá $5/MTok input và $25/MTok output để tính trực tiếp.^[2]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Giá công khai của Claude Opus 4.7 API là $5/MTok cho input và $25/MTok cho output; với tài liệu dài chỉ chạy một lần, có thể tính trực tiếp theo công thức input + output.[2]
Prompt caching là điểm mấu chốt khi hỏi nhiều lần trên cùng tài liệu hoặc hội thoại dài: cache write 5 phút là $6,25/MTok, cache write 1 giờ là $10/MTok, còn cache hit / refresh là $0,50/MTok.[2]
Với tác vụ batch, nếu chưa xác nhận được mức giá hoặc chiết khấu áp dụng cho tài khoản, nên lập ngân sách bảo thủ theo giá API đồng bộ rồi điều chỉnh sau theo hợp đồng hoặc nền tảng thực tế.

大家也會問

「Claude Opus 4.7 API: cách tính chi phí cho tài liệu dài, chat dài và batch」的簡短答案是什麼？

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

你2026年4月20日

研究問題

搜尋並查核事實：Claude Opus 4.7 的 API 價格怎麼算？長文件、長對話、批次任務預算要抓多少？

Studio Global AI2026年4月20日12 個來源

附引用的答案

官方單價怎麼算
- 同步 Messages API：費用 = input tokens ÷ 1,000,000 × $5 + output tokens ÷ 1,000,000 × $25。^[2]
- Prompt caching 5 分鐘寫入：cached 部分改按 $6.25/MTok 計；1 小時寫入：$10/MTok；之後 cache hit / refresh：$0.50/MTok。^[2]
- Anthropic 也註明 Opus 4.7 換了新 tokenizer，同一段固定文字的 token 數最多可能比先前模型多 35%。^[2]
長文件預算怎麼抓
- 單次分析 100k input + 5k output，約 $0.625。^[2]
- 單次分析 300k input + 8k output，約 $1.70。^[2]
- 單次分析 1M input + 10k output，約 $5.25。^[2]
- 如果你是從較舊的 Opus 版本升上來，想抓保守值，可先把 input token 預估乘 1.35；例如原本估 300k input，保守抓成 405k input，搭配 8k output 時約 $2.23。^[2]
長文件反覆問答，該不該用 cache
- 例：300k token 文件，第一次建立 5 分鐘 cache，再加 2k 新問題與 2k 輸出，約 $1.935。^[2]
- 同一份文件在 cache 命中時，再問一次 2k 新問題、拿 2k 輸出，約 $0.21。^[2]
- 所以只要同一大文件會被反覆查問 2 次以上，prompt caching 通常就很值得。^[2]
長對話預算怎麼抓
- 例：你每輪都帶 200k 歷史對話，再加 1k 新訊息，模型輸出 2k；如果不用 cache，每輪約 $1.055。^[2]
- 若先把那 200k 歷史做 5 分鐘 cache，第一次寫入那輪約 $1.305；之後命中 cache 的每輪約 $0.155。^[2]
- 如果使用者回覆間隔常超過 5 分鐘、但通常不超過 1 小時，1 小時 cache 可能更合理；同樣 200k 歷史的第一次寫入約 $2.055，之後命中時每輪仍約 $0.155。^[2]
批次任務預算怎麼抓
- 精確 batch discount：Insufficient evidence。這次我沒辦法從已抓到的官方頁面內容中可靠核出折扣百分比，所以不建議你先把某個未驗證折扣寫進正式預算。
- 保守抓法：先完全按同步 API 單價編列，之後若你再核到官方 batch 折扣，再把預算下修。
- 例：10,000 筆任務，每筆 2k input + 500 output，先按同步價抓約 $225。^[2]
- 如果你不是直連 Claude API，而是走 AWS Bedrock / Vertex AI 的 regional 或 multi-region endpoint，官方定價頁說這類端點可能比 global endpoint 再貴 10%；Claude API 第一方預設是 global。^[2]
我會怎麼抓實務 buffer
- PoC / 試跑：用理論值 × 1.2 到 1.5。
- 正式上線但流量穩定：用理論值 × 1.35 到 1.6。
- 從舊模型遷移到 Opus 4.7、又大量依賴長上下文：先用理論值 × 1.5 到 1.8，因為 tokenizer 膨脹會直接放大 input 成本。^[2]
一個簡單結論
- 一次性長文件分析，直接用 $5 / $25 算就好。^[2]
- 長文件反覆追問、長對話多輪往返，一定要把 prompt caching 算進架構，不然成本會被重複送入的歷史內容吃掉。^[2]
- 批次任務若你現在就要簽核預算，先按「沒有 batch 折扣」抓最安全。

如果你要，我下一則可以直接幫你做一個「輸入文件大小、每輪對話長度、每日任務量」的 Opus 4.7 預算試算表。

來源

[2] Pricing - Claude API Docsplatform.claude.com
The "Base Input Tokens" column shows standard input pricing, "Cache Writes" and "Cache Hits" are specific to prompt caching, and "Output Tokens" shows output pricing. Prompt caching multipliers apply on top of fast mode pricing. Fast mode is not available w...
[11] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Skip to main contentSkip to footer. Developers can use claude-opus-4-7 via the Claude API. . . ![Image 5: logo](
[12] Anthropic.Claude Opus 4 7 Pricing & Specs | AI Models | CloudPricecloudprice.net
Claude Opus 4.7is a textmodel fromAWS Bedrock logoAWS Bedrock with a context window of 1.0M tokens and max output of 128K tokens. claude-opus-4-7 Anthropic logoAnthropic Text 5.00 25.00 1.0M 128K yes yes . anthropic.claude-opus-4-7 AWS Bedrock logoAWS Bedro...