สำหรับทีมที่กำลังจะผูก Claude เข้ากับแอปหรือ workflow ภายใน ค่า API ของ Claude Opus 4.7 ดูเหมือนจำง่ายมาก: input $5 ต่อหนึ่งล้าน tokens และ output $25 ต่อหนึ่งล้าน tokens แต่ถ้าเอา token ทุกชนิดไปรวมเป็นก้อนเดียว ต้นทุนจะเพี้ยนได้เร็ว โดยเฉพาะเมื่อใช้ prompt caching หรือย้ายมาจากรุ่น Claude เดิม
Anthropic ระบุว่านักพัฒนาเรียกใช้ model ID claude-opus-4-7 ผ่าน Claude API ได้ บทความนี้อ้างอิงราคา Anthropic API เป็นหลัก ขณะที่ดัชนีราคาภายนอกก็แสดงจุดเริ่มต้น $5 input / $25 output ต่อหนึ่งล้าน tokens เช่นกัน อย่างไรก็ตาม หากเรียกผ่านแพลตฟอร์มหรือผู้ให้บริการรายอื่น ควรตรวจราคาสุดท้ายจากบิลของแพลตฟอร์มนั้นเสมอ [7][
9][
19][
21]
ราคาแบบเร็ว: $5/$25 เป็นแค่จุดตั้งต้น
ในบทความนี้ MTok หมายถึง 1,000,000 tokens เอกสาร pricing ของ Anthropic แยก Base Input Tokens, Cache Writes, Cache Hits และ Output Tokens ออกจากกัน ดังนั้นโมเดลต้นทุนในระบบจริงก็ควรแยกตามนี้เช่นกัน [19]
| รายการคิดเงิน | ราคา | ควรเข้าใจอย่างไร |
|---|---|---|
| Base input tokens | $5 / MTok | token ฝั่ง input ที่ส่งเข้าโมเดลตามปกติ และไม่ได้ถูกนับเป็น cache write/read [ |
| Output tokens | $25 / MTok | token ที่ Claude สร้างกลับมาเป็นคำตอบ [ |
| Prompt cache write, TTL 5 นาที | $6.25 / MTok | ค่าบันทึก prompt ลง cache ครั้งแรกเพื่อใช้ซ้ำ โดย cache มีอายุ 5 นาที [ |
| Prompt cache write, TTL 1 ชั่วโมง | $10 / MTok | ค่าบันทึก prompt ลง cache เมื่อเลือกอายุ cache 1 ชั่วโมง [ |
| Cache read / hit | $0.50 / MTok | ค่าดึงเนื้อหาที่เคย cache ไว้เมื่อมี cache hit [ |
ประเด็นสำคัญคือ อย่าใช้สูตร token รวม × ราคาเฉลี่ย เพราะ Opus 4.7 มีราคา input, output, cache write และ cache read คนละชุดกัน ถ้าแอปของคุณใช้ prompt caching การลงบัญชีต้นทุนต้องแยก token แต่ละประเภทตั้งแต่แรก [19]
สูตรคำนวณต้นทุน
กรณีไม่ใช้ prompt caching
สูตรพื้นฐานคือ:
ต้นทุน = input_tokens ÷ 1,000,000 × 5 + output_tokens ÷ 1,000,000 × 25
ตัวอย่างเช่น request หนึ่งมี 200,000 input tokens และ 20,000 output tokens หากไม่คิด cache ต้นทุนจะเป็น $1.00 + $0.50 = $1.5019]
กรณีใช้ prompt caching
เมื่อเปิด prompt caching ให้คิดทีละรายการแล้วรวมกัน:
ต้นทุน = base_input_tokens ÷ 1,000,000 × 5 + output_tokens ÷ 1,000,000 × 25 + cache_write_5m_tokens ÷ 1,000,000 × 6.25 + cache_write_1h_tokens ÷ 1,000,000 × 10 + cache_read_input_tokens ÷ 1,000,000 × 0.50
ถ้าใช้ TTL หรืออายุ cache เพียงแบบเดียว ก็เก็บเฉพาะรายการ cache write ของ TTL นั้น เอกสาร streaming ของ Anthropic แสดงตัวอย่าง usage ที่มีฟิลด์อย่าง input_tokens, output_tokens, cache_creation_input_tokens และ cache_read_input_tokens ส่วนเอกสาร pricing ก็แยกค่า cache write กับ cache hit ออกจากกัน [15][
19]
นับ token ก่อนส่ง: ใช้ count_tokens ไม่ใช่เดาจากจำนวนตัวอักษร
อย่าประเมินค่า API จากจำนวนตัวอักษร จำนวนคำภาษาอังกฤษ หรือความยาวข้อความแบบคร่าว ๆ โดยเฉพาะ payload ที่มี system prompt, tool definitions, รูปภาพ หรือ PDF วิธีที่ชัดที่สุดคือใช้ endpoint /v1/messages/count_tokens ก่อนส่งคำขอจริง
Anthropic ระบุว่า token counting endpoint นี้รับโครงสร้าง input คล้ายกับการสร้าง message รวมถึง system prompts, tools, images และ PDFs แล้วคืนค่า total input tokens; active models ทั้งหมดรองรับการนับ token แบบนี้ [18]
แนวทางที่ปลอดภัยคือ นำ payload ตัวจริงที่จะส่งเข้า Messages API ไปนับด้วย count_tokens ก่อน รวมทั้ง system prompt, messages, tools, รูปภาพ และ PDF วิธีนี้ช่วยประเมินต้นทุน input ล่วงหน้า และเหมาะสำหรับตั้ง budget cap, rate limit หรือระบบแจ้งเตือนในโปรดักต์ [18]
หลังเรียก API: ใช้ usage เป็นตัวเลขลงบัญชี
เมื่อ request เสร็จแล้ว ควรบันทึกฟิลด์ usage จาก response ของ API ไม่ใช่ย้อนคำนวณจากความยาวข้อความที่โมเดลตอบกลับ ตัวอย่างใน Messages API แสดงว่า response usage มีฟิลด์อย่าง input_tokens และ output_tokens ส่วนเอกสาร streaming แสดงฟิลด์ที่เกี่ยวกับ cache เช่น cache_creation_input_tokens และ cache_read_input_tokens [15][
17]
ถ้าใช้ streaming ต้องระวังเป็นพิเศษ เอกสาร streaming ของ Anthropic ระบุว่า token counts ใน message_delta.usage เป็นยอดสะสม ไม่ใช่จำนวน token ที่เพิ่มขึ้นในแต่ละ event ดังนั้นถ้านำทุก delta มาบวกกันตรง ๆ จะนับซ้ำ [15]
กระทบยอดรายเดือนและแยกต้นทุนทีม
การบันทึก usage ราย request เหมาะกับการคุมต้นทุนแบบเรียลไทม์ในแอป แต่สำหรับการปิดยอดรายเดือน แยกค่าใช้จ่ายตาม workspace หรือดูแนวโน้มระยะยาว ควรใช้ Usage & Cost Admin API ของ Anthropic ด้วย เอกสารระบุว่า API นี้ให้ข้อมูล historical API usage and cost data แบบละเอียด และสามารถแตก usage report ตาม model, workspace และ service tier ได้ [16]
พูดง่าย ๆ คือ ฝั่งแอปควรเก็บ usage เพื่อควบคุมต้นทุนทันที ส่วนการกระทบยอดอย่างเป็นทางการควรอ้างอิงข้อมูล historical usage/cost จาก Usage & Cost Admin API [16]
ย้ายจาก Opus 4.6? อย่าลืมทำ token budget ใหม่
Opus 4.7 ใช้ tokenizer ใหม่ เอกสารของ Anthropic ระบุว่าเมื่อประมวลผลข้อความ tokenizer ใหม่นี้อาจใช้ token ประมาณ 1x ถึง 1.35x เมื่อเทียบกับ previous models หรือสูงสุดราว 35% โดยขึ้นอยู่กับเนื้อหา และข้อความชุดเดียวกันเมื่อนับด้วย /v1/messages/count_tokens บน Opus 4.7 กับ Opus 4.6 จะได้จำนวน token ต่างกัน [20]
ดังนั้น ราคา input $5/MTok และ output $25/MTok ไม่ได้แปลว่าบิลหลังอัปเกรดจะเท่าเดิมเสมอ หากย้ายจาก Opus 4.6 หรือรุ่นเก่ากว่า ควรสุ่ม workflow ที่มีทราฟฟิกสูง prompt ที่มี context ยาว payload ที่มี tool definitions และงานที่แพงที่สุด มารัน /v1/messages/count_tokens ใหม่ แล้วปรับ alert, rate limit และเพดานต้นทุนให้สอดคล้อง [18][
20]
เช็กลิสต์ก่อนเอาเข้า production
- ตรวจว่าใช้ model ID
claude-opus-4-7เมื่อเรียกผ่าน Claude API [9]
- ก่อน release สำคัญ ให้นับ token ของ payload ตัวแทนด้วย
/v1/messages/count_tokens[18]
- บันทึก
input_tokens,output_tokens, cache write และ cache read แยกกัน อย่าเก็บแค่ total token อย่างเดียว [15][
19]
- ถ้าใช้ streaming อย่าบวก
message_delta.usageทุก event เพราะค่านั้นเป็นยอดสะสม [15]
- สำหรับการปิดยอดระดับทีม แยก workspace หรือวิเคราะห์แนวโน้มย้อนหลัง ใช้ Usage & Cost Admin API [
16]
- ก่อนย้ายจาก Claude รุ่นเก่ามา Opus 4.7 ให้ทดสอบผลของ tokenizer ใหม่กับ prompt จริงของระบบ [
20]
สรุปสั้น ๆ: ราคา Claude Opus 4.7 API จำได้ง่ายว่า input $5/MTok และ output $25/MTok แต่การคุมงบให้แม่นต้องนับ token ก่อนส่งด้วย count_tokens, บันทึก usage หลังส่ง และแยก prompt caching กับผลของ tokenizer ใหม่ออกจากต้นทุนหลัก [18][
19][
20]




