| Claude Opus 4.7 | Anthropic | $5,00 | $0,50 | $25,00 | 1M token | 128K token |
| GPT-5.5 | OpenAI | $5,00 | $0,50 | $30,00 | Tingkatan konteks pendek; biaya tambahan untuk konteks panjang di atas ~272K token | 128K token |
| GPT-5.5 Pro | OpenAI | $30,00 | — | $180,00 | Tingkatan konteks pendek; biaya tambahan untuk konteks panjang di atas ~272K token | 128K token |
| Gemini 3.5 Flash | $1,50 | $0,15 | $9,00 | 1.048.576 token | 65.536 token |
| Grok 4.3 | xAI | $1,25 | $0,20 | $2,50 | 1M token | — |
| DeepSeek V4 Flash | DeepSeek | $0,14 | $0,028 | $0,28 | 1M token | 384K token |
| DeepSeek V4 Pro | DeepSeek | $1,74 | $0,145 | $3,48 | 1M token | 384K token |
Claude Opus 4.8 dan 4.7 memiliki tarif standar yang sama dengan Opus 4.6, melanjutkan pola Anthropic sejak generasi Opus 4.5 . Namun, Opus 4.7 memperkenalkan tokenizer baru yang dapat menghasilkan hingga 35% lebih banyak token untuk teks input yang sama dibandingkan Opus 4.6, yang secara efektif menaikkan biaya prompt yang identik meskipun harga per token tidak berubah
. Sementara itu, harga GPT-5.5 menjadi dua kali lipat untuk input dan 1,5 kali lipat untuk output begitu sebuah permintaan melampaui sekitar 272K token, struktur bertingkat yang bisa mengejutkan pengguna yang tidak memantau panjang prompt
. Grok 4.3 menerapkan pendekatan serupa: tarif standar berlaku untuk permintaan hingga 200K token, setelah itu harga berlipat ganda
.
DeepSeek V4 Flash menonjol sebagai model paling murah di grup ini dengan selisih yang sangat jauh. Dengan harga $0,14 untuk input dan $0,28 untuk output per juta token, model ini sekitar 97% lebih murah daripada GPT-5.5 untuk output dan hampir 70% lebih murah daripada Grok 4.3 untuk input, menjadikannya pilihan utama untuk beban kerja agen bervolume tinggi .
Prompt caching adalah cara paling efektif untuk menekan biaya per permintaan di semua penyedia. Ketika prompt berbagi awalan yang sama—seperti instruksi sistem atau riwayat percakapan yang panjang—token input yang tersimpan ditagih dengan potongan harga signifikan dari tarif standar.
Anthropic, OpenAI, dan Google semuanya memberikan diskon sekitar 90% untuk input yang di-cache. DeepSeek mencantumkan tarif cache-hit V4 Flash di $0,028, yang merupakan pengurangan 80% dari harga cache-miss $0,14 . Tarif cache Grok 4.3 diperkenalkan di $0,20 per juta token untuk permintaan di bawah 200K token
. Untuk beban kerja dengan prompt berulang, tingkatan caching ini bisa dengan mudah memangkas tagihan API bulanan hingga setengahnya atau lebih.
API Batch menawarkan penghematan biaya besar lainnya, umumnya memotong setengah harga per token standar dengan imbalan waktu penyelesaian yang lebih lambat.
Ukuran jendela konteks dan token output maksimal memengaruhi baik kemampuan maupun biaya. Jendela konteks yang lebih besar berarti lebih banyak token input per permintaan, yang secara langsung melipatgandakan tagihan.
Comments
0 comments