Anthropic juga mempertahankan harga Opus 4.8 sama seperti Opus 4.7 — tidak ada kenaikan meskipun terjadi peningkatan benchmark yang signifikan . Sebaliknya, GPT-5.5 menggandakan harga API dari pendahulunya, GPT-5.4, meskipun OpenAI berargumen bahwa peningkatan efisiensi token membuat biaya efektifnya hanya naik sekitar 20%
.
Ketiga model mendukung prompt caching dengan penghematan sekitar 90% pada token input yang di-cache dan menawarkan pemrosesan batch dengan diskon 50% .
GPT-5.5 juga memiliki tier Pro di harga $30/$180 per juta token, yang ditujukan untuk beban kerja riset kelas berat . Claude Opus tidak memiliki tier yang setara.
Perbandingan model secara langsung seringkali rumit karena perbedaan versi benchmark dan protokol pengujian. Ketika skor tersedia pada tes yang sama, Opus 4.8 memimpin atas GPT-5.5 di area yang paling dipedulikan oleh para pengembang.
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified (coding) | 88,6% | 87,6% | Tidak bisa dibandingkan langsung |
| SWE-bench Pro (coding agentik) | 69,2% | 64,3% | 58,6% |
| Terminal-Bench 2.1 | 74,6% | — | — |
| Terminal-Bench 2.0 | — | 69,4% | 82,7% |
| Penalaran multidisiplin (dengan tools) | 57,9% | 54,7% | Tidak bisa dibandingkan langsung |
| Penalaran multidisiplin (tanpa tools) | ~62,1% | — | — |
| GPQA Diamond (sains tingkat pascasarjana) | 93,6% | 94,2% | — |
| MMLU (pengetahuan luas) | — | 91,3% | — |
| AIME 2024 (matematika kompetisi) | — | 99,8% | — |
| CursorBench | Tertinggi | Dasar | — |
| GDPval-AA (pekerjaan pengetahuan) | 1890 | 1753 | 1769 |
| Super-Agent (end-to-end) | 100% | — | Tidak 100% |
| Penggunaan komputer agentik | 83,4% | 82,8% | 78,7% |
SWE-bench Pro adalah benchmark yang paling banyak dirujuk untuk tugas rekayasa perangkat lunak di dunia nyata, dan Opus 4.8 mencetak skor 69,2% melawan GPT-5.5 yang hanya 58,6% — unggul 10,6 poin persentase . Opus 4.7 sendiri sudah unggul di 64,3%, dan Opus 4.8 semakin memperlebar jarak. Pengumuman Anthropic menyoroti penyelesaian tugas yang lebih cepat dan bug kode yang 4 kali lebih sedikit dibandingkan model sebelumnya
.
Benchmark ini butuh kehati-hatian dalam membacanya. GPT-5.5 melaporkan 82,7% di Terminal-Bench 2.0 , sedangkan skor Opus 4.8 74,6% diukur pada Terminal-Bench 2.1, versi yang lebih baru
. Keduanya tidak bisa dibandingkan secara langsung. Terlebih lagi, klaim 82,7% dari OpenAI ini sempat menuai keraguan; papan peringkat pemilik benchmark menunjukkan skor 82,0% ± 2,2 di hari yang sama
. Opus 4.7 mencetak 69,4% di Terminal-Bench 2.0
, dan pengujian independen dengan harness berbeda menemukan GPT-5.5 kadang berperforma di bawah GPT-5.4 pada benchmark ini
.
Di GDPval-AA, sebuah evaluasi pekerjaan pengetahuan, Opus 4.8 mencapai skor Elo 1890 dibandingkan dengan GPT-5.5 di 1769 — keunggulan sekitar 7% . Opus 4.8 juga menjadi model pertama yang mencapai tingkat penyelesaian 100% pada benchmark Super-Agent milik Anthropic, artinya ia berhasil mengeksekusi setiap tugas agentik end-to-end di rangkaian pengujian itu
. GPT-5.5 tidak mencapai 100%.
Untuk penggunaan komputer agentik (OSWorld-Verified), skornya lebih berdekatan: Opus 4.8 di 83,4%, GPT-5.5 di 78,7%, dan Opus 4.7 di 82,8% . Ini adalah peningkatan yang diukur dalam digit tunggal, bukan lompatan besar.
Cakupan benchmark GPT-5.5 lebih tipis pada benchmark yang dipublikasikan Anthropic bersama Opus 4.8, sebagian karena OpenAI fokus pada metrik yang berbeda. Di GPQA Diamond (penalaran sains tingkat pascasarjana), Opus 4.7 mencapai 94,2% , sementara perbandingan sebelumnya menunjukkan GPT-5.4 sedikit unggul atas Opus 4.7 pada penalaran matematika murni dan beberapa tes pengetahuan hafalan
. Belum ada perbandingan GPQA langsung antara Opus 4.8 dan GPT-5.5, meskipun Opus 4.8 dilaporkan di 93,6%
.
OpenAI juga mengklaim GPT-5.5 menggunakan sekitar 40% lebih sedikit token output per tugas pengodean dibanding GPT-5.4, yang sebagian dapat mengimbangi harga per token yang lebih tinggi pada beban kerja tertentu .
| Spesifikasi | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| Jendela konteks | 1M token | 1M token | 1M token |
| Mode cepat | Kecepatan 2,5× ($10/$50) | Kecepatan 2,5× ($10/$50) | N/A |
| Tanggal rilis | 28 Mei 2026 | 16 Apr 2026 | 23 Apr 2026 |
| Diskon batch | 50% | 50% | 50% (Flex) |
| Prompt caching | Ya (hemat hingga 90%) | Ya (hemat hingga 90%) | Ya (hemat 90%) |
Ketiga model sama-sama memiliki jendela konteks 1 juta token, meskipun Anthropic mendokumentasikan output maksimum Opus 4.8 di 128 ribu token per permintaan . Output maksimum GPT-5.5 tercatat di 32 ribu token
.
Mode cepat Claude bersifat opsional dan berjalan sekitar 2,5x lebih cepat. Anthropic menyebutkan mode cepat untuk Opus 4.8 tiga kali lebih murah daripada inferensi cepat di generasi Opus sebelumnya . GPT-5.5 tidak menawarkan tier kecepatan premium yang setara.
Benchmark independen harus dibaca dengan memahami batasannya:
Pilih Claude Opus 4.8 jika: coding agentik, tugas penggunaan komputer, pekerjaan pengetahuan, atau operasi konteks panjang mendominasi beban kerja Anda. Model ini memimpin di setiap benchmark bersama di mana perbandingan memungkinkan, dan harganya tidak berubah dari Opus 4.7.
Pilih GPT-5.5 jika: Anda sudah sangat terintegrasi dalam ekosistem OpenAI, memprioritaskan penalaran matematika murni, atau berharap peningkatan efisiensi token dapat mengimbangi harga per token yang lebih tinggi pada pola prompt spesifik Anda.
Tetap dengan Opus 4.7 jika: Anda menginginkan coding agentik kelas atas (64,3% di SWE-bench Pro masih jauh di atas GPT-5.5) dan tidak memerlukan peningkatan spesifik yang dibawa Opus 4.8 — tetapi mengingat harganya yang identik, sebenarnya tidak banyak alasan untuk tidak meningkatkan.
Bagi pengembang yang menjalankan agen dengan output tinggi atau analisis dokumen panjang, harga output Claude Opus yang 17% lebih murah dan tarif konteks panjang yang tetap menjadi perbedaan nyata pada tagihan API bulanan Anda.
Comments
0 comments