Pada Terminal-Bench 2.1, yang menguji pengodean agentik baris perintah, Opus 4.8 mencetak skor 74,6%. Skor ini masih di bawah GPT-5.5 di 78,2%, tetapi melompat jauh dari 66,1% milik Opus 4.7 pada evaluasi yang sama . Untuk penggunaan komputer agentik, Opus 4.8 mencapai 83,4% pada OSWorld-Verified, sedikit melampaui Opus 4.7 (82,8%) dan GPT-5.5 (78,7%)
.
Untuk pekerjaan pengetahuan yang diukur dengan GDPval-AA, Opus 4.8 mencetak Elo 1890, jauh di depan GPT-5.5 (1769) dan meninggalkan Gemini (1314) . Pada Humanity's Last Exam untuk penalaran multidisiplin, model ini mencetak 57,9% dengan alat—hasil akses umum tertinggi Anthropic—berbanding 49,8% tanpa alat
.
Anthropic memposisikan Opus 4.8 sebagai model yang secara signifikan lebih jujur. Dalam evaluasi perusahaan sendiri, model ini sekitar empat kali lebih kecil kemungkinannya dibandingkan Opus 4.7 untuk membiarkan kekurangan pada kode lolos tanpa komentar dalam penilaian mandirinya .
Tingkat perilaku tidak selaras—termasuk penipuan atau kerja sama dengan penyalahgunaan—secara substansial lebih rendah daripada Opus 4.7 dan sebanding dengan Claude Mythos Preview, yang dianggap Anthropic sebagai model dengan keselarasan terbaik mereka . Ini penting bagi pengembang yang mengandalkan AI untuk meninjau atau menghasilkan kode produksi dan membutuhkan model yang menandai titik butanya sendiri daripada dengan percaya diri memberikan output yang cacat.
Perubahan yang paling terlihat oleh pengguna adalah tombol kontrol upaya baru yang kini tersedia di claude.ai dan antarmuka Cowork . Pengguna dapat memilih seberapa banyak upaya komputasi yang diterapkan Claude pada sebuah respons di beberapa tingkatan:
xhigh di pengaturan Claude Code): Penalaran lebih menyeluruh yang direkomendasikan untuk tugas-tugas sulit dan alur kerja yang berjalan lama.Di Claude Code, Anthropic telah meningkatkan batas laju untuk mengakomodasi penggunaan token yang lebih tinggi yang datang dengan tingkat upaya yang ditinggikan . Ini memberi pengembang pertukaran yang lebih terperinci antara latensi, biaya, dan kedalaman penalaran pada tugas pengodean dan agentik yang kompleks.
Untuk pengembang yang menangani masalah berskala sangat besar, Anthropic meluncurkan alur kerja dinamis sebagai pratinjau riset dalam Claude Code untuk pelanggan Enterprise, Team, dan Max .
Fitur ini memungkinkan Claude merencanakan sebuah tugas, lalu membuat dan menjalankan ratusan subagen paralel dalam satu sesi. Output diverifikasi sebelum dilaporkan kembali, yang membuat sistem cocok untuk migrasi skala basis kode di ratusan ribu baris kode .
Harga standar untuk Opus 4.8 tetap persis sama seperti Opus 4.7: $5 per juta token input dan $25 per juta token output . Biaya tulis dan penyegaran tembolok prompt tetap konsisten dengan tingkatan Opus premium
.
Pergeseran harga yang lebih signifikan ada pada sisi kecepatan. Mode cepat untuk Opus 4.8 menghasilkan pembuatan token output hingga 2,5x lebih cepat dan sekarang berharga $10 per juta token input dan $50 per juta token output . Itu tiga kali lebih murah daripada mode cepat untuk Opus 4.6 dan Opus 4.7, yang sebelumnya seharga $30/$150
. Anthropic telah mendepresiasi mode cepat untuk Opus 4.6 dan mengarahkan pengguna untuk bermigrasi ke mode cepat untuk Opus 4.8 atau 4.7
.
Untuk menggunakan mode cepat melalui API, pengembang mengatur speed: \"fast\"claude-opus-4-8 dan menyertakan header beta fast-mode-2026-02-01 . Fitur ini dihargai sebagai pengali pada tarif standar di seluruh jendela konteks input 200k+ token penuh, dan dapat digabung dengan pengali tembolok prompt dan residensi data
.
Model ini tersedia hari ini melalui Claude API menggunakan alias claude-opus-4-8, dan didukung dalam mode cepat, tembolok prompt, dan konfigurasi pemrosesan batch . Dokumentasi API Anthropic dan catatan rilis platform mengonfirmasi bahwa pelanggan Claude untuk paket Pro, Max, Team, dan Enterprise dapat mengakses Opus 4.8 segera
.
Bersamaan dengan Opus 4.8, Anthropic mempertajam bahasanya tentang jadwal untuk membuat model kelas Mythos tersedia secara umum. Sejak 7 April 2026, Claude Mythos Preview telah dibatasi untuk sekitar 50 mitra keamanan defensif melalui Project Glasswing . Kemampuan keamanan siber ofensif model ini cukup kuat sehingga Anthropic menahan rilis publiknya
.
Pada 28 Mei, Anthropic memperbarui pernyataan publiknya dengan mengatakan berencana untuk merilis model kelas Mythos kepada semua pelanggan dalam beberapa minggu mendatang . Ini adalah jadwal paling eksplisit yang pernah diberikan perusahaan sejak meluncurkan Glasswing. Perusahaan juga mengungkapkan putaran pendanaan Seri H senilai $65 miliar dengan valuasi pasca-pendanaan $965 miliar, memperkuat bahwa jalur komersial untuk model kelas Mythos sedang bergerak dari pratinjau riset menuju ketersediaan luas
.
Claude Opus 4.8 adalah peningkatan model tambahan yang membuat tiga perbedaan praktis bagi para pembangun:
Bagi tim yang mengevaluasi apakah akan beralih, sinyal terkuat adalah menguji Opus 4.8 secara langsung pada tugas pengodean, agentik, dan pekerjaan pengetahuan Anda sendiri—terutama untuk sesi yang berjalan lama di mana koreksi diri, penandaan ketidakpastian, dan orkestrasi subagen paralel paling penting.
Comments
0 comments