Dalam suite coding agentik yang lebih luas, GPT-5.5 masih memimpin di area tertentu. Pada evaluasi coding terminal agentik Terminal-Bench 2.1, GPT-5.5 mencetak skor 78,2%, unggul dari Opus 4.8 di 74,6% dan Gemini 3.1 Pro di 70,3% .
Benchmark internal Anthropic juga melaporkan peningkatan pada tugas-tugas knowledge-work. Model ini mencapai skor 1890 pada evaluasi GDPval-AA untuk pekerjaan bernilai ekonomi tinggi, dibandingkan raihan GPT-5.5 di 1769 dan Gemini di 1314 . Di keseluruhan suite pengujian, Anthropic mengklaim Opus 4.8 mengungguli kedua model saingannya di beberapa kategori kunci, walaupun tidak memimpin di setiap tes
.
Berbeda dari sekadar mengejar skor kecerdasan mentah, Anthropic kali ini sangat menekankan peningkatan pada aspek kepercayaan terhadap model. Perusahaan melaporkan bahwa Opus 4.8 sekitar empat kali lebih kecil kemungkinannya daripada Opus 4.7 untuk membiarkan cacat pada kode yang dibuatnya sendiri lolos tanpa komentar .
Umpan balik dari penguji awal menyoroti bahwa model ini secara signifikan lebih mungkin untuk menandai ketidakpastian dan lebih kecil kemungkinannya untuk membuat klaim tanpa dasar selama alur kerja multi-langkah yang kompleks . Perusahaan secara langsung membingkai "kejujuran" sebagai fitur produk unggulan pada rilis ini, dengan menyatakan bahwa model ini lebih kecil kemungkinannya untuk menyajikan informasi yang tidak didukung dengan cukup sebagai fakta
.
Bersamaan dengan model dasarnya, Anthropic meluncurkan fitur-fitur baru yang berfokus pada pengembang dan pengguna tingkat lanjut .
Dynamic Workflows (Alur Kerja Dinamis): Tersedia sebagai pratinjau riset di Claude Code, fitur ini memungkinkan model untuk merencanakan sebuah tugas, mengaturnya di ratusan sub-agen paralel, dan memverifikasi hasilnya sebelum melaporkan kembali. Fitur ini dirancang untuk tugas berskala besar seperti migrasi kode, audit, dan pencarian bug dalam satu sesi .
Kontrol Engagement / Upaya yang Dapat Disesuaikan: Pengguna kini dapat mendikte kedalaman penalaran model. Parameter "effort" di claude.ai dan Claude Code memungkinkan pertukaran antara kecerdasan, biaya token, dan kecepatan. Dokumentasi merekomendasikan penggunaan level xhigh untuk kasus penggunaan coding dan agentik yang paling sulit, dan setidaknya level high untuk tugas-tugas lain yang sensitif terhadap kecerdasan .
Tarif prompt caching ditetapkan sebesar $6,25 per juta token untuk cache tulis 5 menit, $10 per juta token untuk cache tulis 1 jam, dan $0,50 per juta token untuk cache hit dan refresh .
Peluncuran Opus 4.8 bukan sekadar peningkatan skor mentah; ini adalah peningkatan yang ditargetkan untuk perusahaan dan pengembang. Cerita produknya berpusat pada keandalan untuk agen, penanganan ketidakpastian secara eksplisit, dan pemberian kendali kepada programmer atas pertukaran biaya-performa melalui tingkat upaya yang eksplisit. Sementara itu, strategi harganya tetap konservatif, tanpa kenaikan untuk panggilan API standar, sementara penurunan harga mode Fast membuat inferensi berkecepatan tinggi lebih terjangkau untuk aplikasi yang sensitif terhadap latensi.
Comments
0 comments