LaporanDipublikasikan2 bulan yang laluLast edited bulan lalu24 sumber

Claude Opus 4.8: Peningkatan Keandalan dan Fitur Baru untuk Pengembang, Harga Tetap Kompetitif

Claude Opus 4.8 meraih skor 69,2% pada benchmark coding agentic SWE Bench Pro, unggul dari GPT 5.5 di 58,6% dan Gemini 3.1 Pro di 54,2%, meski GPT 5.5 masih memimpin di tugas coding berbasis terminal. Harga standar tidak berubah di $5 per juta token input dan $25 per juta token output, sementara mode Fast baru dihar...

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak halaman Trending

Conceptual illustration of Claude Opus 4.8's launch, symbolizing AI performance benchmarks and agentic coding capabilities. — What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5Anthropic launched Claude Opus 4.8 with significant improvements in agentic coding and model reliability. Image: AI-generated.
AI Perintah
Create a landscape editorial hero image for this Studio Global article: What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5.. Article summary: **Launch positioning:** Claude Opus 4.8 was described as outperforming Opus 4.7 across most major benchmarks and beating GPT-5.5 and Gemini 3.1 Pro in several categories.. Topic tags: deepresearch, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "Anthropic released Claude Opus 4.8 today, and it outperforms its predecessor across most major benchmarks while beating OpenAI’s GPT-5.5 and Google’s Gemini 3.1 Pro in several key" source context "Anthropic Just Dropped Claude Opus 4.8. - The VC Corner" Reference image 2: visual subject "Anthropic released Claude Opus 4.8 today, and it outper
openai.com

Lanskap persaingan AI kembali memanas. Anthropic secara publik merilis Claude Opus 4.8 pada 28 Mei 2026, memposisikannya sebagai model paling mumpuni yang tersedia untuk khalayak umum . Pembaruan ini langsung menggantikan Opus 4.7 dan menargetkan pengembang serta perusahaan dengan fokus pada coding, tugas agentik jangka panjang, dan keandalan kelas enterprise. Harga standar tetap sama, sementara mode Fast yang jauh lebih murah serta perangkat alur kerja baru ikut meramaikan peluncuran ini .

Performa Benchmark: Mengungguli Para Rival

Perbandingan performa yang paling banyak dikutip adalah pada benchmark coding agentik SWE-Bench Pro. Menurut data evaluasi Anthropic, Opus 4.8 mencetak skor terdepan 69,2%, dibandingkan 64,3% untuk pendahulunya, 58,6% untuk GPT-5.5 milik OpenAI, dan 54,2% untuk Gemini 3.1 Pro milik Google .

Dalam suite coding agentik yang lebih luas, GPT-5.5 masih memimpin di area tertentu. Pada evaluasi coding terminal agentik Terminal-Bench 2.1, GPT-5.5 mencetak skor 78,2%, unggul dari Opus 4.8 di 74,6% dan Gemini 3.1 Pro di 70,3% .

Benchmark internal Anthropic juga melaporkan peningkatan pada tugas-tugas knowledge-work. Model ini mencapai skor 1890 pada evaluasi GDPval-AA untuk pekerjaan bernilai ekonomi tinggi, dibandingkan raihan GPT-5.5 di 1769 dan Gemini di 1314 . Di keseluruhan suite pengujian, Anthropic mengklaim Opus 4.8 mengungguli kedua model saingannya di beberapa kategori kunci, walaupun tidak memimpin di setiap tes .

Kejujuran dan Keandalan sebagai Peningkatan Teknis Utama

Berbeda dari sekadar mengejar skor kecerdasan mentah, Anthropic kali ini sangat menekankan peningkatan pada aspek kepercayaan terhadap model. Perusahaan melaporkan bahwa Opus 4.8 sekitar empat kali lebih kecil kemungkinannya daripada Opus 4.7 untuk membiarkan cacat pada kode yang dibuatnya sendiri lolos tanpa komentar .

Umpan balik dari penguji awal menyoroti bahwa model ini secara signifikan lebih mungkin untuk menandai ketidakpastian dan lebih kecil kemungkinannya untuk membuat klaim tanpa dasar selama alur kerja multi-langkah yang kompleks . Perusahaan secara langsung membingkai "kejujuran" sebagai fitur produk unggulan pada rilis ini, dengan menyatakan bahwa model ini lebih kecil kemungkinannya untuk menyajikan informasi yang tidak didukung dengan cukup sebagai fakta .

Memperkenalkan Alur Kerja Dinamis dan Kontrol Upaya

Bersamaan dengan model dasarnya, Anthropic meluncurkan fitur-fitur baru yang berfokus pada pengembang dan pengguna tingkat lanjut .

Dynamic Workflows (Alur Kerja Dinamis): Tersedia sebagai pratinjau riset di Claude Code, fitur ini memungkinkan model untuk merencanakan sebuah tugas, mengaturnya di ratusan sub-agen paralel, dan memverifikasi hasilnya sebelum melaporkan kembali. Fitur ini dirancang untuk tugas berskala besar seperti migrasi kode, audit, dan pencarian bug dalam satu sesi .

Kontrol Engagement / Upaya yang Dapat Disesuaikan: Pengguna kini dapat mendikte kedalaman penalaran model. Parameter "effort" di claude.ai dan Claude Code memungkinkan pertukaran antara kecerdasan, biaya token, dan kecepatan. Dokumentasi merekomendasikan penggunaan level xhigh untuk kasus penggunaan coding dan agentik yang paling sulit, dan setidaknya level high untuk tugas-tugas lain yang sensitif terhadap kecerdasan .

Rincian Struktur Harga API

Harga untuk penggunaan API reguler tetap sama dari generasi sebelumnya .

Tarif Standar: $5 per juta token input, $25 per juta token output .
Tarif Mode Fast: $10 per juta token input, $50 per juta token output. Mode ini berjalan sekitar 2,5 kali lebih cepat dari standar, menjadikannya sekitar 3 kali lebih murah daripada mode Fast untuk model Opus sebelumnya .

Tarif prompt caching ditetapkan sebesar $6,25 per juta token untuk cache tulis 5 menit, $10 per juta token untuk cache tulis 1 jam, dan $0,50 per juta token untuk cache hit dan refresh .

Apa Arti Peluncuran Ini bagi Lanskap AI

Peluncuran Opus 4.8 bukan sekadar peningkatan skor mentah; ini adalah peningkatan yang ditargetkan untuk perusahaan dan pengembang. Cerita produknya berpusat pada keandalan untuk agen, penanganan ketidakpastian secara eksplisit, dan pemberian kendali kepada programmer atas pertukaran biaya-performa melalui tingkat upaya yang eksplisit. Sementara itu, strategi harganya tetap konservatif, tanpa kenaikan untuk panggilan API standar, sementara penurunan harga mode Fast membuat inferensi berkecepatan tinggi lebih terjangkau untuk aplikasi yang sensitif terhadap latensi.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Orang-orang juga bertanya

Apa jawaban singkat untuk "Claude Opus 4.8: Peningkatan Keandalan dan Fitur Baru untuk Pengembang, Harga Tetap Kompetitif"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Peluncuran ini sangat menekankan peningkatan keandalan dan kejujuran, dengan model yang 4 kali lebih kecil kemungkinannya untuk melewatkan cacat kode, serta fitur baru seperti alur kerja dinamis (dynamic workflows) da...

Sumber

← Back to Trending