Sejak awal, Claude Code dirancang untuk alur kerja pengembang yang langsung menyentuh kode. Ia bisa mencari dan membaca kode, mengedit file, menjalankan pengujian, dan melakukan push ke GitHub — semuanya dari command line . Pratinjau awalnya memang terbatas, tetapi respons pengembang sangat cepat. Pada Maret 2025, alat ini telah mendapatkan dukungan tempel gambar dan @-mention file; pada April 2025, fungsionalitas penyimpanan sesi dan melanjutkan percakapan (resume) ditambahkan, memungkinkan konteks percakapan terbawa meski alat dimulai ulang
.
Seri 0.2.x, yang berlangsung dari Februari hingga peluncuran ketersediaan umum pada bulan Mei, secara bertahap menstabilkan pengalaman terminal. Saat Claude Code mencapai GA, ia sudah siap produksi untuk pekerjaan rekayasa perangkat lunak yang berkelanjutan .
Di balik kemampuan Claude Code terdapat model-model flagship Anthropic yang dirilis berturut-turut. Setiap generasi Opus secara langsung meningkatkan kemampuan koding, penalaran, dan keandalan.
Claude Opus 4.5, yang dirilis pada November 2025, diposisikan sebagai model terbaik di dunia untuk koding, agen, dan penggunaan komputer . Model ini membangun arsitektur Opus 4.x yang akan menjadi fondasi platform.
Opus 4.6 membawa peningkatan signifikan pada perencanaan, keandalan tugas agentic jangka panjang, dan operasi di basis kode yang besar. Yang paling menonjol, ia memperkenalkan jendela konteks 1 juta token dalam versi beta — model kelas Opus pertama yang menangani konteks dalam skala ini .
Lompatan dari Opus 4.6 ke Opus 4.7 sangat seismik untuk tolok ukur koding. Hanya dalam satu perilisan model, Anthropic bergerak dari 80,8% menjadi 87,6% pada SWE-bench Verified (mode adaptif) . Model ini juga mendorong SWE-bench Pro dari 53,4% ke 64,3% — unggul lebih dari 10 poin dari pesaing terdekat
.
Opus 4.7 memperkenalkan adaptive thinking, yang secara dinamis mengalokasikan komputasi untuk setiap tugas, dan menstabilkan jendela konteks 1 juta token ke kualitas produksi di seluruh API Anthropic, Amazon Bedrock, dan Google Cloud's Vertex AI .
Peningkatan model terbaru ini lebih bersifat menyempurnakan daripada mengubah secara fundamental. Opus 4.8 dibangun langsung di atas Opus 4.7, meningkatkan skor SWE-bench Pro dari 64,3% menjadi 69,2% sambil secara dramatis mengurangi tingkat cacat kode yang tidak terdeteksi. Anthropic melaporkan bahwa model ini empat kali lebih kecil kemungkinannya untuk membiarkan kelemahan dalam kodenya sendiri lolos tanpa komentar, dan bahwa penguji melaporkan kemauan yang lebih besar untuk menandai ketidakpastian serta menghindari klaim yang tidak didukung .
Yang krusial, Opus 4.8 mempertahankan kompatibilitas API dengan Opus 4.7 dan hadir dengan harga yang sama. Ia juga membawa Fast Mode 2,5× lebih cepat dengan sepertiga biaya dari model sebelumnya, secara langsung meningkatkan pengalaman pengembang di Claude Code .
Anthropic mengadakan konferensi pengembang tahunan pertamanya, Code with Claude, pada 6 Mei 2026 di San Francisco, dengan acara satelit di London dan Tokyo . Alih-alih memamerkan model baru, acara ini sepenuhnya berfokus pada kemampuan platform — terutama pada fitur untuk Claude Managed Agents.
Anthropic mengirimkan empat fitur untuk runtime agen yang dihosting dan stateful miliknya, yang baru saja diluncurkan dalam beta publik sekitar sebulan sebelumnya pada awal April 2026 .
Dreaming (Pratinjau Riset) adalah yang paling ambisius secara konseptual dari semuanya. Saat agen dalam keadaan menganggur, sebuah proses latar belakang terjadwal meninjau hingga 100 percakapan masa lalu, mengekstrak pola berulang, alur kerja, dan kesalahan, lalu menulis ulang penyimpanan memori agen untuk sinyal yang lebih tinggi. Data sesi asli dijaga agar tetap tidak dapat diubah — agen hanya mengadopsi pembaruan memori ini secara eksplisit, dan pengembang dapat memilih tinjauan manual sebelum memori diubah .
Mekanisme ini secara efektif memungkinkan agen meningkat seiring waktu tanpa pelatihan ulang langsung. Saat ini tersedia dalam pratinjau riset dan memerlukan pengajuan akses .
Outcomes (Beta Publik) memperkenalkan kriteria keberhasilan terstruktur. Sebuah evaluator terpisah berjalan dalam jendela konteks yang terisolasi, menilai keluaran agen berdasarkan rubrik yang ditentukan pengembang. Jika skor jatuh di bawah ambang batas, agen secara otomatis mencoba lagi .
Orkestrasi Multi-Agen (Beta Publik) memungkinkan agen utama untuk menguraikan tugas-tugas kompleks dan mengirimkan pekerjaan ke armada sub-agen khusus — masing-masing dengan model, prompt, dan alatnya sendiri — yang berjalan secara paralel pada sistem file bersama .
Webhooks (Beta Publik) memungkinkan agen mengirim notifikasi ke sistem eksternal saat tugas selesai, mengubah alur kerja agentic dari percakapan menjadi berbasis peristiwa .
Bersamaan dengan fitur Managed Agents, Code with Claude mencakup beberapa peluncuran lain:
Angka benchmark utama Claude Code adalah skornya yang mencapai 87,6% pada SWE-bench Verified, yang dicapai dengan Claude Opus 4.7 dalam mode adaptif . Skor ini merupakan hasil tertinggi yang dipublikasikan di antara agen koding AI yang tersedia secara umum per Juni 2026.
SWE-bench Verified adalah satu set dikurasi dari 500 isu GitHub dunia nyata dari repositori Python open-source yang harus diselesaikan oleh agen dari ujung ke ujung. Ini telah menjadi referensi standar industri untuk rekayasa perangkat lunak agentic, dan kenaikan Claude Code di papan peringkat ini — dari 80,9% pada Opus 4.5 ke 87,6% pada Opus 4.7 — telah menjadi narasi inti untuk produk ini .
Angka 87,6% itu tidak statis. Itu tergantung pada model, prompt, dan "harness" — lingkungan runtime yang mengatur penggunaan alat. Mode adaptif Claude Opus 4.7 secara dinamis mengalokasikan komputasi per tugas, mengirimkan lebih banyak sumber daya untuk refaktor yang kompleks. Claude Code mandiri tanpa harness adaptif ini mencetak 80,8% pada benchmark yang sama .
Pada benchmark SWE-bench Pro yang lebih sulit — yang menguji resolusi isu dunia nyata yang lebih keras — Opus 4.7 mencetak 64,3%, di depan GPT-5.4 (57,7%), GPT-5.5 (58,6%), dan Gemini 3.1 Pro (54,2%) . Opus 4.8 kemudian mendorong SWE-bench Pro ke 69,2%
.
Kinerja Claude Code meluas ke beberapa benchmark:
Dalam ulasan kualitas kode buta, Claude Code memenangkan 67% perbandingan head-to-head dengan pesaing .
Perlu dicatat bahwa gambaran kompetitif tetap cair. GPT-5.5 milik OpenAI secara singkat memimpin di SWE-bench Verified pada 88,7% di awal pertengahan 2026, menciptakan pemisahan di mana Claude Code memimpin di SWE-bench Pro dan GPT-5.5 memimpin di Verified . Papan peringkat terus berkembang dengan setiap rilis model.
Posisi Anthropic untuk Claude Code telah mengkristal di sekitar konsep otonomi jangka panjang. Claude Opus 4.8 digambarkan memiliki "konsistensi dan otonomi untuk terus mengerjakan tugas-tugas yang berjalan lama" dan secara khusus dilabeli sebagai "model paling mumpuni dari Anthropic untuk penalaran kompleks, koding agentik jangka panjang, dan pekerjaan dengan otonomi tinggi" .
Penekanan pada operasi mandiri yang berkelanjutan daripada sekadar penyelesaian prompt satu kali inilah yang paling jelas membedakan Claude Code. Fitur-fitur seperti dreaming, alokasi komputasi adaptif, dan orkestrasi multi-agen semuanya mengarah pada filosofi di mana agen diharapkan untuk beroperasi lintas sesi, belajar dari keluarannya sendiri, dan mengelola proyek multi-file yang kompleks dengan intervensi pengembang yang minimal.
Anthropic juga mulai menekankan kejujuran model sebagai keunggulan kompetitif. Perilisan Opus 4.8 menekankan kemauan model untuk menandai ketidakpastian dan menghindari klaim yang tidak didukung — sebuah kerangka kerja yang berorientasi pada keamanan praktis yang ditujukan bagi pengembang yang perlu memercayai output agen mereka di lingkungan produksi .
Comments
0 comments