Dari awal, Claude Code direka untuk aliran kerja pembangun secara langsung. Ia boleh mencari dan membaca kod, menyunting fail, menjalankan ujian, dan menolak ke GitHub — semuanya dari baris perintah . Pratonton awal adalah terhad, tetapi sambutan pembangun adalah serta-merta. Menjelang Mac 2025, alat ini telah mendapat sokongan tampal imej dan sebutan fail dengan @; menjelang April 2025, fungsi kesinambungan sesi dan sambung semula telah ditambah, membolehkan perbualan membawa konteks merentasi permulaan semula
.
Siri 0.2.x, yang berlangsung dari Februari hingga pelancaran ketersediaan umum pada Mei, secara beransur-ansur menstabilkan pengalaman terminal. Apabila Claude Code mencapai GA, ia sudah bersedia untuk kerja kejuruteraan perisian yang berterusan .
Di sebalik keupayaan Claude Code adalah model mercu tanda berturut-turut Anthropic. Setiap generasi Opus telah meningkatkan secara langsung pengekodan, penaakulan, dan kebolehpercayaan alat ini.
Claude Opus 4.5, dikeluarkan pada November 2025, diletakkan sebagai model terbaik di dunia untuk pengekodan, ejen, dan penggunaan komputer . Ia menubuhkan seni bina Opus 4.x yang akan menjadi asas platform.
Opus 4.6 membawa peningkatan ketara kepada perancangan, kebolehpercayaan tugas ejen jangka panjang, dan operasi dalam pangkalan kod yang besar. Paling ketara, ia memperkenalkan tetingkap konteks 1 juta token dalam beta — model kelas Opus pertama yang mengendalikan konteks pada skala ini .
Lonjakan dari Opus 4.6 ke Opus 4.7 adalah seismik untuk penanda aras pengekodan. Dalam satu keluaran model, Anthropic bergerak dari 80.8% kepada 87.6% pada SWE-bench Verified (mod adaptif) . Ia juga menolak SWE-bench Pro dari 53.4% kepada 64.3% — kelebihan lebih 10 mata berbanding pesaing terdekat
.
Opus 4.7 memperkenalkan pemikiran adaptif, yang memperuntukkan sumber pengiraan secara dinamik bagi setiap tugas, dan menstabilkan tetingkap konteks 1M token pada kualiti pengeluaran merentasi API Anthropic, Amazon Bedrock, dan Vertex AI Google Cloud .
Peningkatan model terkini lebih bersifat memperhalusi daripada mengubah. Opus 4.8 dibina terus di atas Opus 4.7, meningkatkan skor SWE-bench Pro dari 64.3% kepada 69.2% sambil mengurangkan secara dramatik kadar kecacatan kod yang tidak dapat dikesan. Anthropic melaporkan bahawa model ini empat kali lebih kecil kemungkinannya untuk membiarkan kelemahan dalam kodnya sendiri berlalu tanpa ditegur, dan bahawa penguji melaporkan kesediaan yang lebih besar untuk menandakan ketidakpastian dan mengelakkan dakwaan yang tidak disokong .
Yang penting, Opus 4.8 mengekalkan keserasian API dengan Opus 4.7 dan dijual pada harga yang sama. Ia juga membawakan Mod Pantas 2.5× lebih laju pada satu pertiga kos model sebelumnya, secara langsung meningkatkan pengalaman pembangun dalam Claude Code .
Anthropic mengadakan persidangan pembangun tahunan pertamanya, Code with Claude, pada 6 Mei 2026 di San Francisco, dengan acara satelit di London dan Tokyo . Daripada mempamerkan model baharu, acara ini menumpukan sepenuhnya kepada keupayaan platform — terutamanya, ciri untuk Claude Managed Agents.
Anthropic melancarkan empat ciri untuk runtime ejen berkeadaan yang dihoskannya, yang telah dilancarkan dalam beta awam kira-kira sebulan sebelumnya pada awal April 2026 .
Dreaming (Pratonton Penyelidikan) adalah yang paling bercita-cita tinggi secara konsep. Apabila ejen melahu, proses latar belakang berjadual menyemak sehingga 100 perbualan lalu, mengekstrak corak berulang, aliran kerja dan kesilapan, dan kemudian menulis semula stor memori ejen untuk isyarat yang lebih tinggi. Data sesi asal disimpan tidak berubah — ejen hanya menggunakan kemas kini memori ini secara eksplisit, dan pembangun boleh memilih semakan manual sebelum memori diubah .
Mekanisme ini secara berkesan membolehkan ejen bertambah baik dari masa ke masa tanpa latihan semula langsung. Ia kini tersedia dalam pratonton penyelidikan dan memerlukan permohonan untuk akses .
Outcomes (Beta Awam) memperkenalkan kriteria kejayaan berstruktur. Penilai berasingan berjalan dalam tetingkap konteks terpencil, menggred output ejen berdasarkan rubrik yang ditentukan pembangun. Jika skor jatuh di bawah ambang, ejen secara automatik mencuba semula .
Orkestrasi Pelbagai Ejen (Beta Awam) membolehkan ejen utama menguraikan tugas kompleks dan menghantar kerja kepada sekumpulan sub-ejen khusus — masing-masing dengan model, prompt, dan alat sendiri — berjalan selari pada sistem fail yang dikongsi .
Webhooks (Beta Awam) membolehkan ejen menghantar pemberitahuan kepada sistem luaran apabila tugas selesai, menggerakkan aliran kerja ejen dari perbualan kepada dipacu peristiwa .
Seiring dengan ciri Ejen Terurus, Code with Claude termasuk beberapa pelancaran lain:
Nombor penanda aras utama Claude Code ialah skornya 87.6% pada SWE-bench Verified, dicapai dengan Claude Opus 4.7 dalam mod adaptif . Skor ini mewakili keputusan tertinggi yang diterbitkan di kalangan ejen pengekodan AI yang tersedia secara umum setakat Jun 2026.
SWE-bench Verified ialah set terpilih 500 isu GitHub dunia sebenar daripada repositori Python sumber terbuka yang mesti diselesaikan oleh ejen dari hujung ke hujung. Ia telah menjadi rujukan standard industri untuk kejuruteraan perisian berejen, dan kebangkitan Claude Code pada carta pendahulu ini — dari 80.9% pada Opus 4.5 kepada 87.6% pada Opus 4.7 — telah menjadi naratif teras untuk produk ini .
Angka 87.6% bukan statik. Ia bergantung pada model, prompt, dan "abah-abah" (harness) — persekitaran runtime yang mengatur penggunaan alat. Mod adaptif Claude Opus 4.7 memperuntukkan sumber pengiraan secara dinamik bagi setiap tugas, menghantar lebih banyak sumber untuk refaktor yang kompleks. Claude Code tanpa abah-abah adaptif ini mencatatkan skor 80.8% pada penanda aras yang sama .
Pada penanda aras SWE-bench Pro yang lebih sukar — yang menguji penyelesaian isu dunia sebenar yang lebih sukar — Opus 4.7 mencatatkan 64.3%, mendahului GPT-5.4 (57.7%), GPT-5.5 (58.6%), dan Gemini 3.1 Pro (54.2%) . Opus 4.8 kemudiannya menolak SWE-bench Pro kepada 69.2%
.
Prestasi Claude Code meluas merentasi beberapa penanda aras:
Dalam semakan kualiti kod buta, Claude Code memenangi 67% perbandingan satu lawan satu dengan pesaing .
Perlu diingat bahawa gambaran persaingan kekal cair. GPT-5.5 OpenAI secara ringkas mendahului pada SWE-bench Verified pada 88.7% pada pertengahan 2026, mewujudkan perpecahan di mana Claude Code mendahului pada SWE-bench Pro dan GPT-5.5 mendahului pada Verified . Carta pendahulu terus berkembang dengan setiap keluaran model.
Kedudukan Anthropic untuk Claude Code telah bergabung di sekitar konsep autonomi jangka panjang. Claude Opus 4.8 digambarkan sebagai mempunyai "konsistensi dan autonomi untuk terus bekerja pada tugas jangka panjang" dan dilabel secara khusus sebagai "model paling berkebolehan Anthropic untuk penaakulan kompleks, pengekodan ejen jangka panjang, dan kerja autonomi tinggi" .
Penekanan terhadap operasi bebas yang berterusan dan bukannya penyelesaian prompt sekali sahaja adalah di mana Claude Code paling jelas membezakan dirinya. Ciri-ciri seperti dreaming, peruntukan pengiraan adaptif, dan orkestrasi pelbagai ejen semuanya menunjuk kepada falsafah di mana ejen dijangka beroperasi merentasi sesi, belajar daripada outputnya sendiri, dan menguruskan projek berbilang fail yang kompleks dengan campur tangan pembangun yang minimum.
Anthropic juga telah mula menekankan kejujuran model sebagai kelebihan daya saing. Keluaran Opus 4.8 menekankan kesediaan model untuk menandakan ketidakpastian dan mengelakkan dakwaan yang tidak disokong — rangka kerja praktikal berorientasikan keselamatan yang ditujukan kepada pembangun yang perlu mempercayai output ejen mereka dalam persekitaran pengeluaran .
Comments
0 comments