Keunggulan paling jelas Mythos ada pada pekerjaan berjangka panjang: menemukan kerentanan, mengeksploitasi celah, melakukan reverse engineering, dan menjalankan simulasi intrusi yang membutuhkan perencanaan, penggunaan alat, serta rangkaian beberapa langkah. AISI menyoroti tugas capture-the-flag, atau CTF, dan simulasi serangan multi-langkah, sambil menempatkan Mythos dalam tren yang lebih luas: performa model AI di ranah siber sedang meningkat cepat .
Laporan red-team Anthropic sendiri bahkan menyatakan Mythos kuat di berbagai tugas keamanan siber. Laporan itu menggambarkan kemampuan menemukan zero-day pada codebase open-source nyata, merekayasa balik exploit pada software tertutup, serta mengubah kerentanan N-day menjadi exploit yang berjalan . Tetapi ada batas penting: laporan yang sama mengatakan detail publik dibatasi karena lebih dari 99% kerentanan yang ditemukan belum ditambal, sehingga pembaca luar belum bisa memeriksa sebagian besar contoh tersebut secara independen
.
Argumen model murah bukan berarti sistem open-weight kecil sudah menandingi Mythos sebagai agen siber otonom. Poinnya lebih halus: kemampuan siber AI bisa sangat tidak merata. Sebuah model bisa lemah pada satu jenis tugas, tetapi mengejutkan pada analisis kerentanan yang sempit dan sudah dibingkai dengan baik. Dalam pengujian Aisle, model open-weight kecil dan murah dapat menemukan kembali banyak analisis pada beberapa kerentanan contoh Mythos setelah kode relevan diisolasi .
Tom’s Hardware merangkum perdebatan setelah pengumuman Mythos dengan nada serupa: Mythos mungkin termasuk model AI terkuat secara keseluruhan untuk keamanan siber, tetapi model yang lebih murah bisa mencapai hasil mirip pada sebagian tugas pencarian exploit dan patching, meski reliabilitas dan uptime masih menjadi pertanyaan .
Perbedaan ini penting. Menyamai hasil analisis kode yang sudah dipisahkan tidak sama dengan menavigasi jaringan secara otonom, merangkai beberapa langkah, mengeksploitasi celah, lalu menyelesaikan simulasi intrusi. Bukti publik paling kuat mendukung keunggulan Mythos pada workflow yang lebih panjang dan bersifat agenik seperti itu .
Penjelasan paling masuk akal dari bukti publik bukan “model semata”, melainkan model plus sistem di sekelilingnya: alat, lingkungan eksekusi, akses, pemilihan konteks, prompt, scaffolding agen, dan tinjauan pakar. Aisle secara eksplisit berargumen bahwa moat berada pada sistem tempat keahlian keamanan mendalam dibangun, bukan pada modelnya saja . Evaluasi AISI juga menunjukkan pentingnya setup, karena perilaku Mythos yang paling kuat diamati dalam kondisi terkontrol saat model diarahkan dan diberi akses jaringan
.
Akses juga bagian dari cerita. Bain menggambarkan Claude Mythos Preview sebagai model frontier dengan kapabilitas keamanan siber yang cukup serius sehingga Anthropic membatasi rilisnya melalui program mitra terseleksi bernama Project Glasswing . Artinya, perbandingan praktis bukan sekadar API mana yang lebih murah, tetapi seberapa jauh workflow yang sama bisa direka ulang dengan model, alat, akses, dan keahlian yang tersedia
.
Belum ada benchmark publik yang benar-benar setara untuk membandingkan harga dan performa Mythos, API murah, serta model open-weight dalam kondisi identik. AISI mengevaluasi Mythos dalam pengaturan terkontrol dan membandingkannya dengan kemajuan model frontier sebelumnya . Anthropic menyediakan bukti red-team yang rinci, tetapi berasal dari pengembang model itu sendiri
. Aisle memberi uji tandingan yang lebih sempit pada beberapa kerentanan contoh
. Ketiganya menjawab pertanyaan yang berdekatan, tetapi tidak sama.
Perbandingan yang ideal perlu menyamakan akses alat, konteks kode, izin jaringan, jumlah percobaan, anggaran komputasi, aturan eksekusi exploit, dan tingkat tinjauan manusia. Tanpa itu, klaim yang terlalu kuat—baik bahwa Mythos sepenuhnya unik maupun bahwa model murah sudah setara—masih prematur .
Claude Mythos terlihat luar biasa ketika otonomi dan eksekusi multi-langkah menjadi faktor utama. Tetapi catatan publik belum membuktikan bahwa penalaran keamanan sibernya benar-benar tidak tersedia pada model yang lebih murah. Kesimpulan yang lebih hati-hati: Mythos punya keunggulan nyata untuk workflow siber kompleks, sementara model berbiaya lebih rendah dapat menangani porsi analisis terbatas yang mengejutkan besar ketika dipasangkan dengan alat yang kuat dan pengawasan pakar .
Comments
0 comments