Beberapa keterbatasan yang sering disebut antara lain:
Ada juga klaim bahwa model ini menemukan "ribuan" bug berbahaya dengan tingkat kesepakatan tinggi dari penilai manusia. Namun laporan seperti itu sebagian besar berasal dari sumber yang dekat dengan vendor, sehingga masih perlu konfirmasi independen sebelum dianggap sebagai bukti kuat .
Dalam praktiknya, risiko yang muncul justru bisa berupa banjir temuan kerentanan. Model dapat menghasilkan banyak kandidat bug dengan cepat, tetapi tim keamanan tetap harus memverifikasi satu per satu—yang bisa menimbulkan beban kerja baru.
Meskipun Mythos sering digambarkan sebagai model terdepan, hasil evaluasi pemerintah menunjukkan persaingan yang sangat ketat.
AISI melaporkan bahwa GPT‑5.5 dari OpenAI juga mencapai tingkat performa serupa dalam rangkaian evaluasi keamanan siber mereka . Dalam beberapa laporan pihak ketiga, GPT‑5.5 bahkan mencatat sekitar 71,4% tingkat kelulusan pada tugas tingkat “Expert”, angka yang berada di kisaran performa Mythos pada benchmark yang sama—meski angka ini perlu dibaca hati‑hati sampai data lengkap dirilis
.
Perusahaan keamanan siber XBOW juga melaporkan bahwa benchmark internal mereka—yang menggunakan kerentanan historis nyata—menunjukkan kemampuan “mirip Mythos” dari GPT‑5.5, khususnya dalam menemukan dan mengeksploitasi bug dari awal hingga akhir .
Dari sisi biaya dan ketersediaan, gambaran publik menjadi lebih kompleks. Jika model pesaing atau sistem agen khusus dapat mencapai hasil serupa dengan biaya lebih rendah atau akses lebih luas, keunggulan praktis Mythos mungkin lebih ditentukan oleh tooling, workflow, dan kontrol akses, bukan hanya kualitas model mentahnya .
Sebagian klaim paling kuat tentang Mythos berasal dari materi pengujian internal Anthropic. Meski berguna, pengujian tersebut tetap dilakukan dalam lingkungan yang terkontrol .
Tes AISI memiliki kredibilitas lebih tinggi karena dijalankan oleh lembaga pemerintah, tetapi mereka juga menekankan bahwa evaluasi tersebut hanyalah suite keamanan siber yang sempit, bukan pengukuran lengkap terhadap kemampuan di dunia nyata .
Dalam praktiknya, sistem keamanan menghadapi kondisi yang jauh lebih kompleks, seperti:
Lingkungan benchmark yang rapi sering kali tidak sepenuhnya menangkap tantangan tersebut.
Walau masih terbatas, kemampuan model seperti Mythos sudah cukup kuat untuk memicu respons dari regulator dan institusi besar.
Beberapa perkembangan terbaru meliputi:
Langkah‑langkah ini mencerminkan kekhawatiran bahwa AI dapat menurunkan biaya dan meningkatkan kecepatan operasi siber—baik bagi penyerang maupun pihak yang bertahan.
Data dari AISI menunjukkan bahwa panjang tugas keamanan siber yang dapat diselesaikan AI secara otonom terus meningkat dengan cepat, bahkan diperkirakan berlipat ganda setiap beberapa bulan dalam rangkaian evaluasi mereka .
Pusat Keamanan Siber Nasional Inggris (NCSC) juga mencatat bahwa model AI mutakhir sudah membantu pada berbagai langkah operasi siber, termasuk menemukan zero‑day dan memecahkan tantangan kriptografi .
Berdasarkan bukti publik saat ini, Claude Mythos adalah alat yang sangat kuat untuk menemukan kerentanan dan membantu eksperimen keamanan siber. Namun sistem ini masih lebih tepat dipandang sebagai asisten berdaya tinggi dengan potensi penggunaan ganda, bukan pengganti analis keamanan yang sepenuhnya otonom.
Pertanyaan yang masih terbuka meliputi:
Jawaban atas pertanyaan‑pertanyaan ini kemungkinan akan menentukan apakah Mythos benar‑benar menjadi standar baru dalam keamanan siber berbasis AI.
Comments
0 comments