Menjadikan OpenAI vs Claude sebagai duel satu lawan satu dengan skor akhir terdengar menarik, tetapi bukti publik belum mendukung cerita sesederhana itu. Sampai April 2026, gambaran yang tersedia lebih tepat dibaca sebagai persaingan OpenAI dan Anthropic/Claude dalam tiga hal: penemuan kerentanan berbantuan AI, otomasi pekerjaan keamanan siber, dan tata kelola akses untuk kemampuan yang berisiko tinggi. Belum ada arena publik yang memakai paket tugas, versi model, hak akses alat, bantuan manusia, dan sistem skor yang sama untuk memutuskan pemenang. [1][
2][
3]
Dalam konteks ini, kerentanan berarti celah pada perangkat lunak atau sistem yang bisa dimanfaatkan. AI dapat membantu pembela menemukan celah lebih cepat, tetapi kemampuan yang sama juga bisa membantu penyerang menyusun langkah eksploitasi. Karena itu, pertanyaannya bukan hanya model mana yang paling kuat, tetapi bagaimana kekuatan itu diuji, dibatasi, dan diawasi.
Kesimpulan paling aman saat ini
Saat ini, tidak dapat dikatakan secara andal bahwa OpenAI sudah memimpin, dan juga tidak dapat dikatakan secara andal bahwa Claude sudah memimpin. Analisis CRN menempatkan OpenAI dan Anthropic dalam konteks persaingan penemuan kerentanan berbantuan AI, tetapi juga menekankan bahwa siapa yang menang bukanlah kekhawatiran utama bagi tim keamanan; tekanan yang lebih besar adalah kemungkinan AI mempercepat penemuan celah dan alur serangan. [2]
Artikel red team Anthropic juga tidak menyimpulkan bahwa Claude menang secara menyeluruh. Pesan utamanya adalah pengalaman menguji Claude dalam kompetisi keamanan siber menunjukkan potensi AI untuk mengubah keseimbangan ofensif-defensif, terutama dengan membuat eksploitasi kerentanan dasar lebih mudah diotomatisasi. [3]
Jadi, klaim yang paling kuat dari informasi publik saat ini adalah: kedua pihak sedang mendorong kemampuan AI untuk keamanan siber dan memikirkan cara merilisnya secara lebih terkendali, tetapi belum ada pemenang yang dapat diverifikasi melalui kompetisi terbuka dengan kondisi setara. [1][
2][
3]
Sebenarnya ada tiga perlombaan berbeda
1. Siapa yang lebih baik menemukan kerentanan
CRN melaporkan bahwa setelah Anthropic mengumumkan kemajuan Claude Mythos dalam penemuan kerentanan berbasis AI, OpenAI menyusul dengan pengumuman di bidang yang sama. [2] Dari luar, ini mudah dibingkai sebagai adu cepat antara OpenAI dan Claude.
Namun, menemukan kerentanan bukan satu kemampuan tunggal. Model mungkin bagus membaca basis kode besar, tetapi belum tentu sama baiknya dalam memisahkan temuan nyata dari false positive, menjelaskan dampak keamanan, memberi saran perbaikan, atau menghasilkan bukti eksploitasi yang dapat diverifikasi. Tanpa pengujian bersama dengan aturan yang sama, demo produk atau pengumuman perusahaan tidak cukup untuk membuat klasemen umum. [1][
2]
2. Siapa yang lebih mampu mengotomatisasi alur serang dan bertahan
Anthropic merujuk HackTheBox AI vs Human CTF Challenge pada 14–16 Maret 2025 sebagai tantangan yang mempertemukan agen AI dengan peserta terbuka. [3] Dalam keamanan siber, CTF atau capture the flag adalah format kompetisi tempat peserta menyelesaikan rangkaian tantangan teknis, misalnya menganalisis celah atau memecahkan skenario sistem.
Peringatan yang ditarik Anthropic dari pengalaman semacam itu adalah bahwa AI dapat menurunkan hambatan untuk mengotomatisasi eksploitasi kerentanan dasar. [3] Inilah bagian yang sulit dinilai dengan papan peringkat sederhana. Kemampuan membaca kode, bernalar, dan memakai alat bisa sangat berguna untuk tim defensif. Namun, jika dilepas tanpa kontrol, kemampuan yang sama juga dapat mempercepat langkah penyerang. [
3]
3. Siapa yang bisa merilis kemampuan tinggi dengan aman
CRN menempatkan inisiatif OpenAI Trusted Access for Cyber dalam konteks persaingan yang sama. Ini menunjukkan bahwa isu utamanya bukan hanya apa yang bisa dilakukan model, tetapi juga siapa yang boleh mengakses kemampuan berisiko tinggi dan dalam kondisi apa. [2]
Anthropic juga membahas sisi tata kelola penyalahgunaan. Tim Safeguards Anthropic pernah mengidentifikasi dan memblokir pengguna dengan kemampuan pemrograman terbatas yang memanfaatkan Claude untuk mengembangkan malware. [3] Ini tidak berarti semua penggunaan AI untuk keamanan siber akan berujung buruk. Artinya, pemantauan setelah model digunakan, audit, pembatasan akses, dan prosedur pemblokiran sudah menjadi bagian dari evaluasi kemampuan siber AI. [
3]
Mengapa ranking umum belum layak dipercaya
Perbandingan OpenAI vs Claude yang benar-benar kuat setidaknya membutuhkan enam hal: kumpulan tugas yang sama, versi model yang sama-sama jelas, hak akses alat yang sama, tingkat bantuan manusia yang sama, batasan keselamatan yang sama, serta standar penilaian yang terbuka dan dapat diulang.
Materi publik saat ini belum memenuhi syarat tersebut. Artikel Anthropic memberi gambaran pengalaman menguji Claude dalam kompetisi keamanan siber dan risiko penyalahgunaannya. Analisis CRN merangkum bagaimana OpenAI dan Anthropic bergerak dalam penemuan kerentanan serta strategi akses terkendali. [2][
3] Keduanya penting untuk memahami arah industri, tetapi tidak bisa langsung diubah menjadi tabel pemenang umum.
Di sinilah kerangka seperti CYBENCH menjadi relevan. CYBENCH diposisikan sebagai kerangka untuk mengevaluasi kemampuan AI dalam tugas keamanan siber, yang menunjukkan upaya peneliti membuat pengukuran lebih terstruktur. Namun, CYBENCH bukan pengumuman kemenangan OpenAI atas Claude, atau sebaliknya. [1]
Cara yang lebih berguna untuk menilai klaim keamanan siber AI
Minta bukti yang dapat diulang
Klaim pemasaran, artikel red team, tolok ukur akademik, dan uji internal memiliki nilai yang berbeda. Jika organisasi ingin memakai alat AI keamanan siber, yang perlu diminta bukan hanya contoh keberhasilan, tetapi juga metode pengujian, contoh kegagalan, tingkat false positive, dan apakah hasilnya relevan dengan lingkungan sendiri. Kerangka seperti CYBENCH menunjukkan mengapa evaluasi terstruktur penting. [1]
Pisahkan tugas defensif dari tugas eksploitasi
Membantu klasifikasi kerentanan, meninjau kode, atau merangkum insiden tidak sama risikonya dengan menghasilkan langkah eksploitasi yang dapat langsung dijalankan. Anthropic secara eksplisit memperingatkan bahwa AI dapat mempermudah otomatisasi eksploitasi kerentanan dasar, sehingga tugas yang semakin dekat ke rantai serangan membutuhkan tata kelola yang lebih ketat. [3]
Periksa kontrol akses
Risiko model siber yang kuat tidak hanya berada pada jawabannya, tetapi juga pada siapa yang menggunakannya dan dalam konteks apa. Pemberitaan CRN tentang Trusted Access for Cyber menunjukkan bahwa kontrol akses dan verifikasi pengguna mulai menjadi bagian dari strategi rilis kemampuan siber AI. [2]
Tanyakan cara menangani penyalahgunaan
Kasus yang diungkap Anthropic, ketika pengguna yang mengembangkan malware dengan bantuan Claude diidentifikasi dan diblokir, menunjukkan bahwa deteksi penyalahgunaan bukan fitur tambahan. Ia harus menjadi kontrol inti. [3] Jika penyedia hanya bisa menunjukkan kemampuan, tetapi tidak bisa menjelaskan pemantauan, audit, dan mekanisme penindakan, risikonya mudah diremehkan.
Garis bawah
OpenAI vs Claude dalam keamanan siber AI belum memiliki pemenang yang dapat dipercaya. Informasi publik menunjukkan Anthropic/Claude telah membawa isu kompetisi siber, otomatisasi eksploitasi, dan tata kelola penyalahgunaan ke ruang terbuka. OpenAI, menurut pemberitaan CRN, juga masuk dalam persaingan penemuan kerentanan berbantuan AI dan strategi akses terkendali. [2][
3]
Bagi tim keamanan, pertanyaan paling penting bukan siapa yang menang dalam narasi, melainkan apakah kemampuan itu dapat diverifikasi, aksesnya dapat dikendalikan, manfaat defensifnya lebih besar daripada risiko penyalahgunaan, dan sistem pengawasan setelah penerapan benar-benar berjalan. [1][
2][
3]




