答案已發布2026年5月1日Last edited 2026年5月6日3 個來源

OpenAI vs Claude: belum ada pemenang tepercaya di keamanan siber AI

Hingga April 2026, data publik belum cukup untuk menyatakan OpenAI atau Claude unggul dalam keamanan siber AI karena belum ada pengujian terbuka dengan tugas, versi model, akses alat, dan skor yang sama. Peringatan utama dari Anthropic bukan bahwa Claude sudah menang mutlak, melainkan bahwa AI dapat mempermudah otom...

使用 Studio Global AI 搜尋並查證事實探索更多內容

14K0

AI 生成的 OpenAI vs Claude 網安 AI 競賽主題編輯插圖 — OpenAI vs Claude 網安競賽：為何還沒有可靠贏家AI 生成示意圖；本文聚焦公開資料能支持的 OpenAI、Anthropic/Claude 網安 AI 比較。
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: OpenAI vs Claude 網安競賽：為何還沒有可靠贏家. Article summary: 截至 2026 年 4 月的公開資料，OpenAI 與 Claude/Anthropic 的 AI 網安競賽還沒有可靠冠軍；現有材料顯示雙方都被放進漏洞發現與安全釋出競爭脈絡，但沒有同任務、同權限、同評分的公開對戰結果。[2][3]. Topic tags: ai, cybersecurity, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "# Anthropic发布新款大模型网络安全与漏洞挖掘能力出色. 2026-04-08 16:31:01来源：财新网作者：刘沛林责任编辑：郭琼. Anthropic称，新款大模型Claude Mythos Preview暂不对公众开放，担心模型的“攻击性”，如被恶意攻击者利用，可能对经济、公共和国家安全造成严重后果. : 美国当地时间4月7日，美国大" source context "Anthropic发布新款大模型网络安全与漏洞挖掘能力出色_财新网_财新网" Reference image 2: visual subject "# Anthropic发布新款大模型网络安全与漏洞挖掘能力出色. 2026-04-08 16:31:01来源：财新网作者：刘沛林责任编辑：郭琼. Anthropic称，新款大模型Claude Mythos Preview暂不对公众开放，担心模型的“攻击性”，如被恶意攻击者利用，可能对经济、公共和国家安全造成严重后果. : 美国当地时间4月7日，美国大" source context "Anthropic发布新款大模型网络安全与漏洞挖掘能力出色_财新网_财新网" Style: premi
openai.com

Menjadikan OpenAI vs Claude sebagai duel satu lawan satu dengan skor akhir terdengar menarik, tetapi bukti publik belum mendukung cerita sesederhana itu. Sampai April 2026, gambaran yang tersedia lebih tepat dibaca sebagai persaingan OpenAI dan Anthropic/Claude dalam tiga hal: penemuan kerentanan berbantuan AI, otomasi pekerjaan keamanan siber, dan tata kelola akses untuk kemampuan yang berisiko tinggi. Belum ada arena publik yang memakai paket tugas, versi model, hak akses alat, bantuan manusia, dan sistem skor yang sama untuk memutuskan pemenang. ^[1]^[2]^[3]

Dalam konteks ini, kerentanan berarti celah pada perangkat lunak atau sistem yang bisa dimanfaatkan. AI dapat membantu pembela menemukan celah lebih cepat, tetapi kemampuan yang sama juga bisa membantu penyerang menyusun langkah eksploitasi. Karena itu, pertanyaannya bukan hanya model mana yang paling kuat, tetapi bagaimana kekuatan itu diuji, dibatasi, dan diawasi.

Kesimpulan paling aman saat ini

Saat ini, tidak dapat dikatakan secara andal bahwa OpenAI sudah memimpin, dan juga tidak dapat dikatakan secara andal bahwa Claude sudah memimpin. Analisis CRN menempatkan OpenAI dan Anthropic dalam konteks persaingan penemuan kerentanan berbantuan AI, tetapi juga menekankan bahwa siapa yang menang bukanlah kekhawatiran utama bagi tim keamanan; tekanan yang lebih besar adalah kemungkinan AI mempercepat penemuan celah dan alur serangan. ^[2]

Artikel red team Anthropic juga tidak menyimpulkan bahwa Claude menang secara menyeluruh. Pesan utamanya adalah pengalaman menguji Claude dalam kompetisi keamanan siber menunjukkan potensi AI untuk mengubah keseimbangan ofensif-defensif, terutama dengan membuat eksploitasi kerentanan dasar lebih mudah diotomatisasi. ^[3]

Jadi, klaim yang paling kuat dari informasi publik saat ini adalah: kedua pihak sedang mendorong kemampuan AI untuk keamanan siber dan memikirkan cara merilisnya secara lebih terkendali, tetapi belum ada pemenang yang dapat diverifikasi melalui kompetisi terbuka dengan kondisi setara. ^[1]^[2]^[3]

Sebenarnya ada tiga perlombaan berbeda

1. Siapa yang lebih baik menemukan kerentanan

CRN melaporkan bahwa setelah Anthropic mengumumkan kemajuan Claude Mythos dalam penemuan kerentanan berbasis AI, OpenAI menyusul dengan pengumuman di bidang yang sama. ^[2] Dari luar, ini mudah dibingkai sebagai adu cepat antara OpenAI dan Claude.

Namun, menemukan kerentanan bukan satu kemampuan tunggal. Model mungkin bagus membaca basis kode besar, tetapi belum tentu sama baiknya dalam memisahkan temuan nyata dari false positive, menjelaskan dampak keamanan, memberi saran perbaikan, atau menghasilkan bukti eksploitasi yang dapat diverifikasi. Tanpa pengujian bersama dengan aturan yang sama, demo produk atau pengumuman perusahaan tidak cukup untuk membuat klasemen umum. ^[1]^[2]

2. Siapa yang lebih mampu mengotomatisasi alur serang dan bertahan

Anthropic merujuk HackTheBox AI vs Human CTF Challenge pada 14–16 Maret 2025 sebagai tantangan yang mempertemukan agen AI dengan peserta terbuka. ^[3] Dalam keamanan siber, CTF atau capture the flag adalah format kompetisi tempat peserta menyelesaikan rangkaian tantangan teknis, misalnya menganalisis celah atau memecahkan skenario sistem.

Peringatan yang ditarik Anthropic dari pengalaman semacam itu adalah bahwa AI dapat menurunkan hambatan untuk mengotomatisasi eksploitasi kerentanan dasar. ^[3] Inilah bagian yang sulit dinilai dengan papan peringkat sederhana. Kemampuan membaca kode, bernalar, dan memakai alat bisa sangat berguna untuk tim defensif. Namun, jika dilepas tanpa kontrol, kemampuan yang sama juga dapat mempercepat langkah penyerang. ^[3]

3. Siapa yang bisa merilis kemampuan tinggi dengan aman

CRN menempatkan inisiatif OpenAI Trusted Access for Cyber dalam konteks persaingan yang sama. Ini menunjukkan bahwa isu utamanya bukan hanya apa yang bisa dilakukan model, tetapi juga siapa yang boleh mengakses kemampuan berisiko tinggi dan dalam kondisi apa. ^[2]

Anthropic juga membahas sisi tata kelola penyalahgunaan. Tim Safeguards Anthropic pernah mengidentifikasi dan memblokir pengguna dengan kemampuan pemrograman terbatas yang memanfaatkan Claude untuk mengembangkan malware. ^[3] Ini tidak berarti semua penggunaan AI untuk keamanan siber akan berujung buruk. Artinya, pemantauan setelah model digunakan, audit, pembatasan akses, dan prosedur pemblokiran sudah menjadi bagian dari evaluasi kemampuan siber AI. ^[3]

Mengapa ranking umum belum layak dipercaya

Perbandingan OpenAI vs Claude yang benar-benar kuat setidaknya membutuhkan enam hal: kumpulan tugas yang sama, versi model yang sama-sama jelas, hak akses alat yang sama, tingkat bantuan manusia yang sama, batasan keselamatan yang sama, serta standar penilaian yang terbuka dan dapat diulang.

Materi publik saat ini belum memenuhi syarat tersebut. Artikel Anthropic memberi gambaran pengalaman menguji Claude dalam kompetisi keamanan siber dan risiko penyalahgunaannya. Analisis CRN merangkum bagaimana OpenAI dan Anthropic bergerak dalam penemuan kerentanan serta strategi akses terkendali. ^[2]^[3] Keduanya penting untuk memahami arah industri, tetapi tidak bisa langsung diubah menjadi tabel pemenang umum.

Di sinilah kerangka seperti CYBENCH menjadi relevan. CYBENCH diposisikan sebagai kerangka untuk mengevaluasi kemampuan AI dalam tugas keamanan siber, yang menunjukkan upaya peneliti membuat pengukuran lebih terstruktur. Namun, CYBENCH bukan pengumuman kemenangan OpenAI atas Claude, atau sebaliknya. ^[1]

Cara yang lebih berguna untuk menilai klaim keamanan siber AI

Minta bukti yang dapat diulang

Klaim pemasaran, artikel red team, tolok ukur akademik, dan uji internal memiliki nilai yang berbeda. Jika organisasi ingin memakai alat AI keamanan siber, yang perlu diminta bukan hanya contoh keberhasilan, tetapi juga metode pengujian, contoh kegagalan, tingkat false positive, dan apakah hasilnya relevan dengan lingkungan sendiri. Kerangka seperti CYBENCH menunjukkan mengapa evaluasi terstruktur penting. ^[1]

Pisahkan tugas defensif dari tugas eksploitasi

Membantu klasifikasi kerentanan, meninjau kode, atau merangkum insiden tidak sama risikonya dengan menghasilkan langkah eksploitasi yang dapat langsung dijalankan. Anthropic secara eksplisit memperingatkan bahwa AI dapat mempermudah otomatisasi eksploitasi kerentanan dasar, sehingga tugas yang semakin dekat ke rantai serangan membutuhkan tata kelola yang lebih ketat. ^[3]

Periksa kontrol akses

Risiko model siber yang kuat tidak hanya berada pada jawabannya, tetapi juga pada siapa yang menggunakannya dan dalam konteks apa. Pemberitaan CRN tentang Trusted Access for Cyber menunjukkan bahwa kontrol akses dan verifikasi pengguna mulai menjadi bagian dari strategi rilis kemampuan siber AI. ^[2]

Tanyakan cara menangani penyalahgunaan

Kasus yang diungkap Anthropic, ketika pengguna yang mengembangkan malware dengan bantuan Claude diidentifikasi dan diblokir, menunjukkan bahwa deteksi penyalahgunaan bukan fitur tambahan. Ia harus menjadi kontrol inti. ^[3] Jika penyedia hanya bisa menunjukkan kemampuan, tetapi tidak bisa menjelaskan pemantauan, audit, dan mekanisme penindakan, risikonya mudah diremehkan.

Garis bawah

OpenAI vs Claude dalam keamanan siber AI belum memiliki pemenang yang dapat dipercaya. Informasi publik menunjukkan Anthropic/Claude telah membawa isu kompetisi siber, otomatisasi eksploitasi, dan tata kelola penyalahgunaan ke ruang terbuka. OpenAI, menurut pemberitaan CRN, juga masuk dalam persaingan penemuan kerentanan berbantuan AI dan strategi akses terkendali. ^[2]^[3]

Bagi tim keamanan, pertanyaan paling penting bukan siapa yang menang dalam narasi, melainkan apakah kemampuan itu dapat diverifikasi, aksesnya dapat dikendalikan, manfaat defensifnya lebih besar daripada risiko penyalahgunaan, dan sistem pengawasan setelah penerapan benar-benar berjalan. ^[1]^[2]^[3]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Hingga April 2026, data publik belum cukup untuk menyatakan OpenAI atau Claude unggul dalam keamanan siber AI karena belum ada pengujian terbuka dengan tugas, versi model, akses alat, dan skor yang sama.
Peringatan utama dari Anthropic bukan bahwa Claude sudah menang mutlak, melainkan bahwa AI dapat mempermudah otomatisasi eksploitasi kerentanan dasar dan mengubah keseimbangan serang bertahan.
Bagi tim keamanan, pertanyaan yang lebih berguna adalah apakah klaim kemampuan dapat diulang, aksesnya terkendali, penyalahgunaan bisa dideteksi, dan manfaat defensifnya lebih besar daripada risikonya.

大家也會問

「OpenAI vs Claude: belum ada pemenang tepercaya di keamanan siber AI」的簡短答案是什麼？

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

Bagi tim keamanan, pertanyaan yang lebih berguna adalah apakah klaim kemampuan dapat diulang, aksesnya terkendali, penyalahgunaan bisa dideteksi, dan manfaat defensifnya lebih besar daripada risikonya.

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具

Claude Security 公測版詳解：Anthropic 如何用 AI 掃描企業程式碼漏洞

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？

Grok 4.3 API：1M context 與 $1.25/$2.50 定價，對模型與語音競爭意味什麼

小米 Q5 不是 MIX 5？最新線索更像指向小米 18 系列

小米 Q5 是 MIX 5 嗎？目前更可能是小米 18 系列線索

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta用AI查年齡：Instagram與Facebook青少年保護新規一次看

研究對話

你2026年5月1日

研究問題

搜尋「AI 網絡安全競賽：OpenAI 對 Claude」

Studio Global AI2026年5月1日16 個來源

附引用的答案

我找到的核心結果是：這個話題主要指 OpenAI 與 Anthropic/Claude 在「AI 輔助網絡安全、漏洞發現、自動化攻防能力」上的競爭，而不是單一正式比賽。現有資料顯示，Anthropic 公開強調 Claude 在網安競賽與漏洞利用測試中的能力；媒體與分析文章則把它描述為 OpenAI 與 Anthropic 在網安 AI 產品與安全策略上的新一輪競賽。^[2]^[3]

Anthropic 的官方紅隊文章〈Cyber Competitions〉指出，Claude 在網安競賽測試中的表現顯示，AI 可能改變攻防平衡，因為它能讓攻擊者更容易自動化利用基礎漏洞。^[3]
該官方文章也強調，需要更多 AI 輔助防禦與韌性研究，以抵消 AI 讓攻擊自動化變容易的風險。^[3]
CRN 的分析把這場競爭描述為 Anthropic 與 OpenAI 圍繞「漏洞發現」與網安 AI 能力的競賽，但也指出，真正的問題不是誰贏，而是安全團隊如何面對 AI 讓漏洞發現與攻擊流程加速的結構性風險。^[2]
搜尋結果中還出現多篇 2026 年文章，將 OpenAI 的網安模型/計畫與 Anthropic 的 Claude 網安能力並列比較，但其中不少是二級分析或低權威來源，應謹慎看待。^[4]^[5]^[6]
學術背景方面，CYBENCH 是一個評估 AI 網安能力的框架，顯示業界與研究界正在用基準測試衡量模型在網安任務上的表現；但它本身不是「OpenAI 對 Claude」的比賽報導。^[1]

簡短結論：如果你要找的是「OpenAI vs Claude 誰在 AI 網絡安全競賽中領先」，目前公開證據不足以給出可靠勝負判定。更可靠的說法是：Claude/Anthropic 在官方材料中公開展示了網安競賽與漏洞利用相關能力，而 OpenAI 與 Anthropic 正被媒體視為在網安 AI 能力與安全釋出策略上競爭。^[2]^[3]

來源

[1] CYBENCH: A FRAMEWORK FOR EVALUATING CYBER-arxiv.org
[2] Anthropic-OpenAI Race Obscures The Real Cybersecurity Breakdowncrn.com
Anthropic-OpenAI Race Obscures The Real Cybersecurity Breakdown: Analysis As the two AI platforms pursue competing initiatives over vulnerability discovery, the question of who will win is the least of security teams’ concerns. Following the announcement he...
[3] Cyber Competitions \ red.anthropic.comred.anthropic.com
Our experience testing Claude in cyber competitions highlights the potential for AI to alter the offense-defense balance by making it easier for attackers to automate the exploitation of basic vulnerabilities. More research and development into AI-enabled c...

熱門探索內容

答案已發布2026年5月1日Last edited 2026年5月6日3 個來源

OpenAI vs Claude: belum ada pemenang tepercaya di keamanan siber AI

使用 Studio Global AI 搜尋並查證事實探索更多內容

14K0

Kesimpulan paling aman saat ini

Sebenarnya ada tiga perlombaan berbeda

1. Siapa yang lebih baik menemukan kerentanan

2. Siapa yang lebih mampu mengotomatisasi alur serang dan bertahan

3. Siapa yang bisa merilis kemampuan tinggi dengan aman

Mengapa ranking umum belum layak dipercaya

Cara yang lebih berguna untuk menilai klaim keamanan siber AI

Minta bukti yang dapat diulang

Pisahkan tugas defensif dari tugas eksploitasi

Periksa kontrol akses

Tanyakan cara menangani penyalahgunaan

Garis bawah

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Hingga April 2026, data publik belum cukup untuk menyatakan OpenAI atau Claude unggul dalam keamanan siber AI karena belum ada pengujian terbuka dengan tugas, versi model, akses alat, dan skor yang sama.
Peringatan utama dari Anthropic bukan bahwa Claude sudah menang mutlak, melainkan bahwa AI dapat mempermudah otomatisasi eksploitasi kerentanan dasar dan mengubah keseimbangan serang bertahan.
Bagi tim keamanan, pertanyaan yang lebih berguna adalah apakah klaim kemampuan dapat diulang, aksesnya terkendali, penyalahgunaan bisa dideteksi, dan manfaat defensifnya lebih besar daripada risikonya.

大家也會問

「OpenAI vs Claude: belum ada pemenang tepercaya di keamanan siber AI」的簡短答案是什麼？

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

你2026年5月1日

研究問題

搜尋「AI 網絡安全競賽：OpenAI 對 Claude」

Studio Global AI2026年5月1日16 個來源

附引用的答案

Anthropic 的官方紅隊文章〈Cyber Competitions〉指出，Claude 在網安競賽測試中的表現顯示，AI 可能改變攻防平衡，因為它能讓攻擊者更容易自動化利用基礎漏洞。^[3]
該官方文章也強調，需要更多 AI 輔助防禦與韌性研究，以抵消 AI 讓攻擊自動化變容易的風險。^[3]
CRN 的分析把這場競爭描述為 Anthropic 與 OpenAI 圍繞「漏洞發現」與網安 AI 能力的競賽，但也指出，真正的問題不是誰贏，而是安全團隊如何面對 AI 讓漏洞發現與攻擊流程加速的結構性風險。^[2]
搜尋結果中還出現多篇 2026 年文章，將 OpenAI 的網安模型/計畫與 Anthropic 的 Claude 網安能力並列比較，但其中不少是二級分析或低權威來源，應謹慎看待。^[4]^[5]^[6]
學術背景方面，CYBENCH 是一個評估 AI 網安能力的框架，顯示業界與研究界正在用基準測試衡量模型在網安任務上的表現；但它本身不是「OpenAI 對 Claude」的比賽報導。^[1]

來源

[1] CYBENCH: A FRAMEWORK FOR EVALUATING CYBER-arxiv.org
[2] Anthropic-OpenAI Race Obscures The Real Cybersecurity Breakdowncrn.com
Anthropic-OpenAI Race Obscures The Real Cybersecurity Breakdown: Analysis As the two AI platforms pursue competing initiatives over vulnerability discovery, the question of who will win is the least of security teams’ concerns. Following the announcement he...
[3] Cyber Competitions \ red.anthropic.comred.anthropic.com
Our experience testing Claude in cyber competitions highlights the potential for AI to alter the offense-defense balance by making it easier for attackers to automate the exploitation of basic vulnerabilities. More research and development into AI-enabled c...

熱門探索內容

答案已發布2026年5月1日Last edited 2026年5月6日3 個來源

OpenAI vs Claude: belum ada pemenang tepercaya di keamanan siber AI

使用 Studio Global AI 搜尋並查證事實探索更多內容

14K0

Kesimpulan paling aman saat ini

Sebenarnya ada tiga perlombaan berbeda

1. Siapa yang lebih baik menemukan kerentanan

2. Siapa yang lebih mampu mengotomatisasi alur serang dan bertahan

3. Siapa yang bisa merilis kemampuan tinggi dengan aman

Mengapa ranking umum belum layak dipercaya

Cara yang lebih berguna untuk menilai klaim keamanan siber AI

Minta bukti yang dapat diulang

Pisahkan tugas defensif dari tugas eksploitasi

Periksa kontrol akses

Tanyakan cara menangani penyalahgunaan

Garis bawah

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Hingga April 2026, data publik belum cukup untuk menyatakan OpenAI atau Claude unggul dalam keamanan siber AI karena belum ada pengujian terbuka dengan tugas, versi model, akses alat, dan skor yang sama.
Peringatan utama dari Anthropic bukan bahwa Claude sudah menang mutlak, melainkan bahwa AI dapat mempermudah otomatisasi eksploitasi kerentanan dasar dan mengubah keseimbangan serang bertahan.
Bagi tim keamanan, pertanyaan yang lebih berguna adalah apakah klaim kemampuan dapat diulang, aksesnya terkendali, penyalahgunaan bisa dideteksi, dan manfaat defensifnya lebih besar daripada risikonya.

大家也會問

「OpenAI vs Claude: belum ada pemenang tepercaya di keamanan siber AI」的簡短答案是什麼？

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

你2026年5月1日

研究問題

搜尋「AI 網絡安全競賽：OpenAI 對 Claude」

Studio Global AI2026年5月1日16 個來源

附引用的答案

Anthropic 的官方紅隊文章〈Cyber Competitions〉指出，Claude 在網安競賽測試中的表現顯示，AI 可能改變攻防平衡，因為它能讓攻擊者更容易自動化利用基礎漏洞。^[3]
該官方文章也強調，需要更多 AI 輔助防禦與韌性研究，以抵消 AI 讓攻擊自動化變容易的風險。^[3]
CRN 的分析把這場競爭描述為 Anthropic 與 OpenAI 圍繞「漏洞發現」與網安 AI 能力的競賽，但也指出，真正的問題不是誰贏，而是安全團隊如何面對 AI 讓漏洞發現與攻擊流程加速的結構性風險。^[2]
搜尋結果中還出現多篇 2026 年文章，將 OpenAI 的網安模型/計畫與 Anthropic 的 Claude 網安能力並列比較，但其中不少是二級分析或低權威來源，應謹慎看待。^[4]^[5]^[6]
學術背景方面，CYBENCH 是一個評估 AI 網安能力的框架，顯示業界與研究界正在用基準測試衡量模型在網安任務上的表現；但它本身不是「OpenAI 對 Claude」的比賽報導。^[1]

來源

[1] CYBENCH: A FRAMEWORK FOR EVALUATING CYBER-arxiv.org
[2] Anthropic-OpenAI Race Obscures The Real Cybersecurity Breakdowncrn.com
Anthropic-OpenAI Race Obscures The Real Cybersecurity Breakdown: Analysis As the two AI platforms pursue competing initiatives over vulnerability discovery, the question of who will win is the least of security teams’ concerns. Following the announcement he...
[3] Cyber Competitions \ red.anthropic.comred.anthropic.com
Our experience testing Claude in cyber competitions highlights the potential for AI to alter the offense-defense balance by making it easier for attackers to automate the exploitation of basic vulnerabilities. More research and development into AI-enabled c...