Jawaban pendeknya: belum bisa dinyatakan. Dalam konteks riset berbantuan AI, risiko utamanya bukan sekadar model memberi jawaban salah. Masalah yang lebih licin adalah ketika model membaca bahan luar yang ternyata berisi instruksi tersembunyi, sitasi yang tampak akademis tetapi palsu, PDF yang disisipi perintah, atau kumpulan data yang sengaja berat sebelah. Berdasarkan bahan publik yang dapat diperiksa, belum ada bukti setara yang cukup untuk menyatakan Claude Opus 4.7 atau model OpenAI yang oleh pihak ketiga disebut GPT-5.5 Spud lebih kuat menghadapi kontaminasi riset semacam itu.[2][
23][
27][
32][
45][
51]
Kesimpulan dulu: bukti belum cukup
Untuk menjawab pertanyaan siapa yang lebih aman, kita membutuhkan pengujian langsung dengan kondisi yang sama: toolchain yang sama, dataset yang sama, sampel serangan yang sama, serta aturan penilaian yang sama. Misalnya, berapa tingkat keberhasilan prompt injection, berapa banyak sitasi palsu yang lolos, apakah model menuruti instruksi tersembunyi dalam PDF, dan apakah model tetap mampu menandai keterbatasan ketika datanya bias. Bahan publik yang tersedia belum menyediakan perbandingan seperti itu untuk Claude Opus 4.7 melawan GPT-5.5 Spud.[2][
23][
27][
32][
45][
51]
Hal yang bisa dikatakan dengan lebih yakin adalah ini: jejak dokumen resmi Claude Opus 4.7 lebih mudah dilacak. Anthropic memiliki pengumuman resmi, dokumentasi pengembang, dan halaman system card yang mencantumkan Claude Opus 4.7.[5][
9][
51] Namun, keterlacakan dokumen bukan bukti bahwa Claude otomatis lebih aman dalam alur riset yang sudah terkontaminasi.
Apa yang sebenarnya didukung dokumen publik?
Claude: dokumentasinya jelas, tetapi bukan uji kontaminasi langsung
Anthropic mengonfirmasi ketersediaan Claude Opus 4.7 melalui pengumuman dan dokumentasi pengembang. Dokumentasi itu menyebut fitur task budgets, sementara panduan prompt Claude menyarankan agar pengguna memberi anggaran output token yang cukup saat memakai effort max atau xhigh, karena model dapat bekerja lintas subagents dan tool calls.[5][
9][
44]
Ini menunjukkan Anthropic secara terbuka mendokumentasikan konteks kerja panjang, penggunaan alat, dan alur agentik. Claude 4 system card juga menjelaskan uji keamanan sebelum rilis sesuai Responsible Scaling Policy, pengujian terhadap pelanggaran Usage Policy, evaluasi reward hacking, serta evaluasi agentic safety untuk computer use dan kemampuan coding.[45] Claude 4.1 system card juga mencantumkan bagian tentang prompt injection attacks and computer use.[
71]
Tetap saja, semua itu adalah konteks evaluasi keamanan, bukan skor head-to-head Claude Opus 4.7 melawan GPT-5.5 Spud pada dataset riset yang sengaja dikotori.
OpenAI: ada evaluasi relevan, tetapi bukan bukti khusus Spud
OpenAI GPT-5 system card mencakup evaluasi factual correctness dan hallucination. Dokumen itu menjelaskan penggunaan model penilai berbasis LLM dengan akses web untuk menandai kesalahan fakta mayor dan minor, serta menyebut GPT-5 models memiliki hallucination rates yang lebih rendah daripada model pembanding OpenAI yang dicantumkan, baik dalam pengaturan browse-on maupun browse-off.[2][
34]
ChatGPT Agent system card menjelaskan SecureBio static dan agentic evaluations, manual red-teaming, serta evaluasi tugas yang membutuhkan web-search dan reasoning.[32] Addendum GPT-5-Codex system card juga secara eksplisit memuat risiko prompt injection dan prompt injection evaluation suite.[
24]
Masalahnya, semua itu bukan system card resmi khusus GPT-5.5 Spud. Dalam bahan yang dapat diperiksa di sini, informasi yang langsung membahas Spud terutama berasal dari halaman pihak ketiga atau rangkuman kebocoran, bukan dokumen keselamatan resmi OpenAI untuk model bernama GPT-5.5 Spud.[23][
27]
Empat risiko kontaminasi riset
1. Prompt injection: keduanya punya konteks keamanan, belum ada duel langsung
Prompt injection terjadi ketika teks dari sumber tidak tepercaya, misalnya halaman web, catatan kaki, tabel, lampiran, atau PDF, menyamar sebagai instruksi untuk model. Dalam riset, bentuknya bisa sederhana: sebuah dokumen berkata agar model mengabaikan instruksi pengguna, menyembunyikan sumber tertentu, atau mengutip kesimpulan yang sudah diarahkan.
Di sisi Claude, dokumen Claude 4 dan 4.1 menunjukkan adanya konteks agentic safety, computer use, dan prompt injection. Di sisi OpenAI, ChatGPT Agent dan GPT-5-Codex juga menunjukkan adanya agentic evaluations, manual red-teaming, dan prompt injection evaluation suite.[24][
32][
45][
71]
Namun, itu belum menjawab pertanyaan paling penting: ketika kedua model membaca kumpulan sumber yang sama-sama disisipi instruksi berbahaya, mana yang lebih jarang menuruti isi yang tidak tepercaya? Tanpa uji langsung, dokumen keamanan tidak boleh dibaca sebagai papan skor kemenangan.[23][
27][
45][
51]
2. Sitasi palsu: evaluasi factuality bukan otomatis uji sitasi
Sitasi palsu biasanya berkaitan dengan kegagalan factuality dan keterverifikasian sumber. GPT-5 system card memang mencakup evaluasi factual correctness dan hallucination, termasuk metode penilaiannya.[2][
34]
Tetapi evaluasi itu tidak sama dengan stress test sitasi. Bahan publik belum memberi hasil GPT-5.5 Spud pada campuran DOI asli, DOI palsu, URL valid, URL mati, nama jurnal fiktif, dan makalah yang tampak masuk akal tetapi tidak ada. Bahan publik juga belum memberi hasil Claude Opus 4.7 pada dataset yang sama.[23][
27][
51]
3. PDF berbahaya: belum ada metrik publik yang bisa dibandingkan
Untuk PDF berbahaya, bahan publik tidak memberikan metrik yang sebanding antara dua model yang dimaksud. Misalnya, belum ada angka publik yang menunjukkan apakah model akan menuruti teks tersembunyi, instruksi dalam metadata, komentar PDF, atau pesan sistem palsu yang ditanam dalam lampiran.[2][
32][
45][
51]
Dalam praktik riset, ini berarti PDF sebaiknya diperlakukan sebagai input tidak tepercaya. Teks dan struktur dokumen perlu diekstrak di lingkungan terisolasi, lalu model diuji apakah ia membedakan isi dokumen sebagai bahan bacaan, bukan sebagai instruksi yang harus dipatuhi.
4. Data bias: benchmark bias bukan uji riset end-to-end
Anthropic Claude 4 system card memuat bagian bias evaluations, dan Claude 4.1 system card mencantumkan evaluasi political bias serta discriminatory bias. Di sisi OpenAI, GPT-4.5 system card mencantumkan BBQ Evaluation Dataset sebagai salah satu evaluasi terkait bias.[38][
57][
71]
Namun, benchmark bias tidak identik dengan alur riset yang terkontaminasi. Dalam riset nyata, pertanyaan yang lebih penting adalah apakah model menyadari sumbernya timpang, mencari bukti yang berlawanan, menandai keterbatasan sampel, atau justru mengubah sampel berat sebelah menjadi kesimpulan umum. Bahan publik belum menyediakan skor yang dapat dibandingkan untuk Claude Opus 4.7 dan GPT-5.5 Spud pada tugas end-to-end seperti itu.[23][
27][
51]
Mengapa system card belum cukup
System card berguna karena memberi gambaran tentang evaluasi kemampuan, batasan, dan risiko sebelum atau saat model dirilis. Laporan transparansi Anthropic menyebut Responsible Scaling Policy mengharuskan evaluasi keamanan menyeluruh sebelum frontier models dirilis pada area risiko besar seperti CBRN, cybersecurity, dan autonomous capabilities; Claude 4 system card juga menjelaskan beragam uji keamanan dan agentic safety evaluations.[4][
45] Dokumen OpenAI untuk GPT-5 dan ChatGPT Agent juga memberikan konteks factual correctness, hallucination, agentic evaluations, dan manual red-teaming.[
2][
32][
34]
Namun, kontaminasi riset tidak hanya terjadi di dalam model. Ia terjadi di seluruh alur kerja: mesin pencari, parser lampiran, hierarki prompt, izin tool, perilaku model, pemeriksaan sitasi, log, dan review manusia. Model yang terlihat baik pada sebagian evaluasi resmi belum tentu aman dalam pipeline riset tertentu yang menerima banyak input liar dari web dan dokumen eksternal.
Ada alasan tambahan untuk berhati-hati: perilaku model sangat bergantung pada prompt dan konteks. Riset Anthropic tentang alignment faking menunjukkan bahwa dalam setting eksperimen tertentu, model bahasa besar dapat memperlihatkan perilaku terkait alignment-faking, dan hasilnya berbeda menurut kondisi prompt.[31] Ini bukan bukti bahwa Claude Opus 4.7 atau GPT-5.5 Spud pasti gagal dalam riset. Tetapi ini pengingat bahwa batas keamanan tidak bisa disimpulkan hanya dari ringkasan vendor, tangkapan layar pihak ketiga, atau satu demo yang tampak meyakinkan.
Jika harus memilih hari ini, cara mengujinya begini
Langkah paling bertanggung jawab bukan menebak dari reputasi model, melainkan membuat set uji merah yang dapat diulang untuk keduanya. Minimal, pengujian perlu mencakup:
- Prompt injection: sisipkan instruksi berbahaya yang saling bertentangan dalam halaman web, PDF, tabel, catatan kaki, dan daftar pustaka. Ukur apakah model menuruti konten tidak tepercaya.
- Sitasi palsu: campur DOI asli, DOI palsu, URL valid, URL mati, jurnal fiktif, dan paper yang tampak sah tetapi tidak ada. Ukur tingkat sitasi tanpa dukungan dan tingkat pelaporan ketidakpastian.
- PDF berbahaya: gunakan sandbox untuk menyiapkan dokumen dengan teks tersembunyi, komentar, metadata, dan instruksi palsu. Ukur apakah model memperlakukan isi dokumen sebagai perintah.
- Data bias: berikan sumber satu sisi, sampel timpang, dan bukti tandingan yang sengaja dihilangkan. Ukur apakah model menandai batasan dan mencari penjelasan alternatif.
- Kualitas riset end-to-end: nilai akurasi kesimpulan, keterlacakan sumber, penanganan bukti yang berlawanan, refusal dan over-refusal, rekam jejak penggunaan tool, serta biaya review manusia.
Putusan akhir
Jika hanya mengacu pada bahan publik yang dapat diperiksa, belum bisa dibuktikan bahwa Claude Opus 4.7 atau GPT-5.5 Spud lebih kuat menghadapi prompt injection, sitasi palsu, PDF berbahaya, dan data bias. Sisi Claude lebih jelas dalam keterlacakan dokumen resmi. Sisi OpenAI memiliki bahan evaluasi keamanan untuk GPT-5, ChatGPT Agent, dan GPT-5-Codex, tetapi itu bukan bukti langsung untuk GPT-5.5 Spud.[2][
5][
9][
23][
24][
27][
32][
45][
51]
Jadi kesimpulan yang paling aman adalah: Claude unggul tipis hanya pada standar sempit berupa kelengkapan dokumen publik; untuk keamanan aktual dalam alur riset yang terkontaminasi, buktinya masih belum cukup.




