Pertanyaannya terdengar sederhana: antara Claude Opus 4.7 dan GPT-5.5 Spud, model mana yang lebih tahan halusinasi? Namun sebelum masuk ke papan skor, ada masalah yang lebih mendasar: salah satu nama belum terverifikasi.
Anthropic mendokumentasikan Claude Opus 4.7 dan ID API claude-opus-4-7 [12][
16]. Sebaliknya, sumber resmi OpenAI yang dikutip di sini mendokumentasikan GPT-5, GPT-5 mini, GPT-5.2-Codex, dan panduan prompt GPT-5.4—bukan model publik bernama GPT-5.5 Spud [
23][
25][
26][
29][
45]. Dalam kumpulan sumber ini, jejak “Spud” muncul di unggahan Reddit dan thread permintaan fitur di OpenAI Developer Community, bukan di dokumentasi model atau catatan rilis resmi [
7][
8][
10][
28].
Karena itu, kesimpulan yang bertanggung jawab harus lebih sempit: Claude Opus 4.7 bisa dievaluasi sebagai model yang terdokumentasi; GPT-5.5 Spud belum layak dijadikan target benchmark kecuali dikaitkan dengan rilis, model card, atau ID API resmi.
Putusan singkat berdasarkan bukti
| Pertanyaan | Jawaban yang didukung bukti |
|---|---|
| Apakah Claude Opus 4.7 terverifikasi? | Ya. Anthropic mendokumentasikan Claude Opus 4.7, dan pengumumannya menyebut developer dapat memakai claude-opus-4-7 lewat Claude API [ |
| Apakah GPT-5.5 Spud terverifikasi sebagai model resmi OpenAI? | Tidak dalam sumber resmi OpenAI yang dikutip. Materi tersebut justru mendokumentasikan GPT-5, GPT-5 mini, GPT-5.2-Codex, dan panduan prompt GPT-5.4 [ |
| Di mana “Spud” muncul dalam kumpulan sumber ini? | Di unggahan Reddit dan thread permintaan fitur OpenAI Developer Community, bukan di halaman model, model card, dokumentasi API, atau pengumuman rilis resmi [ |
| Apakah ada benchmark halusinasi Claude Opus 4.7 vs GPT-5.5 Spud? | Tidak ada sumber yang menyediakan uji head-to-head dengan tugas dan skema penilaian yang sama; uji yang adil juga perlu menilai perilaku abstensi secara terpisah dari kesalahan faktual [ |
Ini tidak membuktikan bahwa model “Spud” privat atau masa depan mustahil ada. Artinya hanya satu: bukti yang tersedia saat ini tidak cukup untuk memperlakukan GPT-5.5 Spud sebagai model resmi OpenAI atau untuk menyatakan pemenang soal halusinasi.
Bukti tentang Claude Opus 4.7: resmi, tetapi bukan leaderboard lintas-vendor
Sumber terkuat untuk Claude Opus 4.7 adalah dokumentasi produk Anthropic, bukan benchmark publik yang membandingkan semua vendor. Anthropic menyatakan bahwa developer dapat memakai claude-opus-4-7 melalui Claude API [16], dan dokumentasinya menyebut Claude Opus 4.7 memperkenalkan fitur task budgets [
12].
Task budgets penting untuk kendali produk, tetapi itu bukan hal yang sama dengan benchmark ketidakpastian terkalibrasi. Fitur tersebut tidak otomatis menunjukkan kapan model akan berhenti, meminta klarifikasi, atau mengatakan bahwa sebuah klaim tidak cukup didukung bukti.
Ada satu sinyal yang relevan dengan kejujuran model. Mashable melaporkan, dengan mengutip system card Opus 4.7 dari Anthropic, bahwa Claude Opus 4.7 memiliki tingkat kejujuran MASK 91,7% dan lebih kecil kemungkinannya untuk berhalusinasi atau bersikap sycophantic dibanding model Anthropic sebelumnya serta model frontier AI lain [14]. Itu penting, tetapi tetap tidak menjawab duel Claude-versus-Spud karena laporan tersebut bukan benchmark yang dipasangkan langsung dengan model GPT-5.5 Spud yang terverifikasi.
Yang sebenarnya dikatakan sumber OpenAI
Materi OpenAI yang dikutip memverifikasi beberapa rujukan keluarga GPT-5: GPT-5, GPT-5 mini, GPT-5.2-Codex, dan panduan prompt GPT-5.4 [23][
25][
26][
29][
45]. Sementara itu, “Spud” dalam kumpulan sumber ini berasal dari unggahan Reddit dan thread permintaan fitur di OpenAI Developer Community [
7][
8][
10][
28]. Sinyal komunitas bisa menarik untuk dipantau, tetapi tidak setara dengan halaman model resmi, model card, ID API, atau pengumuman rilis.
Penjelasan OpenAI tentang halusinasi justru lebih berguna untuk desain evaluasi. OpenAI menyatakan bahwa prosedur pelatihan dan evaluasi yang umum dapat memberi insentif pada model untuk menebak, bukan mengakui ketidakpastian; OpenAI juga menyebut bahwa model sebaiknya menunjukkan ketidakpastian atau meminta klarifikasi ketimbang memberikan informasi yang percaya diri tetapi salah [3].
Contoh SimpleQA dari OpenAI memperlihatkan mengapa satu angka akurasi saja bisa menyesatkan. Dalam contoh itu, gpt-5-thinking-mini tercatat memiliki 52% abstensi, 22% akurasi, dan 26% error, sedangkan o4-mini memiliki 1% abstensi, 24% akurasi, dan 75% error [3]. Model pertama menjawab lebih jarang, tetapi jauh lebih jarang salah dalam contoh tersebut [
3]. Untuk penggunaan produk yang berisiko tinggi, perbedaan seperti ini bisa lebih penting daripada model yang terdengar yakin di setiap prompt.
Mengapa ketidakpastian terkalibrasi adalah inti benchmark
Kontrol halusinasi bukan sekadar membuat model sering menolak. Model yang berguna seharusnya menjawab saat bukti kuat, bertanya saat permintaan kurang jelas, dan menahan jawaban saat klaim tidak bisa didukung. Itulah gagasan praktis dari ketidakpastian yang terkalibrasi.
Riset mendukung kerangka ini, dengan sejumlah catatan. Sebuah studi 2024 melaporkan bahwa abstensi berbasis ketidakpastian dapat meningkatkan correctness, mengurangi halusinasi, dan memperbaiki aspek keselamatan dalam skenario tanya-jawab [1][
4]. I-CALM membingkai epistemic abstention sebagai abstensi pada pertanyaan faktual dengan jawaban yang dapat diverifikasi, dan mencatat bahwa LLM saat ini masih bisa gagal menahan diri ketika semestinya abstain [
54]. Riset tentang behaviorally calibrated reinforcement learning juga mempelajari cara memberi insentif pada model agar mengakui ketidakpastian dengan menahan jawaban [
61].
Tinjauan yang lebih luas menempatkan uncertainty quantification sebagai alat untuk mendeteksi halusinasi, dan menggambarkan ketidakpastian terkalibrasi sebagai cara membantu pengguna memutuskan kapan harus percaya, menunda, atau memverifikasi jawaban model [53][
55]. Namun kalibrasi tetap kuncinya: model yang terlalu sering berkata tidak tahu bisa aman tetapi kurang berguna; model yang tidak pernah abstain bisa terasa membantu tetapi berisiko.
Cara membuat uji Claude vs OpenAI yang lebih adil
- Pakai ID model resmi. Untuk Claude, uji
claude-opus-4-7; untuk OpenAI, gunakan model terdokumentasi seperti GPT-5 atau GPT-5 mini, bukan label Spud yang belum terverifikasi [16][
23][
25][
29].
- Bangun kumpulan soal campuran. Sertakan pertanyaan yang bisa dijawab, permintaan yang kurang spesifik, dan pertanyaan yang memang tidak dapat dijawab; riset abstensi menilai manfaat menolak menjawab saat ketidakpastian tinggi atau pertanyaan tidak bisa dijawab dengan aman [
1][
4].
- Nilai abstensi secara terpisah. Catat jawaban benar, jawaban salah, abstensi benar, dan abstensi salah. Survei abstensi mendefinisikan metrik seperti abstention accuracy, abstention precision, dan abstention recall [
68].
- Pisahkan ketidakpastian faktual dari penolakan keamanan. Menolak membantu membuat konten berbahaya bukan perilaku yang sama dengan berkata bahwa bukti faktual tidak cukup; I-CALM berfokus pada epistemic abstention untuk pertanyaan faktual dengan jawaban yang dapat diverifikasi [
54].
- Laporkan akurasi, error rate, dan abstention rate bersama-sama. Contoh SimpleQA OpenAI menunjukkan bahwa model dengan abstensi jauh lebih tinggi bisa memiliki akurasi yang mirip tetapi error yang jauh lebih rendah [
3].
- Samakan lingkungan pengujian. Retrieval, browsing, akses tool, panjang konteks, dan instruksi sistem dapat mengubah hasil. Jika satu model diberi bukti tambahan sementara yang lain tidak, yang diuji bukan hanya modelnya, tetapi juga setup-nya.
FAQ
Apakah GPT-5.5 Spud nyata?
Belum terverifikasi sebagai model resmi OpenAI dalam bukti yang dikutip. Sumber resmi OpenAI di sini mendokumentasikan GPT-5, GPT-5 mini, GPT-5.2-Codex, dan panduan prompt GPT-5.4, sementara “Spud” muncul di unggahan Reddit dan thread komunitas [7][
8][
10][
23][
25][
26][
28][
29][
45].
Apakah Claude Opus 4.7 lebih jarang berhalusinasi daripada GPT-5.5 Spud?
Pertanyaan itu belum bisa dijawab secara ketat dari sumber ini. Claude Opus 4.7 terdokumentasi [12][
16], dan ada laporan sekunder tentang tingkat kejujuran MASK 91,7% [
14]. Namun tidak ada target GPT-5.5 Spud yang terverifikasi dan tidak ada benchmark bersama untuk dua nama tersebut [
7][
8][
10][
28][
68].
Apa yang sebaiknya dibandingkan oleh pembeli atau developer?
Bandingkan Claude Opus 4.7 dengan model OpenAI yang terdokumentasi, di bawah tugas, tool, prompt, dan aturan penilaian yang sama. Metrik utamanya sebaiknya menggabungkan akurasi, tingkat error, dan perilaku abstensi, bukan akurasi saja [3][
68].
Kesimpulan
Jangan menarik kesimpulan “Claude menang” atau “Spud menang” dari bukti ini. Kesimpulan yang bisa dipertanggungjawabkan adalah: Claude Opus 4.7 terdokumentasi secara resmi; GPT-5.5 Spud belum terverifikasi dalam materi resmi OpenAI yang dikutip; dan cara terbaik menilai kontrol halusinasi adalah memberi nilai pada ketidakpastian yang terkalibrasi, termasuk abstensi yang benar saat sebuah klaim tidak dapat didukung [3][
12][
16][
23][
25][
29][
45][
68].




