Kabar tentang GPT-5.5 “Spud” sedang ramai dibicarakan, tetapi dalam pengecekan fakta, ramai bukan berarti terverifikasi. Kesimpulan yang paling kuat saat ini cukup sempit: ada laporan media bahwa OpenAI menyiapkan model berkode “Spud”, dan The Decoder menulis bahwa pretraining model itu dilaporkan sudah selesai. Namun itu belum sama dengan peluncuran resmi, entri API, model card, system card, atau skor benchmark yang bisa diuji ulang pihak ketiga.[23][
26][
21]
Kesimpulan cepat: Spud mungkin ada, “GPT-5.5” belum terkonfirmasi
Bukti terkuat untuk Spud bukan berasal dari tangkapan layar demo atau klaim benchmark viral, melainkan dari rantai laporan media. The Information memiliki artikel berjudul “OpenAI CEO Shifts Responsibilities, Preps ‘Spud’ AI Model”, sementara The Decoder menulis bahwa OpenAI dilaporkan telah menyelesaikan pretraining model AI baru berkode “Spud”, berdasarkan memo internal yang disebut berasal dari Sam Altman kepada karyawan.[23][
26]
Itu cukup untuk membuat “Spud” layak dipantau sebagai kemungkinan kode internal OpenAI. Namun statusnya masih berbeda jauh dari produk publik. Dalam bahan yang tersedia untuk pengecekan ini, halaman Models OpenAI API mencantumkan gpt-5.4, gpt-5.4-mini, dan gpt-5.4-nano, bukan Spud atau GPT-5.5.[21]
Jadi, rumusan paling akurat saat ini adalah: Spud adalah nama kode internal OpenAI yang dilaporkan media; nama publiknya, kemampuan, skor benchmark, jadwal rilis, dan ketersediaan API belum dibuktikan oleh dokumen resmi OpenAI atau benchmark yang dapat direproduksi.[23][
26][
21]
Cara membaca bocoran model AI: bukti apa yang kuat?
Untuk rumor model AI, ukuran utamanya bukan seberapa sering klaim itu dikutip, melainkan apakah buktinya bisa ditelusuri dan diuji. Standar yang lebih ketat biasanya mencakup:
- Dokumen resmi: daftar model API, catatan rilis, model card, atau system card.
- Artefak benchmark publik: baris leaderboard, eval card, run log, prompt set, atau catatan submission.
- Artefak demo asli: video lengkap, prompt, proses generasi, nama model, dan timestamp.
- Uji yang bisa direproduksi: pihak ketiga dapat menjalankan metode serupa dan memperoleh hasil yang mendekati.
Dengan standar itu, klaim tentang “Spud ada dan sudah mencapai tahap tertentu dalam pelatihan” punya dukungan laporan media. Namun klaim tentang benchmark, demo, tanggal rilis, dan nama GPT-5.5 sebagian besar belum melewati ambang bukti yang kuat.[23][
26][
3][
4][
21]
Matriks klaim yang beredar
| Klaim yang beredar | Yang dapat dicek saat ini | Status |
|---|---|---|
| OpenAI memiliki model baru berkode “Spud” | Judul The Information menyebut OpenAI menyiapkan model AI “Spud”; The Decoder menulis OpenAI dilaporkan telah menyelesaikan pretraining model baru berkode Spud.[ | Terindikasi oleh laporan media, belum konfirmasi resmi |
| Spud sudah publik, atau akan dirilis sebagai GPT-5.5 | Sumber OpenAI API Models yang tersedia mencantumkan seri gpt-5.4, bukan Spud atau GPT-5.5.[ | Belum terverifikasi |
| Spud mendekati atau melampaui Claude Mythos | Angka 77,80% di Holter adalah untuk Claude Mythos Preview di SWE-bench Pro, dan 57,70% adalah untuk GPT-5.4; uraian soal Spud memakai bahasa ekspektasi, bukan skor asli Spud.[ | Belum terverifikasi |
| SWE-bench sudah punya hasil Spud | SWE-bench memiliki leaderboard publik, tetapi bahan sumber yang tersedia tidak memberikan entri, halaman hasil, atau eval card yang dapat langsung dikaitkan dengan Spud.[ | Belum terverifikasi |
| Demo 3D, SVG, desain situs, dan gim interaktif membuktikan kemampuan Spud | Geeky Gadgets menulis klaim itu sebagai rujukan “According to Universe of AI” dan menyebut metrik performa resmi masih belum diungkap.[ | Rujukan sekunder, belum bukti kemampuan |
| Spud akan rilis 16 April, kuartal II 2026, atau pasti bernama GPT-5.5 | Ada artikel yang mengemas Spud sebagai GPT-5.5 dengan perkiraan kuartal II atau April–Mei 2026; Holter juga memakai frasa seperti “Leaked April 16 Release” dan “GPT-5.5 or GPT-6 Might Mean”.[ | Rumor, belum terverifikasi |
| OpenAI Developer Community menyebut “SPUD Release”, berarti sudah resmi | Halaman terkait berjudul “Please Add an Optional Expression Mode with the SPUD Release” dan konteksnya adalah permintaan fitur, bukan catatan rilis, dokumen API, atau model card.[ | Bukan konfirmasi resmi |
Benchmark: angka yang beredar belum angka Spud
Bagian yang paling mudah disalahpahami adalah benchmark. Artikel Holter menyebut Claude Mythos Preview mencetak 77,80% di SWE-bench Pro, sementara GPT-5.4 berada di 57,70%. Namun ketika membahas Spud, formulasi kuncinya adalah ekspektasi bahwa Spud akan menutup sebagian besar atau seluruh jarak tersebut, bukan publikasi skor Spud yang dapat diverifikasi.[3]
Artinya, angka-angka itu paling jauh mendukung narasi bahwa sebagian pihak memperkirakan Spud akan kompetitif dengan model tertentu. Angka tersebut tidak membuktikan bahwa Spud sudah memiliki skor benchmark independen.
Agar klaim benchmark Spud layak diperlakukan sebagai fakta, setidaknya perlu salah satu dari bukti berikut: laporan benchmark resmi, model card, system card, entri leaderboard publik, eval card, run log, prompt set, submission yang dapat ditelusuri, atau uji pihak ketiga yang bisa direproduksi.
SWE-bench sendiri adalah rujukan penting untuk mengecek klaim kemampuan coding karena memiliki leaderboard publik. Namun dalam sumber yang tersedia untuk pengecekan ini, tidak ada entri leaderboard Spud yang bisa diverifikasi.[30]
Demo: menarik, tetapi belum membuktikan sumber model
Demo yang beredar dikaitkan dengan 3D simulations, interactive environments, desain situs web, SVG, dan gim interaktif. Masalahnya bukan bahwa demo itu pasti palsu, melainkan bahwa bukti yang tersedia belum cukup untuk menunjukkan dua hal penting: benar dibuat oleh Spud, dan dapat diulang dengan metode yang sama.
Geeky Gadgets membingkai informasi itu sebagai “According to Universe of AI” dan secara eksplisit menyebut metrik performa resmi masih belum diungkap.[4] Karena itu, demo tersebut lebih tepat ditempatkan sebagai “output yang diklaim” atau “pameran sekunder”, bukan bukti kemampuan produk.
Untuk naik kelas menjadi bukti yang layak dikutip, demo semacam ini perlu artefak asli: sumber video lengkap, prompt, proses generasi, nama model, timestamp, langkah reproduksi, atau halaman demo resmi dari OpenAI.
Tanggal rilis dan nama: GPT-5.5, GPT-6, dan 16 April belum pasti
Klaim yang paling menarik perhatian biasanya adalah nama produk dan tanggal rilis. Ada artikel yang langsung menyebut Spud sebagai GPT-5.5 dan menulis perkiraan kuartal II atau April–Mei 2026.[1] Di sisi lain, judul Holter memakai formulasi seperti “Leaked April 16 Release” dan “GPT-5.5 or GPT-6 Might Mean”, yang secara bahasa masih menunjukkan ketidakpastian.[
3]
Dari sudut pandang verifikasi, itu belum memenuhi standar pengumuman resmi. Sampai OpenAI mencantumkan nama final dan ketersediaannya di dokumentasi model, API, catatan rilis, atau blog resmi, “GPT-5.5” sebaiknya diperlakukan sebagai label eksternal atau spekulasi. Sumber OpenAI API Models yang tersedia dalam pengecekan ini belum mengonfirmasi Spud atau GPT-5.5 sebagai model publik.[21]
Forum Developer Community bukan bukti rilis
Sebutan “SPUD Release” di OpenAI Developer Community mudah dipotong menjadi tangkapan layar yang tampak meyakinkan. Namun halaman yang tersedia berjudul “Please Add an Optional Expression Mode with the SPUD Release”, dan konteksnya adalah permintaan fitur dari pengguna, bukan release note, dokumentasi API, atau model card dari OpenAI.[13]
Dengan kata lain, penyebutan di forum dapat membuktikan bahwa komunitas membicarakan Spud. Itu tidak membuktikan OpenAI sudah mengonfirmasi rilis Spud.
Jika Anda developer atau tim produk, apa yang sebaiknya dilakukan?
Jika Anda sedang menilai model untuk workflow coding, agen AI, roadmap produk, atau keputusan pembelian, jangan menjadikan rumor benchmark Spud sebagai asumsi kerja. Pendekatan yang lebih aman:
- Pakai dokumentasi model API resmi sebagai dasar daftar model yang benar-benar tersedia; dalam bahan pengecekan ini, sumber OpenAI API Models menunjuk ke seri
gpt-5.4, bukan Spud atau GPT-5.5.[21]
- Untuk klaim kemampuan coding, minta leaderboard publik, eval card, atau uji yang dapat direproduksi; SWE-bench adalah salah satu rujukan dasar yang perlu dicek.[
30]
- Untuk klaim demo, minta artefak asli, prompt lengkap, nama model, timestamp, dan langkah reproduksi; satu video, gambar, atau artikel sekunder belum cukup untuk membuktikan kemampuan model.[
4]
- Untuk tanggal rilis dan nama produk, tunggu catatan rilis resmi atau entri API; kata seperti “leaked”, “expected”, dan “might” sendiri menandakan klaim masih belum pasti.[
1][
3]
Putusan akhir
Spud mungkin benar ada sebagai proyek internal, karena ada laporan media bernama yang menyebut OpenAI menyiapkan model berkode Spud dan The Decoder menulis bahwa pretraining-nya dilaporkan selesai.[23][
26] Namun kesimpulan yang dapat dipakai dengan percaya diri jauh lebih terbatas: benchmark yang beredar, demo 3D, tanggal rilis, dan nama GPT-5.5 belum dapat dianggap sebagai fakta yang sudah diverifikasi secara independen.[
3][
4][
21][
30]
Versi paling aman untuk komunikasi publik adalah: Spud adalah kode model OpenAI yang dilaporkan media; nama publik, kemampuan, skor, dan jadwal rilisnya belum dikonfirmasi oleh dokumen resmi OpenAI atau benchmark yang bisa direproduksi.[21][
30]




