Rumor tentang GPT-5.5 “Spud” menarik perhatian karena menjanjikan hal yang sangat bernilai: model OpenAI baru yang konon lebih kuat dalam memahami gambar, formulir, grafik, hasil pindai, dan dokumen. Namun, catatan resmi yang bisa diverifikasi saat ini jauh lebih sempit. Dalam sumber resmi OpenAI yang ditinjau di sini, model yang terdokumentasi adalah GPT-5.4—bukan GPT-5.5, dan bukan Spud [20][
23][
24].
Itu tidak membuktikan bahwa “Spud” tidak pernah ada sebagai nama internal. Tetapi untuk pembaca, pengembang, atau tim produk yang perlu mengambil keputusan, poinnya sederhana: klaim tentang jadwal rilis Spud, skor benchmark, atau kemampuan grounding dokumen yang lebih unggul belum didukung oleh bukti resmi dalam kumpulan sumber ini.
Putusan singkat: anggap GPT-5.5 “Spud” belum terverifikasi
Bukti resmi terkuat saat ini mengarah ke GPT-5.4. Halaman model GPT-5.4 dari OpenAI menyebut GPT-5.4 sebagai model frontier untuk pekerjaan profesional yang kompleks, sementara panduan model terbaru dan indeks model OpenAI juga mengarahkan pembaca ke GPT-5.4 [20][
23][
24].
Sebaliknya, sumber yang secara spesifik menyebut Spud dalam tinjauan ini berasal dari artikel web umum, Reddit, unggahan X, dan video YouTube—bukan halaman model resmi OpenAI, panduan model, model card, atau laporan benchmark resmi [2][
3][
5][
7][
9][
12]. Jadi, kesimpulan paling aman: GPT-5.5 Spud sebaiknya diperlakukan sebagai rumor atau label yang belum terverifikasi sampai OpenAI menerbitkan dokumentasi resmi.
Cek klaim: Spud vs GPT-5.4
| Klaim | Status | Yang didukung sumber |
|---|---|---|
| GPT-5.5 “Spud” adalah model publik resmi OpenAI | Belum terverifikasi | Sumber resmi OpenAI yang ditinjau mendokumentasikan GPT-5.4, bukan halaman model GPT-5.5 atau Spud [ |
| Spud akan segera rilis atau sudah tervalidasi | Belum terverifikasi | Rujukan Spud dalam kumpulan sumber ini berasal dari web umum atau sumber sosial/video buatan pengguna [ |
| OpenAI mendokumentasikan alur kerja multimodal untuk dokumen | Terverifikasi untuk GPT-5.4 | OpenAI menyediakan panduan GPT-5.4 untuk visi dan pemahaman dokumen, termasuk panduan prompt untuk gambar padat atau tugas spasial [ |
| Spud lebih baik daripada GPT-5.4 dalam multimodal grounding | Tidak didukung di sini | Dokumen resmi yang ditinjau mendukung panduan GPT-5.4; tidak ada bukti kemampuan atau benchmark khusus Spud [ |
Yang benar-benar didokumentasikan OpenAI
Halaman resmi GPT-5.4 dari OpenAI menyebut GPT-5.4 sebagai model frontier untuk pekerjaan profesional yang kompleks [20]. OpenAI juga memiliki halaman cookbook GPT-5.4 yang berfokus pada visi dan pemahaman dokumen [
1]. Dalam materi yang ditemukan, panduan itu dikaitkan dengan contoh seperti ekstraksi terstruktur dari formulir asuransi tulisan tangan, penalaran spasial pada denah apartemen, pemahaman grafik, dan ekstraksi bounding box dari formulir kepolisian [
1].
Contoh-contoh itu penting karena pekerjaan dokumen nyata tidak berhenti pada ringkasan yang terdengar lancar. Model yang “grounded” harus mengaitkan jawabannya dengan bukti yang terlihat di halaman: label dan nilai kolom, sel tabel, tanda pada grafik, tulisan tangan, tata letak dokumen, serta posisi spasial. Meski begitu, materi GPT-5.4 yang ditinjau di sini adalah panduan dan demonstrasi dari OpenAI, bukan laporan benchmark independen yang mengaudit semua jenis alur kerja dokumen produksi [1][
20][
22].
Panduan prompt OpenAI juga relevan untuk evaluasi. OpenAI menyarankan penggunaan detail gambar original untuk gambar besar, padat, atau sensitif secara spasial, terutama untuk computer use, lokalisasi, OCR, dan tugas akurasi klik [22]. Untuk formulir, hasil scan, tangkapan layar, dan grafik, artinya akurasi bisa turun jika alur kerja mengecilkan gambar atau menghilangkan detail yang sebenarnya perlu diperiksa model.
Mengapa multimodal grounding lebih sulit daripada OCR
OCR pada dasarnya meminta sistem membaca teks. Multimodal grounding lebih luas: sistem harus menghubungkan teks, tata letak, posisi, struktur visual, dan penalaran menjadi jawaban yang bisa dicek kembali pada halaman.
Konteks riset mendukung pandangan ini. Evaluasi pemahaman dokumen mencakup pemahaman formulir, parsing kuitansi, dan document visual question answering atau VQA dokumen—yakni menjawab pertanyaan berdasarkan tampilan dokumen [38]. Untuk dokumen multi-halaman, VQA dapat menuntut model bernavigasi antarhalaman, menemukan konten yang relevan, melakukan penalaran visual terstruktur, dan memeriksa halaman tertentu, bukan hanya mengandalkan satu gambar atau satu potongan halaman [
37].
Karena itu, satu demo tangkapan layar yang terlihat mengesankan belum cukup. Evaluasi yang serius perlu mencakup jenis dokumen, kualitas scan, jumlah halaman, tulisan tangan, tabel, grafik, teks kecil, dan kasus gagal yang sesuai dengan alur kerja sebenarnya.
Cara mengevaluasi model gambar dan dokumen OpenAI saat ini
- Mulai dari model yang terdokumentasi, bukan nama bocoran. Dalam sumber resmi yang ditinjau, model OpenAI yang terdokumentasi adalah GPT-5.4; GPT-5.5 Spud belum terverifikasi [
20][
23][
24].
- Pertahankan detail gambar saat detail itu penting. Gunakan detail gambar
originaluntuk input yang besar, padat, atau sensitif secara spasial, seperti OCR, lokalisasi, akurasi klik, dan computer use [22].
- Nilai bukti, bukan kelancaran bahasa. Untuk ekstraksi, bandingkan nilai kolom secara persis. Untuk grafik, minta nilai yang bisa ditelusuri. Untuk formulir dan tangkapan layar, minta kotak atau koordinat jika lokasi penting; contoh GPT-5.4 dari OpenAI mencakup ekstraksi bounding box [
1].
- Uji dokumen yang benar-benar Anda proses. Sertakan formulir, kuitansi, dan tugas bergaya VQA dokumen, karena kategori tersebut muncul dalam literatur benchmark pemahaman dokumen [
38].
- Masukkan kasus multi-halaman. VQA dokumen multi-halaman dapat memerlukan navigasi dokumen, penalaran visual terstruktur, pencarian semantik, dan pengambilan halaman yang ditargetkan [
37].
- Bandingkan desain pipeline. Sebagian tugas mungkin cukup dengan satu kali pemanggilan model, tetapi tugas lain bisa membutuhkan OCR, parsing layout, retrieval, cropping, atau pemilihan halaman—terutama ketika file panjang, padat, atau sensitif secara spasial [
22][
37][
38].
Intinya
Nama “Spud” muncul dalam liputan bergaya rumor, tetapi belum terverifikasi sebagai model publik resmi OpenAI dalam sumber yang ditinjau di sini. Kesimpulan yang bisa ditindaklanjuti lebih sempit: evaluasi GPT-5.4 untuk alur kerja visi dan pemahaman dokumen yang memang sudah didokumentasikan OpenAI, dan perlakukan klaim multimodal grounding GPT-5.5 Spud sebagai klaim yang belum terbukti sampai OpenAI menerbitkan halaman model, panduan model, model card, atau laporan benchmark resmi [1][
20][
22][
23][
24].




