Berikut yang terjadi di balik layar:
LLM tidak melihat karakter individual. Alih-alih, mereka memecah teks menjadi token—potongan-potongan teks yang bisa terdiri dari satu karakter atau lebih—menggunakan algoritma seperti Byte-Pair Encoding (BPE). Sebuah kata umum seperti "Google" bisa menjadi satu token tunggal, sementara "journalism" bisa dipecah menjadi potongan subkata seperti ['journ', 'alism']. Model tidak pernah menyimpan atau memproses urutan karakter mentah.
Tidak memiliki kesadaran karakter bawaan. Karena data pelatihan sudah dalam bentuk token, model tidak pernah belajar menghitung huruf individual secara asli. Ia hanya bisa memperkirakan pengetahuan tingkat karakter dengan mencocokkan pola dari ejaan yang dihafal dalam korpus pelatihannya . Saat Anda meminta hitungan huruf, Anda memaksa model untuk merekayasa balik (reverse-engineer) informasi karakter dari teks yang tidak pernah disimpan karakter per karakter.
Lapisan embedding kurang merepresentasikan struktur karakter. Riset menunjukkan bahwa embedding token tidak sepenuhnya menyandikan informasi tingkat karakter, terutama di luar karakter pertama dari setiap token. Hal ini membuat penalaran komposisional tentang huruf menjadi tidak andal .
Batasan teoritis. Arsitektur Transformer termasuk dalam kelas kompleksitas TC0, yang membuatnya secara teoritis tidak mampu menyelesaikan tugas yang menuntut penalaran yang semakin dalam seiring bertambahnya panjang input. Ini adalah batasan matematis untuk penghitungan sekuensial yang presisi .
"Menghitung di dalam kata telah menjadi tantangan yang diketahui untuk LLM, dan kami sedang berupaya untuk memperbaiki masalah khusus ini," kata Google kepada TechCrunch dalam sebuah pernyataan melalui email . Tetapi seperti yang telah dicatat oleh para peneliti, bahkan model dengan parameter ratusan miliar yang dilatih pada triliunan token pun kesulitan untuk menghitung jumlah huruf 'R' di kata 'strawberry'
. Masalahnya bersifat struktural, bukan soal skala.
Kontroversi ejaan ini hanyalah episode terbaru dalam pola kesalahan tingkat tinggi dari AI Overviews selama dua tahun. Semuanya berpangkal pada keterputusan yang sama antara generasi teks yang fasih dan operasi presisi yang harus dijalankan mesin pencari.
Dalam hitungan hari setelah peluncurannya di AS pada Mei 2024, AI Overviews menghasilkan serangkaian jawaban ngawur yang viral :
Kepala Pencarian Google, Liz Reid, mengakui adanya "contoh-contoh terisolasi" yang "ngawur" dan menyalahkan kombinasi dari "kesenjangan informasi" dan AI yang mengambil dari sumber satir dan berkualitas rendah . Perusahaan mengatakan telah melakukan koreksi, termasuk membatasi AI Overviews untuk kueri terkait kesehatan dan sensitif
.
Pada 22 Mei 2026, pengguna menemukan bahwa mencari kata "disregard"—bersama dengan istilah terkait seperti "ignore," "dismiss," "skip," dan "stop"—memicu AI Overviews untuk mengeluarkan respons ala chatbot: "Dimengerti. Saya telah mengabaikan prompt Anda sebelumnya. Ada yang bisa saya bantu hari ini?" .
Alih-alih mengembalikan definisi kamus, AI menafsirkan kueri sederhana sebagai instruksi penimpaan tingkat sistem. Kutu ini merusak antarmuka pencarian Google untuk istilah-istilah tersebut, menampilkan ruang kosong di tempat seharusnya hasil pencarian muncul . Google mengakui masalah ini dan mengatakan perbaikan sedang dilakukan
.
Peneliti keamanan mengenali ini sebagai skenario prompt injection klasik—model salah mengira istilah pencarian normal sebagai perintah untuk asisten AI .
Hanya beberapa hari setelah insiden "disregard", kesalahan penghitungan huruf muncul ke permukaan. AI tidak bisa mengeja nama perusahaan induknya sendiri, salah menghitung huruf dalam kata-kata sederhana, dan bahkan salah mengeja "Trump" menjadi "t-r-p-u-m" . Kesalahan ini diverifikasi secara independen oleh banyak outlet berita
.
Benang merah di ketiga kategori kegagalan ini bersifat arsitektural, bukan insidental. Google mengganti mesin pencari pencocokan kata kunci tradisional dengan LLM generatif yang hebat dalam menghasilkan teks fasih, tetapi tidak memiliki mekanisme untuk:
Model ini dengan percaya diri menghasilkan jawaban yang salah karena pada tingkat fundamental, ia tidak pernah dibangun untuk menangani tugas-tugas yang sekarang diminta untuk dilakukan di lingkungan pencarian langsung. Setiap kegagalan viral menyingkap jurang antara apa yang menjadi keahlian LLM (memprediksi teks yang terdengar meyakinkan) dan apa yang dibutuhkan mesin pencari tepercaya (akurasi faktual, presisi karakter, dan ketahanan terhadap injeksi instruksi).
Sampai keterbatasan arsitektural ini diatasi pada tingkat yang lebih dalam dari sekadar menambal tipe kueri individual, AI Overviews kemungkinan akan terus menjadi berita utama karena alasan yang salah.
Comments
0 comments