Pertanyaan praktisnya sederhana: bisakah Grok 4.3 langsung menarik teks dari foto, dokumen hasil scan, atau struk belanja?
Berdasarkan bahan yang tersedia, jawaban paling aman adalah: belum ada konfirmasi resmi yang jelas. Dokumentasi xAI memang mendukung klaim bahwa Grok dapat mencari dan bernalar atas dokumen yang dilampirkan ke chat, serta memiliki kemampuan terkait gambar. Namun, dua hal itu belum sama dengan janji resmi bahwa Grok 4.3 mendukung OCR atau parsing struk.[2][
4][
13]
Kesimpulan fakta cek
Ada tiga hal yang bisa dikatakan dengan cukup hati-hati:
- Grok dapat mencari dan bernalar atas dokumen yang dilampirkan ke pesan chat. Dokumentasi xAI juga menyebut file publik dapat dirujuk lewat URL, file privat dapat diunggah lalu dirujuk dengan ID, dan sistem secara otomatis mengaktifkan
attachment_search.[2]
- Halaman model Grok dari xAI mencantumkan kemampuan model yang mencakup Text, Images, dan Video.[
4]
- xAI memiliki halaman dokumentasi Image Understanding, yang menunjukkan Grok memiliki kemampuan pemahaman gambar.[
13]
Namun, dari bahan resmi tersebut, belum ada pernyataan eksplisit tentang OCR, belum ada klaim jelas soal mengambil teks kata demi kata dari foto atau scan, dan belum ada janji khusus soal parsing struk seperti mengambil nama toko, tanggal, item, subtotal, pajak, atau total pembayaran.[2][
4][
13]
Jadi, kalimat “Grok 4.3 sudah resmi mendukung OCR” terlalu kuat untuk bukti yang ada. Formulasi yang lebih akurat adalah: Grok memiliki kemampuan terkait file dan gambar, tetapi kemampuan Grok 4.3 untuk OCR foto, scan, atau struk belum terkonfirmasi secara resmi dari dokumen yang tersedia.[2][
4][
13]
Mengapa image understanding bukan otomatis OCR?
Pemahaman gambar biasanya berarti model dapat memproses informasi visual: mengenali objek, membaca konteks gambar, memahami adegan, atau menjawab pertanyaan tentang isi gambar. OCR, atau optical character recognition, adalah tugas yang lebih sempit dan lebih mudah diuji: mengekstrak teks yang terlihat dari gambar.
Untuk penggunaan sehari-hari, perbedaannya mungkin terdengar tipis. Tetapi untuk dokumen kerja, perbedaannya besar. OCR yang baik bukan sekadar “mengerti ada tulisan di gambar”; ia diharapkan mampu menjaga urutan baris, kolom, angka, tanda baca, tanggal, nama merchant, dan struktur field. Pada struk atau dokumen scan, tantangannya bisa berupa teks kecil, cahaya rendah, kertas miring, lipatan, pantulan, tabel, angka desimal, hingga format tanggal yang beragam.
Karena itu, meskipun sebuah model punya kemampuan memahami gambar, tidak otomatis berarti penyedianya sudah menjamin model tersebut dapat melakukan OCR secara stabil, lengkap, dan terstruktur.
Apa yang benar-benar didukung oleh dokumentasi resmi?
| Kemampuan | Yang didukung oleh sumber resmi yang tersedia | Yang tidak boleh langsung disimpulkan |
|---|---|---|
| Pencarian dan penalaran atas file terlampir | Grok dapat mencari dan bernalar atas dokumen yang dilampirkan ke chat, dengan attachment_search yang diaktifkan otomatis.[ | Tidak otomatis berarti semua gambar hasil scan akan diubah menjadi teks dengan akurasi OCR. |
| Pemahaman gambar | Dokumentasi xAI mencantumkan kemampuan Images dan memiliki halaman Image Understanding.[ | Tidak otomatis berarti ada jaminan resmi untuk ekstraksi teks kata demi kata dari foto, scan, atau struk. |
| OCR atau parsing struk | Dalam sumber resmi yang tersedia di sini, belum ada pernyataan eksplisit tentang OCR, ekstraksi teks scan, atau parsing struk.[ | Tidak sebaiknya diklaim sebagai fitur resmi Grok 4.3. |
Dengan kata lain, dokumentasi resmi cukup untuk mendukung klaim bahwa Grok punya konteks file dan kemampuan gambar. Tetapi dokumentasi itu belum cukup kuat untuk mendukung klaim bahwa Grok 4.3 memiliki fitur OCR resmi.[2][
4][
13]
Sumber pihak ketiga bukan bukti resmi OCR
Bahan yang tersedia juga mencakup unggahan Threads, diskusi Hacker News, artikel pihak ketiga, posting X, dan video YouTube yang membahas Grok 4.3 beta, pembuatan dokumen, pemrosesan PDF, atau ekspor chat.[5][
6][
7][
8][
9][
10][
11][
12]
Materi semacam itu bisa berguna untuk melihat percakapan pasar, dugaan fitur, pengalaman pengguna, atau tutorial. Namun, itu bukan dokumentasi OCR resmi dari xAI. Bahkan jika ada konten pihak ketiga yang menyebut kemampuan terkait dokumen, hal tersebut tetap belum membuktikan bahwa xAI sudah secara resmi mendukung OCR foto, ekstraksi teks dari scan, atau parsing struk pada Grok 4.3.[5][
6][
7][
8][
9][
10][
11][
12]
Untuk halaman produk, materi penjualan, tutorial teknis, atau proses internal yang menyentuh kepatuhan, sebaiknya gunakan klaim yang benar-benar tertulis di dokumentasi resmi. Jika belum ada pernyataan eksplisit, gunakan istilah seperti “belum terkonfirmasi”, “perlu diuji”, atau “tidak dijamin sebagai OCR resmi”.
Kalimat yang lebih aman dipakai
Kalimat yang aman:
Berdasarkan dokumentasi xAI, Grok dapat mencari dan bernalar atas dokumen yang dilampirkan ke chat; xAI juga mencantumkan kemampuan gambar dan dokumentasi Image Understanding untuk Grok.[
2][
4][
13]
Kalimat yang sebaiknya dihindari:
Grok 4.3 sudah resmi mendukung OCR langsung dari struk, dokumen scan, atau foto.
Masalahnya bukan pada kemungkinan teknisnya, melainkan pada bukti resminya. Dari sumber yang tersedia, xAI belum memberikan pernyataan eksplisit tentang OCR, document extraction, parsing struk, atau pemrosesan scan sebagai fitur resmi Grok 4.3.[2][
4][
13]
Jika tetap ingin menguji Grok untuk mengambil teks
Pengujian boleh saja dilakukan, tetapi posisikan sebagai evaluasi kemampuan, bukan sebagai bukti adanya jaminan resmi. Cara yang lebih aman:
- Siapkan sampel yang bervariasi: foto terang, foto minim cahaya, scan miring, struk panjang, teks kecil, tabel, dan tulisan tangan.
- Minta model menyalin teks per baris, bukan sekadar merangkum isi dokumen.
- Minta model menandai karakter atau bagian yang tidak yakin.
- Bandingkan hasil dengan transkripsi manual: cek huruf yang hilang, angka yang berubah, titik desimal, tanggal, nama merchant, dan posisi field.
- Untuk proses klaim biaya, akuntansi, audit, atau kepatuhan, tetap gunakan pengecekan manusia atau alat yang memang secara eksplisit mendukung OCR/document extraction.
Putusan akhir
Grok memang memiliki kemampuan pencarian dan penalaran atas file terlampir, serta kemampuan terkait pemahaman gambar, dan itu didukung oleh dokumentasi xAI.[2][
4][
13] Namun, apakah Grok 4.3 dapat langsung dipakai sebagai OCR untuk foto, scan, atau struk, belum terkonfirmasi oleh bukti resmi yang tersedia.[
2][
4][
13]
Kalimat paling aman: Grok punya kemampuan file dan gambar; tetapi Grok 4.3 belum terbukti secara resmi mendukung OCR.




