Claude Opus 4.7 Vision menarik bukan hanya karena diklaim “lebih baik melihat gambar”, tetapi karena Anthropic menaikkan batas resolusi gambar yang bisa dianalisis model. Opus 4.7 disebut sebagai model Claude pertama dengan high-resolution image support, dengan batas naik dari 1.568 px / 1,15 MP menjadi 2.576 px / 3,75 MP.[4]
Bagi pengguna yang sering bekerja dengan screenshot, dokumen, slide, atau antarmuka aplikasi yang padat detail, perubahan ini cukup penting. Secara sederhana, model mendapat lebih banyak piksel sebelum mulai menalar isi gambar. Dari 1,15 MP ke 3,75 MP berarti jumlah megapikselnya sekitar 3,26 kali lebih besar, sehingga lebih banyak detail visual dapat dipertahankan saat gambar dianalisis.[4]
Perubahan utama Vision di Claude Opus 4.7
| Perubahan | Yang diumumkan Anthropic | Dampak praktis |
|---|---|---|
| Resolusi gambar input lebih tinggi | Opus 4.7 adalah model Claude pertama dengan dukungan gambar resolusi tinggi; batas naik ke 2.576 px / 3,75 MP dari 1.568 px / 1,15 MP.[ | Screenshot atau dokumen yang padat detail dapat mempertahankan lebih banyak informasi visual sebelum dianalisis model.[ |
| Fokus pada screenshot, artifact, dan dokumen | Anthropic menyebut peningkatan resolusi ini sangat penting untuk computer use serta pemahaman screenshot, artifact, dan dokumen.[ | Ini bukan sekadar peningkatan untuk foto umum; use case antarmuka dan dokumen memang disebut secara eksplisit.[ |
| Low-level perception | Anthropic menyebut peningkatan pada tugas seperti menunjuk titik, mengukur, menghitung, dan tugas sejenis.[ | Berguna ketika pengguna perlu menanyakan posisi, jumlah, atau detail kecil dalam gambar dan screenshot.[ |
| Image localization | Opus 4.7 disebut lebih baik dalam lokalisasi gambar, termasuk bounding box dan deteksi objek pada gambar natural.[ | Relevan untuk mencari area tombol, kolom input, grafik, objek tertentu, atau bagian dokumen yang spesifik.[ |
| Koordinat piksel 1:1 | Koordinat yang dikembalikan model kini 1:1 dengan piksel asli gambar.[ | Memudahkan automation karena koordinat dari model dapat dipetakan lebih langsung ke gambar asli, tanpa banyak hitung ulang skala.[ |
Apa arti 3,75 MP untuk gambar input?
Intinya, Opus 4.7 dapat menerima gambar pada batas resolusi yang lebih besar. Jika sebelumnya screenshot atau gambar dokumen harus diperkecil cukup jauh agar sesuai batas input, teks kecil, label antarmuka, dan detail tabel berisiko hilang sebelum model benar-benar “melihat” gambar tersebut. Dengan batas 2.576 px / 3,75 MP, lebih banyak detail visual bisa tetap terbawa dalam satu kali analisis.[4]
Namun, peningkatan ini perlu dibaca secara proporsional. Dukungan resolusi lebih tinggi bukan jaminan bahwa semua gambar buram, hasil kompresi berat, atau scan berkualitas rendah akan langsung terbaca sempurna. Manfaat paling terasa muncul ketika sumber gambar sebenarnya cukup tajam, tetapi sebelumnya terlalu padat detail untuk batas resolusi lama.[4]
Mengapa screenshot bisa paling terasa dampaknya?
Screenshot sering berisi banyak elemen kecil yang saling berdekatan: tombol, menu, ikon, kolom input, tabel, notifikasi error, panel samping, hingga label grafik. Anthropic secara khusus menyebut dukungan gambar resolusi tinggi di Opus 4.7 penting untuk computer use dan pemahaman screenshot.[4]
Bagi workflow automation, poin yang sama pentingnya adalah koordinat model yang kini 1:1 dengan piksel asli gambar.[4] Dalam skenario seperti klik tombol, drag-and-drop, memeriksa posisi elemen, atau menandai area tertentu pada screenshot, hal ini membuat hasil koordinat dari model lebih mudah dipakai kembali pada gambar asli.[
4]
Dokumen, slide, dan artifact: nilai utamanya ada di detail padat
Dokumen dan slide jarang hanya berisi paragraf. Biasanya ada tabel, grafik, catatan kecil, label sumbu, header, footer, beberapa kolom, atau layout yang rapat. Anthropic memasukkan dokumen dan artifact sebagai kelompok konten yang mendapat manfaat dari peningkatan Vision Opus 4.7.[4]
Halaman produk Claude Opus 4.7 dari Anthropic juga menempatkan model ini dalam konteks peningkatan vision serta output profesional seperti interface, slide, dan dokumen.[1] Jadi, jika alur kerja Anda mencakup membaca slide dari screenshot, memeriksa layout dokumen, atau mengekstrak informasi dari gambar dokumen, peningkatan ini layak diuji dengan data nyata Anda sendiri.[
1][
4]
Lokalisasi: bukan hanya membaca, tetapi juga menunjuk posisi yang benar
Salah satu bagian penting dari Vision di Opus 4.7 adalah peningkatan kemampuan lokalisasi dalam gambar. Anthropic menyebut kemampuan seperti bounding box, deteksi objek pada gambar natural, serta tugas perception tingkat rendah seperti menunjuk, mengukur, dan menghitung.[4]
Untuk screenshot dan dokumen, lokalisasi sering sama pentingnya dengan membaca isi. Misalnya, bukan hanya mengetahui bahwa ada tombol di sebuah antarmuka, tetapi juga mengetahui tombol itu berada di mana. Bukan hanya mengenali adanya grafik, tetapi juga menentukan area grafik atau titik data tertentu. Pola kebutuhan seperti ini sesuai dengan arah peningkatan yang dijelaskan Anthropic untuk Opus 4.7.[4]
Jangan langsung dibaca sebagai klaim OCR naik sekian persen
Sumber resmi yang digunakan di sini tidak memberikan benchmark terpisah seperti “OCR screenshot meningkat X%” atau “OCR dokumen meningkat Y%”.[1][
4] Karena itu, kesimpulan yang lebih aman adalah: Vision di Opus 4.7 meningkat lewat dukungan resolusi gambar yang lebih tinggi, peningkatan perception dan localization, serta disebut penting untuk screenshot, artifact, dan dokumen.[
4]
Dengan kata lain, masuk akal untuk mengharapkan performa yang lebih baik pada gambar padat detail ketika resolusi menjadi hambatan utama. Tetapi belum ada angka publik yang cukup spesifik untuk menyatakan kenaikan OCR tetap untuk semua jenis screenshot atau dokumen.[1][
4]
Cara menguji Opus 4.7 Vision di workflow nyata
Jika Anda mempertimbangkan Opus 4.7 untuk produk, tim internal, atau automation, sebaiknya uji berdasarkan kelompok tugas, bukan hanya satu-dua gambar contoh:
- Gambar beresolusi tinggi: gunakan gambar yang sama dalam resolusi asli dan versi yang diperkecil, lalu bandingkan apakah detail kecil lebih terbaca saat model mendapat lebih banyak piksel input.[
4]
- Screenshot UI: minta model mengidentifikasi tombol, kolom input, pesan error, menu, dan area relevan di antarmuka.
- Dokumen atau slide: uji kemampuan membaca tabel, catatan kecil, grafik, dan layout multi-kolom, karena dokumen dan artifact memang disebut Anthropic dalam konteks peningkatan Vision.[
4]
- Automation: minta model mengembalikan koordinat atau bounding box, lalu verifikasi apakah koordinat tersebut benar-benar cocok dengan piksel gambar asli sesuai mekanisme 1:1 yang diumumkan Anthropic.[
4]
- OCR: ukur sendiri tingkat benar-salah pada kumpulan dokumen yang mewakili kebutuhan Anda, karena Anthropic belum memublikasikan angka OCR terpisah untuk screenshot atau dokumen dalam sumber resmi ini.[
1][
4]
Kesimpulan
Peningkatan Vision pada Claude Opus 4.7 paling bernilai ketika gambar berisi banyak detail kecil atau ketika aplikasi perlu mengetahui posisi elemen secara presisi. Tiga hal yang perlu diingat: batas gambar naik ke 2.576 px / 3,75 MP, kemampuan perception dan localization ditingkatkan, dan koordinat yang dikembalikan model kini 1:1 dengan piksel asli gambar.[4]
Ini merupakan peningkatan yang jelas untuk screenshot, dokumen, artifact, dan computer use. Namun, jika targetnya adalah OCR dokumen pada skala produk, tetap lakukan benchmark dengan data nyata, bukan menyimpulkan angka peningkatan tetap hanya dari perubahan batas resolusi.[1][
4]




