studioglobal
Khám phá xu hướng
Câu trả lờiĐã xuất bản2 nguồn

Claude Opus 4.7 Vision: Apa Arti Dukungan 3,75 MP untuk Screenshot dan Dokumen?

Claude Opus 4.7 menjadi model Claude pertama dengan dukungan gambar resolusi tinggi; batasnya naik dari 1.568 px / 1,15 MP menjadi 2.576 px / 3,75 MP.[4] Peningkatan ini paling relevan untuk screenshot, artifact, dokumen, dan workflow computer use yang membutuhkan pembacaan detail kecil serta tata letak padat inform...

18K0
Minh họa Claude Opus 4.7 phân tích screenshot giao diện và tài liệu độ phân giải cao
Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệuHình minh họa AI về khả năng phân tích screenshot và tài liệu độ phân giải cao của Claude Opus 4.7.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệu?. Article summary: Claude Opus 4.7 Vision nâng cấp đáng kể nhất ở giới hạn ảnh đầu vào: 2576 px / 3.75 MP thay vì 1568 px / 1.15 MP, tức khoảng 3,3 lần số megapixel.. Topic tags: ai, anthropic, claude, computer vision, multimodal ai. Reference image context from search candidates: Reference image 1: visual subject "# Claude Opus 4.7 Is Here - Less Supervision, Better Vision. Anthropic releases Claude Opus 4.7 with 3x higher resolution vision, a new xhigh effort level, task budgets for cost co" source context "Claude Opus 4.7 Is Here - Less Supervision, Better Vision | Awesome Agents" Reference image 2: visual subject "Flat vector illustration on an orange background showing a sequence of small robots working left to right—thinking at a laptop, wri

openai.com

Claude Opus 4.7 Vision menarik bukan hanya karena diklaim “lebih baik melihat gambar”, tetapi karena Anthropic menaikkan batas resolusi gambar yang bisa dianalisis model. Opus 4.7 disebut sebagai model Claude pertama dengan high-resolution image support, dengan batas naik dari 1.568 px / 1,15 MP menjadi 2.576 px / 3,75 MP.[4]

Bagi pengguna yang sering bekerja dengan screenshot, dokumen, slide, atau antarmuka aplikasi yang padat detail, perubahan ini cukup penting. Secara sederhana, model mendapat lebih banyak piksel sebelum mulai menalar isi gambar. Dari 1,15 MP ke 3,75 MP berarti jumlah megapikselnya sekitar 3,26 kali lebih besar, sehingga lebih banyak detail visual dapat dipertahankan saat gambar dianalisis.[4]

Perubahan utama Vision di Claude Opus 4.7

PerubahanYang diumumkan AnthropicDampak praktis
Resolusi gambar input lebih tinggiOpus 4.7 adalah model Claude pertama dengan dukungan gambar resolusi tinggi; batas naik ke 2.576 px / 3,75 MP dari 1.568 px / 1,15 MP.[4]Screenshot atau dokumen yang padat detail dapat mempertahankan lebih banyak informasi visual sebelum dianalisis model.[4]
Fokus pada screenshot, artifact, dan dokumenAnthropic menyebut peningkatan resolusi ini sangat penting untuk computer use serta pemahaman screenshot, artifact, dan dokumen.[4]Ini bukan sekadar peningkatan untuk foto umum; use case antarmuka dan dokumen memang disebut secara eksplisit.[4]
Low-level perceptionAnthropic menyebut peningkatan pada tugas seperti menunjuk titik, mengukur, menghitung, dan tugas sejenis.[4]Berguna ketika pengguna perlu menanyakan posisi, jumlah, atau detail kecil dalam gambar dan screenshot.[4]
Image localizationOpus 4.7 disebut lebih baik dalam lokalisasi gambar, termasuk bounding box dan deteksi objek pada gambar natural.[4]Relevan untuk mencari area tombol, kolom input, grafik, objek tertentu, atau bagian dokumen yang spesifik.[4]
Koordinat piksel 1:1Koordinat yang dikembalikan model kini 1:1 dengan piksel asli gambar.[4]Memudahkan automation karena koordinat dari model dapat dipetakan lebih langsung ke gambar asli, tanpa banyak hitung ulang skala.[4]

Apa arti 3,75 MP untuk gambar input?

Intinya, Opus 4.7 dapat menerima gambar pada batas resolusi yang lebih besar. Jika sebelumnya screenshot atau gambar dokumen harus diperkecil cukup jauh agar sesuai batas input, teks kecil, label antarmuka, dan detail tabel berisiko hilang sebelum model benar-benar “melihat” gambar tersebut. Dengan batas 2.576 px / 3,75 MP, lebih banyak detail visual bisa tetap terbawa dalam satu kali analisis.[4]

Namun, peningkatan ini perlu dibaca secara proporsional. Dukungan resolusi lebih tinggi bukan jaminan bahwa semua gambar buram, hasil kompresi berat, atau scan berkualitas rendah akan langsung terbaca sempurna. Manfaat paling terasa muncul ketika sumber gambar sebenarnya cukup tajam, tetapi sebelumnya terlalu padat detail untuk batas resolusi lama.[4]

Mengapa screenshot bisa paling terasa dampaknya?

Screenshot sering berisi banyak elemen kecil yang saling berdekatan: tombol, menu, ikon, kolom input, tabel, notifikasi error, panel samping, hingga label grafik. Anthropic secara khusus menyebut dukungan gambar resolusi tinggi di Opus 4.7 penting untuk computer use dan pemahaman screenshot.[4]

Bagi workflow automation, poin yang sama pentingnya adalah koordinat model yang kini 1:1 dengan piksel asli gambar.[4] Dalam skenario seperti klik tombol, drag-and-drop, memeriksa posisi elemen, atau menandai area tertentu pada screenshot, hal ini membuat hasil koordinat dari model lebih mudah dipakai kembali pada gambar asli.[4]

Dokumen, slide, dan artifact: nilai utamanya ada di detail padat

Dokumen dan slide jarang hanya berisi paragraf. Biasanya ada tabel, grafik, catatan kecil, label sumbu, header, footer, beberapa kolom, atau layout yang rapat. Anthropic memasukkan dokumen dan artifact sebagai kelompok konten yang mendapat manfaat dari peningkatan Vision Opus 4.7.[4]

Halaman produk Claude Opus 4.7 dari Anthropic juga menempatkan model ini dalam konteks peningkatan vision serta output profesional seperti interface, slide, dan dokumen.[1] Jadi, jika alur kerja Anda mencakup membaca slide dari screenshot, memeriksa layout dokumen, atau mengekstrak informasi dari gambar dokumen, peningkatan ini layak diuji dengan data nyata Anda sendiri.[1][4]

Lokalisasi: bukan hanya membaca, tetapi juga menunjuk posisi yang benar

Salah satu bagian penting dari Vision di Opus 4.7 adalah peningkatan kemampuan lokalisasi dalam gambar. Anthropic menyebut kemampuan seperti bounding box, deteksi objek pada gambar natural, serta tugas perception tingkat rendah seperti menunjuk, mengukur, dan menghitung.[4]

Untuk screenshot dan dokumen, lokalisasi sering sama pentingnya dengan membaca isi. Misalnya, bukan hanya mengetahui bahwa ada tombol di sebuah antarmuka, tetapi juga mengetahui tombol itu berada di mana. Bukan hanya mengenali adanya grafik, tetapi juga menentukan area grafik atau titik data tertentu. Pola kebutuhan seperti ini sesuai dengan arah peningkatan yang dijelaskan Anthropic untuk Opus 4.7.[4]

Jangan langsung dibaca sebagai klaim OCR naik sekian persen

Sumber resmi yang digunakan di sini tidak memberikan benchmark terpisah seperti “OCR screenshot meningkat X%” atau “OCR dokumen meningkat Y%”.[1][4] Karena itu, kesimpulan yang lebih aman adalah: Vision di Opus 4.7 meningkat lewat dukungan resolusi gambar yang lebih tinggi, peningkatan perception dan localization, serta disebut penting untuk screenshot, artifact, dan dokumen.[4]

Dengan kata lain, masuk akal untuk mengharapkan performa yang lebih baik pada gambar padat detail ketika resolusi menjadi hambatan utama. Tetapi belum ada angka publik yang cukup spesifik untuk menyatakan kenaikan OCR tetap untuk semua jenis screenshot atau dokumen.[1][4]

Cara menguji Opus 4.7 Vision di workflow nyata

Jika Anda mempertimbangkan Opus 4.7 untuk produk, tim internal, atau automation, sebaiknya uji berdasarkan kelompok tugas, bukan hanya satu-dua gambar contoh:

  1. Gambar beresolusi tinggi: gunakan gambar yang sama dalam resolusi asli dan versi yang diperkecil, lalu bandingkan apakah detail kecil lebih terbaca saat model mendapat lebih banyak piksel input.[4]
  2. Screenshot UI: minta model mengidentifikasi tombol, kolom input, pesan error, menu, dan area relevan di antarmuka.
  3. Dokumen atau slide: uji kemampuan membaca tabel, catatan kecil, grafik, dan layout multi-kolom, karena dokumen dan artifact memang disebut Anthropic dalam konteks peningkatan Vision.[4]
  4. Automation: minta model mengembalikan koordinat atau bounding box, lalu verifikasi apakah koordinat tersebut benar-benar cocok dengan piksel gambar asli sesuai mekanisme 1:1 yang diumumkan Anthropic.[4]
  5. OCR: ukur sendiri tingkat benar-salah pada kumpulan dokumen yang mewakili kebutuhan Anda, karena Anthropic belum memublikasikan angka OCR terpisah untuk screenshot atau dokumen dalam sumber resmi ini.[1][4]

Kesimpulan

Peningkatan Vision pada Claude Opus 4.7 paling bernilai ketika gambar berisi banyak detail kecil atau ketika aplikasi perlu mengetahui posisi elemen secara presisi. Tiga hal yang perlu diingat: batas gambar naik ke 2.576 px / 3,75 MP, kemampuan perception dan localization ditingkatkan, dan koordinat yang dikembalikan model kini 1:1 dengan piksel asli gambar.[4]

Ini merupakan peningkatan yang jelas untuk screenshot, dokumen, artifact, dan computer use. Namun, jika targetnya adalah OCR dokumen pada skala produk, tetap lakukan benchmark dengan data nyata, bukan menyimpulkan angka peningkatan tetap hanya dari perubahan batas resolusi.[1][4]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Claude Opus 4.7 menjadi model Claude pertama dengan dukungan gambar resolusi tinggi; batasnya naik dari 1.568 px / 1,15 MP menjadi 2.576 px / 3,75 MP.[4]
  • Peningkatan ini paling relevan untuk screenshot, artifact, dokumen, dan workflow computer use yang membutuhkan pembacaan detail kecil serta tata letak padat informasi.[4]
  • Anthropic juga menyebut peningkatan low level perception, image localization, bounding box, deteksi objek, serta koordinat keluaran 1:1 dengan piksel asli gambar.[4]

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "Claude Opus 4.7 Vision: Apa Arti Dukungan 3,75 MP untuk Screenshot dan Dokumen?" là gì?

Claude Opus 4.7 menjadi model Claude pertama dengan dukungan gambar resolusi tinggi; batasnya naik dari 1.568 px / 1,15 MP menjadi 2.576 px / 3,75 MP.[4]

Những điểm chính cần xác nhận đầu tiên là gì?

Claude Opus 4.7 menjadi model Claude pertama dengan dukungan gambar resolusi tinggi; batasnya naik dari 1.568 px / 1,15 MP menjadi 2.576 px / 3,75 MP.[4] Peningkatan ini paling relevan untuk screenshot, artifact, dokumen, dan workflow computer use yang membutuhkan pembacaan detail kecil serta tata letak padat informasi.[4]

Tôi nên làm gì tiếp theo trong thực tế?

Anthropic juga menyebut peningkatan low level perception, image localization, bounding box, deteksi objek, serta koordinat keluaran 1:1 dengan piksel asli gambar.[4]

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

Tìm kiếm và kiểm chứng thông tin: Vision của Opus 4.7 nâng cấp gì cho ảnh độ phân giải cao, screenshot và tài liệu?

Studio Global AI12 nguồn

Câu trả lời được trích dẫn

Nếu bạn đang nói tới Claude Opus 4.7 của Anthropic, thì phần Vision được nâng cấp rõ nhất là hỗ trợ ảnh độ phân giải cao hơn rất nhiều, cộng với cải thiện ở việc đọc ảnh/screenshot/tài liệu và các tác vụ định vị chi tiết trong ảnh.[1][4] Tuy vậy, Anthropic chưa công bố benchmark tách riêng cho “screenshot” hay “document OCR” để định lượng chính xác mức tăng theo từng loại nội dung, nên phần đó chỉ có thể kết luận ở mức “được tối ưu hơn”, chưa có số đo chi tiết công khai.[1][4]

  • Opus 4.7 là model Claude đầu tiên có “high-resolution image support”.[4]

  • Giới hạn ảnh tăng lên 2576 px / 3.75 MP, so với mức cũ 1568 px / 1.15 MP.[4]

  • Điều này tương đương lượng điểm ảnh đầu vào tăng khoảng 3.3 lần, nên về thực tế model có nhiều chi tiết hơn để đọc chữ nhỏ, UI nhỏ và bố cục dày thông tin trong ảnh.[4]

  • Với ảnh độ phân giải cao, Anthropic nói nâng cấp này đặc biệt quan trọng cho các workflow “computer use” và cho việc hiểu screenshot, artifact và tài liệu.[4]

  • Nói ngắn gọn: screenshot giao diện, ảnh chụp màn hình có nhiều chữ nhỏ, và tài liệu nhiều chi tiết là đúng nhóm use case mà Anthropic nhắm tới khi nâng cấp Vision ở 4.7.[4]

  • Ngoài tăng độ phân giải, Anthropic còn nói Opus 4.7 cải thiện “low-level perception”, gồm các tác vụ như chỉ điểm, đo đạc, đếm và các tác vụ tương tự.[4]

  • Họ cũng nói khả năng “image localization” được cải thiện, gồm định vị bằng bounding box và phát hiện đối tượng trong ảnh tự nhiên.[4]

  • Với screenshot và tài liệu, cải tiến này hữu ích khi cần chỉ đúng vị trí nút, ô nhập liệu, biểu đồ hoặc vùng nội dung cụ thể trong ảnh.[4]

  • Một thay đổi kỹ thuật đáng chú ý là tọa độ model trả về nay là 1:1 với pixel thật của ảnh, nên không còn phải tự tính hệ số scale khi map tọa độ lên ảnh.[4]

  • Điểm này đặc biệt hữu ích cho automation/computer use và các bài toán click/chỉ vùng trên screenshot.[4]

  • Ở mức mô tả sản phẩm, Anthropic cũng nói Opus 4.7 có “substantially better vision”, có thể nhìn ảnh ở độ phân giải cao hơn, và nhờ đó cho kết quả tốt hơn trong các đầu ra chuyên nghiệp như interfaces, slides và docs.[1][2]

  • Trên trang sản phẩm, Anthropic tiếp tục mô tả Opus 4.7 mạnh hơn ở coding, vision và các tác vụ nhiều bước, đồng thời cho hiệu năng tốt trên slides và docs trong workflow doanh nghiệp.[2]

  • Điểm cần kiểm chứng thận trọng: Anthropic không nêu công khai một con số riêng như “OCR tốt hơn X%” cho screenshot hay tài liệu.[1][4]

  • Vì vậy, phát biểu an toàn nhất là: Vision của Opus 4.7 được nâng cấp bằng đầu vào ảnh sắc nét hơn, hiểu screenshot/tài liệu tốt hơn theo mô tả chính thức, và cải thiện ở định vị/nhận biết chi tiết; còn mức tăng chính xác theo từng hạng mục thì hiện chưa có số liệu công khai đủ để khẳng định.[1][4]

Nếu bạn muốn, mình có thể làm tiếp 1 trong 2 việc:

  • so sánh riêng Opus 4.7 với Opus 4.6 cho use case OCR/screenshot/document;
  • hoặc trích nguyên văn các đoạn official của Anthropic và diễn giải sang tiếng Việt ngắn gọn.

Nguồn

Claude Opus 4.7 Vision: Apa Arti Dukungan 3,75 MP untuk Screenshot dan Dokumen? | Trả lời | Studio Global