Claude Opus 4.7 Vision đáng chú ý vì nâng trần độ phân giải ảnh đầu vào, không chỉ vì một mô tả chung rằng model nhìn ảnh tốt hơn. Anthropic nói Opus 4.7 là model Claude đầu tiên có high-resolution image support, với giới hạn tăng từ 1568 px / 1.15 MP lên 2576 px / 3.75 MP.[4]
Với screenshot, tài liệu và giao diện nhiều chi tiết, điểm này quan trọng vì model có thể nhận nhiều điểm ảnh hơn trước khi suy luận. Từ 1.15 MP lên 3.75 MP tương đương khoảng 3.26 lần số megapixel, một thay đổi đặc biệt hữu ích khi ảnh chứa chữ nhỏ, bảng biểu, nhãn giao diện hoặc bố cục dày thông tin.[4]
Những thay đổi Vision chính trong Opus 4.7
| Thay đổi | Anthropic công bố | Ý nghĩa thực tế |
|---|---|---|
| Ảnh độ phân giải cao hơn | Opus 4.7 là model Claude đầu tiên có high-resolution image support; giới hạn tăng lên 2576 px / 3.75 MP từ 1568 px / 1.15 MP.[ | Ảnh đầu vào có thể giữ lại nhiều chi tiết hơn, nhất là chữ nhỏ, UI phức tạp và tài liệu dày thông tin.[ |
| Tập trung vào screenshot, artifact và tài liệu | Anthropic nói nâng cấp độ phân giải này đặc biệt quan trọng cho computer use và cho việc hiểu screenshot, artifacts, documents.[ | Đây là nhóm use case được nhắm trực tiếp, không chỉ là cải thiện chung cho ảnh tự nhiên.[ |
| Low-level perception | Anthropic nêu cải thiện ở các tác vụ như chỉ điểm, đo đạc, đếm và các tác vụ tương tự.[ | Hữu ích khi cần hỏi về vị trí, số lượng hoặc chi tiết nhỏ trong ảnh và screenshot.[ |
| Image localization | Opus 4.7 được mô tả là cải thiện định vị ảnh, gồm bounding box và phát hiện đối tượng trong ảnh tự nhiên.[ | Phù hợp với tác vụ cần khoanh vùng nút, ô nhập liệu, biểu đồ hoặc đối tượng cụ thể.[ |
| Tọa độ pixel 1:1 | Tọa độ model trả về nay 1:1 với pixel thật của ảnh.[ | Giảm nhu cầu tự tính scale khi map tọa độ từ câu trả lời của model sang ảnh gốc, nhất là trong automation và computer use.[ |
3.75 MP thay đổi gì ở ảnh đầu vào?
Điểm cốt lõi là Opus 4.7 có thể xử lý ảnh ở giới hạn lớn hơn. Nếu trước đây một screenshot hoặc ảnh tài liệu phải bị thu nhỏ nhiều để vừa ngưỡng đầu vào, chữ nhỏ và chi tiết giao diện có thể mất thông tin trước khi model nhìn thấy. Với giới hạn 2576 px / 3.75 MP, ảnh có thể giữ lại nhiều chi tiết thị giác hơn trong cùng một lần phân tích.[4]
Cách hiểu thận trọng là: đây là cải thiện về lượng thông tin hình ảnh mà model có thể nhận, không phải bảo đảm rằng mọi ảnh mờ, ảnh nén mạnh hoặc bản scan kém chất lượng đều sẽ được đọc đúng. Giá trị lớn nhất xuất hiện khi nguồn ảnh vốn đủ nét nhưng quá dày chi tiết so với giới hạn độ phân giải cũ.[4]
Vì sao screenshot hưởng lợi rõ?
Screenshot thường chứa nhiều thành phần nhỏ nằm sát nhau: nút, menu, icon, ô nhập liệu, bảng, thông báo lỗi, panel phụ hoặc nhãn biểu đồ. Anthropic nêu rõ high-resolution image support của Opus 4.7 đặc biệt quan trọng cho computer use và cho việc hiểu screenshot.[4]
Thay đổi quan trọng hơn với automation là tọa độ 1:1 với pixel thật của ảnh.[4] Trong workflow cần click, kéo thả, kiểm tra vị trí hoặc khoanh vùng trên screenshot, điều này giúp ánh xạ tọa độ model trả về sang ảnh gốc trực tiếp hơn, thay vì phải tự xử lý hệ số scale sau khi ảnh bị resize.[
4]
Tài liệu, slide và artifact: lợi ích nằm ở bố cục dày thông tin
Tài liệu, slide và artifact thường không chỉ có văn bản. Chúng có bảng, biểu đồ, chú thích nhỏ, nhãn trục, header, footer và nhiều cột nội dung. Anthropic đặt documents và artifacts vào nhóm nội dung hưởng lợi từ nâng cấp Vision của Opus 4.7.[4]
Trang sản phẩm Claude Opus 4.7 của Anthropic cũng đặt model trong bối cảnh cải thiện vision và các đầu ra chuyên nghiệp như interfaces, slides và docs.[1] Vì vậy, nếu workflow của bạn gồm đọc slide chụp màn hình, phân tích layout tài liệu hoặc kiểm tra nội dung trong ảnh tài liệu, nâng cấp này đáng được kiểm thử trên dữ liệu thật.[
1][
4]
Localization: không chỉ đọc đúng, mà còn chỉ đúng vị trí
Một phần quan trọng của Vision trong Opus 4.7 là cải thiện khả năng định vị trong ảnh. Anthropic nêu các khả năng như bounding box, phát hiện đối tượng trong ảnh tự nhiên, cùng các tác vụ perception cấp thấp như chỉ điểm, đo đạc và đếm.[4]
Với screenshot và tài liệu, localization thường quan trọng ngang với việc đọc nội dung. Ví dụ: không chỉ biết có một nút trong giao diện, mà còn cần biết nút đó nằm ở đâu; không chỉ thấy một biểu đồ, mà còn cần xác định vùng biểu đồ hoặc một điểm dữ liệu cụ thể. Những tình huống này phù hợp với hướng nâng cấp mà Anthropic mô tả cho Opus 4.7.[4]
Chưa nên gọi đây là cam kết OCR tốt hơn X%
Các nguồn chính thức được dùng ở đây không đưa ra benchmark riêng kiểu OCR screenshot tốt hơn bao nhiêu phần trăm hoặc OCR tài liệu tốt hơn bao nhiêu phần trăm.[1][
4] Vì vậy, phát biểu chính xác hơn là: Vision của Opus 4.7 được nâng cấp bằng hỗ trợ ảnh độ phân giải cao hơn, cải thiện perception và localization, đồng thời được Anthropic mô tả là quan trọng cho screenshot, artifact và tài liệu.[
4]
Nói cách khác, có cơ sở để kỳ vọng Opus 4.7 xử lý tốt hơn các ảnh dày chi tiết khi độ phân giải là điểm nghẽn. Nhưng chưa có số công khai đủ cụ thể để khẳng định một mức tăng OCR cố định cho mọi loại screenshot hoặc tài liệu.[1][
4]
Cách kiểm thử Opus 4.7 Vision trong workflow thật
Nếu bạn đang cân nhắc dùng Opus 4.7 cho sản phẩm hoặc quy trình nội bộ, nên kiểm thử theo từng nhóm thay vì chỉ hỏi một vài ảnh mẫu:
- Ảnh độ phân giải cao: dùng cùng một ảnh nhiều chữ nhỏ ở độ phân giải gốc và bản resize thấp để xem khác biệt khi model có thêm điểm ảnh đầu vào.[
4]
- Screenshot UI: yêu cầu model xác định nút, ô nhập liệu, thông báo lỗi và vùng liên quan trong giao diện.
- Tài liệu hoặc slide: kiểm tra khả năng đọc bảng, chú thích nhỏ, biểu đồ và bố cục nhiều cột, vì documents và artifacts là nhóm được Anthropic nêu trong nâng cấp Vision.[
4]
- Automation: yêu cầu model trả tọa độ hoặc bounding box, rồi xác minh tọa độ đó map đúng với pixel ảnh gốc theo cơ chế 1:1 mà Anthropic công bố.[
4]
- OCR: tự đo tỷ lệ đúng sai trên tập tài liệu đại diện, vì Anthropic chưa công bố con số OCR riêng cho screenshot hoặc tài liệu trong các nguồn chính thức này.[
1][
4]
Kết luận
Nâng cấp Vision của Claude Opus 4.7 có giá trị nhất khi ảnh chứa nhiều chi tiết nhỏ hoặc khi ứng dụng cần định vị chính xác trong ảnh. Ba điểm nên nhớ là giới hạn ảnh tăng lên 2576 px / 3.75 MP, khả năng perception/localization được cải thiện, và tọa độ trả về nay 1:1 với pixel thật của ảnh.[4]
Đây là một cải thiện rõ ràng cho screenshot, tài liệu, artifact và computer use. Tuy nhiên, nếu mục tiêu là OCR tài liệu ở quy mô sản phẩm, vẫn nên benchmark trên dữ liệu thật thay vì suy ra một mức tăng cố định từ thông báo độ phân giải.[1][
4]




