| Đây là nhóm use case được nhắm trực tiếp, không chỉ là cải thiện chung cho ảnh tự nhiên.[ |
| Low-level perception | Anthropic nêu cải thiện ở các tác vụ như chỉ điểm, đo đạc, đếm và các tác vụ tương tự.[ | Hữu ích khi cần hỏi về vị trí, số lượng hoặc chi tiết nhỏ trong ảnh và screenshot.[ |
| Image localization | Opus 4.7 được mô tả là cải thiện định vị ảnh, gồm bounding box và phát hiện đối tượng trong ảnh tự nhiên.[ | Phù hợp với tác vụ cần khoanh vùng nút, ô nhập liệu, biểu đồ hoặc đối tượng cụ thể.[ |
| Tọa độ pixel 1:1 | Tọa độ model trả về nay 1:1 với pixel thật của ảnh.[ | Giảm nhu cầu tự tính scale khi map tọa độ từ câu trả lời của model sang ảnh gốc, nhất là trong automation và computer use.[ |
Điểm cốt lõi là Opus 4.7 có thể xử lý ảnh ở giới hạn lớn hơn. Nếu trước đây một screenshot hoặc ảnh tài liệu phải bị thu nhỏ nhiều để vừa ngưỡng đầu vào, chữ nhỏ và chi tiết giao diện có thể mất thông tin trước khi model nhìn thấy. Với giới hạn 2576 px / 3.75 MP, ảnh có thể giữ lại nhiều chi tiết thị giác hơn trong cùng một lần phân tích.[4]
Cách hiểu thận trọng là: đây là cải thiện về lượng thông tin hình ảnh mà model có thể nhận, không phải bảo đảm rằng mọi ảnh mờ, ảnh nén mạnh hoặc bản scan kém chất lượng đều sẽ được đọc đúng. Giá trị lớn nhất xuất hiện khi nguồn ảnh vốn đủ nét nhưng quá dày chi tiết so với giới hạn độ phân giải cũ.[4]
Screenshot thường chứa nhiều thành phần nhỏ nằm sát nhau: nút, menu, icon, ô nhập liệu, bảng, thông báo lỗi, panel phụ hoặc nhãn biểu đồ. Anthropic nêu rõ high-resolution image support của Opus 4.7 đặc biệt quan trọng cho computer use và cho việc hiểu screenshot.[4]
Thay đổi quan trọng hơn với automation là tọa độ 1:1 với pixel thật của ảnh.[4] Trong workflow cần click, kéo thả, kiểm tra vị trí hoặc khoanh vùng trên screenshot, điều này giúp ánh xạ tọa độ model trả về sang ảnh gốc trực tiếp hơn, thay vì phải tự xử lý hệ số scale sau khi ảnh bị resize.[
4]
Tài liệu, slide và artifact thường không chỉ có văn bản. Chúng có bảng, biểu đồ, chú thích nhỏ, nhãn trục, header, footer và nhiều cột nội dung. Anthropic đặt documents và artifacts vào nhóm nội dung hưởng lợi từ nâng cấp Vision của Opus 4.7.[4]
Trang sản phẩm Claude Opus 4.7 của Anthropic cũng đặt model trong bối cảnh cải thiện vision và các đầu ra chuyên nghiệp như interfaces, slides và docs.[1] Vì vậy, nếu workflow của bạn gồm đọc slide chụp màn hình, phân tích layout tài liệu hoặc kiểm tra nội dung trong ảnh tài liệu, nâng cấp này đáng được kiểm thử trên dữ liệu thật.[
1][
4]
Một phần quan trọng của Vision trong Opus 4.7 là cải thiện khả năng định vị trong ảnh. Anthropic nêu các khả năng như bounding box, phát hiện đối tượng trong ảnh tự nhiên, cùng các tác vụ perception cấp thấp như chỉ điểm, đo đạc và đếm.[4]
Với screenshot và tài liệu, localization thường quan trọng ngang với việc đọc nội dung. Ví dụ: không chỉ biết có một nút trong giao diện, mà còn cần biết nút đó nằm ở đâu; không chỉ thấy một biểu đồ, mà còn cần xác định vùng biểu đồ hoặc một điểm dữ liệu cụ thể. Những tình huống này phù hợp với hướng nâng cấp mà Anthropic mô tả cho Opus 4.7.[4]
Các nguồn chính thức được dùng ở đây không đưa ra benchmark riêng kiểu OCR screenshot tốt hơn bao nhiêu phần trăm hoặc OCR tài liệu tốt hơn bao nhiêu phần trăm.[1][
4] Vì vậy, phát biểu chính xác hơn là: Vision của Opus 4.7 được nâng cấp bằng hỗ trợ ảnh độ phân giải cao hơn, cải thiện perception và localization, đồng thời được Anthropic mô tả là quan trọng cho screenshot, artifact và tài liệu.[
4]
Nói cách khác, có cơ sở để kỳ vọng Opus 4.7 xử lý tốt hơn các ảnh dày chi tiết khi độ phân giải là điểm nghẽn. Nhưng chưa có số công khai đủ cụ thể để khẳng định một mức tăng OCR cố định cho mọi loại screenshot hoặc tài liệu.[1][
4]
Nếu bạn đang cân nhắc dùng Opus 4.7 cho sản phẩm hoặc quy trình nội bộ, nên kiểm thử theo từng nhóm thay vì chỉ hỏi một vài ảnh mẫu:
Nâng cấp Vision của Claude Opus 4.7 có giá trị nhất khi ảnh chứa nhiều chi tiết nhỏ hoặc khi ứng dụng cần định vị chính xác trong ảnh. Ba điểm nên nhớ là giới hạn ảnh tăng lên 2576 px / 3.75 MP, khả năng perception/localization được cải thiện, và tọa độ trả về nay 1:1 với pixel thật của ảnh.[4]
Đây là một cải thiện rõ ràng cho screenshot, tài liệu, artifact và computer use. Tuy nhiên, nếu mục tiêu là OCR tài liệu ở quy mô sản phẩm, vẫn nên benchmark trên dữ liệu thật thay vì suy ra một mức tăng cố định từ thông báo độ phân giải.[1][
4]
Comments
0 comments