Claude Opus 4.7 Vision nâng giới hạn ảnh từ 1568 px / 1.15 MP lên 2576 px / 3.75 MP, khoảng 3.3 lần số megapixel; lợi ích rõ nhất nằm ở screenshot, tài liệu và UI dày chi tiết, nhưng Anthropic chưa công bố benchmark O... Anthropic cũng nêu cải thiện ở low level perception và image localization, gồm chỉ điểm, đo đạc,...

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệu?. Article summary: Claude Opus 4.7 Vision nâng cấp đáng kể nhất ở giới hạn ảnh đầu vào: 2576 px / 3.75 MP thay vì 1568 px / 1.15 MP, tức khoảng 3,3 lần số megapixel.. Topic tags: ai, anthropic, claude, computer vision, multimodal ai. Reference image context from search candidates: Reference image 1: visual subject "# Claude Opus 4.7 Is Here - Less Supervision, Better Vision. Anthropic releases Claude Opus 4.7 with 3x higher resolution vision, a new xhigh effort level, task budgets for cost co" source context "Claude Opus 4.7 Is Here - Less Supervision, Better Vision | Awesome Agents" Reference image 2: visual subject "Flat vector illustration on an orange background showing a sequence of small robots working left to right—thinking at a laptop, wri
Claude Opus 4.7 Vision đáng chú ý vì nâng trần độ phân giải ảnh đầu vào, không chỉ vì một mô tả chung rằng model nhìn ảnh tốt hơn. Anthropic nói Opus 4.7 là model Claude đầu tiên có high-resolution image support, với giới hạn tăng từ 1568 px / 1.15 MP lên 2576 px / 3.75 MP.[4]
Với screenshot, tài liệu và giao diện nhiều chi tiết, điểm này quan trọng vì model có thể nhận nhiều điểm ảnh hơn trước khi suy luận. Từ 1.15 MP lên 3.75 MP tương đương khoảng 3.26 lần số megapixel, một thay đổi đặc biệt hữu ích khi ảnh chứa chữ nhỏ, bảng biểu, nhãn giao diện hoặc bố cục dày thông tin.[4]
| Thay đổi | Anthropic công bố | Ý nghĩa thực tế |
|---|---|---|
| Ảnh độ phân giải cao hơn | Opus 4.7 là model Claude đầu tiên có high-resolution image support; giới hạn tăng lên 2576 px / 3.75 MP từ 1568 px / 1.15 MP.[ | Ảnh đầu vào có thể giữ lại nhiều chi tiết hơn, nhất là chữ nhỏ, UI phức tạp và tài liệu dày thông tin.[ |
| Tập trung vào screenshot, artifact và tài liệu | Anthropic nói nâng cấp độ phân giải này đặc biệt quan trọng cho computer use và cho việc hiểu screenshot, artifacts, documents.[ |
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Claude Opus 4.7 Vision nâng giới hạn ảnh từ 1568 px / 1.15 MP lên 2576 px / 3.75 MP, khoảng 3.3 lần số megapixel; lợi ích rõ nhất nằm ở screenshot, tài liệu và UI dày chi tiết, nhưng Anthropic chưa công bố benchmark O...
Claude Opus 4.7 Vision nâng giới hạn ảnh từ 1568 px / 1.15 MP lên 2576 px / 3.75 MP, khoảng 3.3 lần số megapixel; lợi ích rõ nhất nằm ở screenshot, tài liệu và UI dày chi tiết, nhưng Anthropic chưa công bố benchmark O... Anthropic cũng nêu cải thiện ở low level perception và image localization, gồm chỉ điểm, đo đạc, đếm, bounding box và phát hiện đối tượng.[4]
Tọa độ model trả về nay 1:1 với pixel thật của ảnh, hữu ích cho computer use, automation và các workflow cần click hoặc khoanh vùng trên screenshot.[4]
Tiếp tục với "Cú sốc giá dầu liên quan Iran làm hẹp cửa giảm lãi suất ở Brazil và Hàn Quốc" để có góc nhìn khác và trích dẫn bổ sung.
Open related pageKiểm tra chéo câu trả lời này với "Vì sao đà tiến quân của Nga ở Ukraine chậm nhất từ 2023?".
Open related pageSkip to main contentSkip to footer. . . Read more. Read more. Read more. [Rea…
Skip to main contentSkip to footer. Developers can use claude-opus-4-7 via the Claude API. . . ![Image 9: logo](
| Đây là nhóm use case được nhắm trực tiếp, không chỉ là cải thiện chung cho ảnh tự nhiên.[ |
| Low-level perception | Anthropic nêu cải thiện ở các tác vụ như chỉ điểm, đo đạc, đếm và các tác vụ tương tự.[ | Hữu ích khi cần hỏi về vị trí, số lượng hoặc chi tiết nhỏ trong ảnh và screenshot.[ |
| Image localization | Opus 4.7 được mô tả là cải thiện định vị ảnh, gồm bounding box và phát hiện đối tượng trong ảnh tự nhiên.[ | Phù hợp với tác vụ cần khoanh vùng nút, ô nhập liệu, biểu đồ hoặc đối tượng cụ thể.[ |
| Tọa độ pixel 1:1 | Tọa độ model trả về nay 1:1 với pixel thật của ảnh.[ | Giảm nhu cầu tự tính scale khi map tọa độ từ câu trả lời của model sang ảnh gốc, nhất là trong automation và computer use.[ |
Điểm cốt lõi là Opus 4.7 có thể xử lý ảnh ở giới hạn lớn hơn. Nếu trước đây một screenshot hoặc ảnh tài liệu phải bị thu nhỏ nhiều để vừa ngưỡng đầu vào, chữ nhỏ và chi tiết giao diện có thể mất thông tin trước khi model nhìn thấy. Với giới hạn 2576 px / 3.75 MP, ảnh có thể giữ lại nhiều chi tiết thị giác hơn trong cùng một lần phân tích.[4]
Cách hiểu thận trọng là: đây là cải thiện về lượng thông tin hình ảnh mà model có thể nhận, không phải bảo đảm rằng mọi ảnh mờ, ảnh nén mạnh hoặc bản scan kém chất lượng đều sẽ được đọc đúng. Giá trị lớn nhất xuất hiện khi nguồn ảnh vốn đủ nét nhưng quá dày chi tiết so với giới hạn độ phân giải cũ.[4]
Screenshot thường chứa nhiều thành phần nhỏ nằm sát nhau: nút, menu, icon, ô nhập liệu, bảng, thông báo lỗi, panel phụ hoặc nhãn biểu đồ. Anthropic nêu rõ high-resolution image support của Opus 4.7 đặc biệt quan trọng cho computer use và cho việc hiểu screenshot.[4]
Thay đổi quan trọng hơn với automation là tọa độ 1:1 với pixel thật của ảnh.[4] Trong workflow cần click, kéo thả, kiểm tra vị trí hoặc khoanh vùng trên screenshot, điều này giúp ánh xạ tọa độ model trả về sang ảnh gốc trực tiếp hơn, thay vì phải tự xử lý hệ số scale sau khi ảnh bị resize.[
4]
Tài liệu, slide và artifact thường không chỉ có văn bản. Chúng có bảng, biểu đồ, chú thích nhỏ, nhãn trục, header, footer và nhiều cột nội dung. Anthropic đặt documents và artifacts vào nhóm nội dung hưởng lợi từ nâng cấp Vision của Opus 4.7.[4]
Trang sản phẩm Claude Opus 4.7 của Anthropic cũng đặt model trong bối cảnh cải thiện vision và các đầu ra chuyên nghiệp như interfaces, slides và docs.[1] Vì vậy, nếu workflow của bạn gồm đọc slide chụp màn hình, phân tích layout tài liệu hoặc kiểm tra nội dung trong ảnh tài liệu, nâng cấp này đáng được kiểm thử trên dữ liệu thật.[
1][
4]
Một phần quan trọng của Vision trong Opus 4.7 là cải thiện khả năng định vị trong ảnh. Anthropic nêu các khả năng như bounding box, phát hiện đối tượng trong ảnh tự nhiên, cùng các tác vụ perception cấp thấp như chỉ điểm, đo đạc và đếm.[4]
Với screenshot và tài liệu, localization thường quan trọng ngang với việc đọc nội dung. Ví dụ: không chỉ biết có một nút trong giao diện, mà còn cần biết nút đó nằm ở đâu; không chỉ thấy một biểu đồ, mà còn cần xác định vùng biểu đồ hoặc một điểm dữ liệu cụ thể. Những tình huống này phù hợp với hướng nâng cấp mà Anthropic mô tả cho Opus 4.7.[4]
Các nguồn chính thức được dùng ở đây không đưa ra benchmark riêng kiểu OCR screenshot tốt hơn bao nhiêu phần trăm hoặc OCR tài liệu tốt hơn bao nhiêu phần trăm.[1][
4] Vì vậy, phát biểu chính xác hơn là: Vision của Opus 4.7 được nâng cấp bằng hỗ trợ ảnh độ phân giải cao hơn, cải thiện perception và localization, đồng thời được Anthropic mô tả là quan trọng cho screenshot, artifact và tài liệu.[
4]
Nói cách khác, có cơ sở để kỳ vọng Opus 4.7 xử lý tốt hơn các ảnh dày chi tiết khi độ phân giải là điểm nghẽn. Nhưng chưa có số công khai đủ cụ thể để khẳng định một mức tăng OCR cố định cho mọi loại screenshot hoặc tài liệu.[1][
4]
Nếu bạn đang cân nhắc dùng Opus 4.7 cho sản phẩm hoặc quy trình nội bộ, nên kiểm thử theo từng nhóm thay vì chỉ hỏi một vài ảnh mẫu:
Nâng cấp Vision của Claude Opus 4.7 có giá trị nhất khi ảnh chứa nhiều chi tiết nhỏ hoặc khi ứng dụng cần định vị chính xác trong ảnh. Ba điểm nên nhớ là giới hạn ảnh tăng lên 2576 px / 3.75 MP, khả năng perception/localization được cải thiện, và tọa độ trả về nay 1:1 với pixel thật của ảnh.[4]
Đây là một cải thiện rõ ràng cho screenshot, tài liệu, artifact và computer use. Tuy nhiên, nếu mục tiêu là OCR tài liệu ở quy mô sản phẩm, vẫn nên benchmark trên dữ liệu thật thay vì suy ra một mức tăng cố định từ thông báo độ phân giải.[1][
4]