studioglobal
熱門探索內容
答案已發布2 個來源

Claude Opus 4.7 Vision 升到 3.75 MP:截圖、文件與自動化會有什麼差別?

Opus 4.7 是 Claude 第一個支援高解析度圖片的模型,圖片上限由 1,568 px/1.15 MP 提高到 2,576 px/3.75 MP,約為 3.3 倍像素量。[4] Anthropic 指出,這項提升特別關係到 computer use,以及理解截圖、artifacts 和文件;低階感知與影像定位也有改善。[4] 模型回傳座標現在與原圖像素 1:1 對應,對需要點擊、框選或驗證位置的自動化流程更實用;但官方未提供「文件 OCR 提升 X%」這類獨立數字。[1][4]

18K0
Minh họa Claude Opus 4.7 phân tích screenshot giao diện và tài liệu độ phân giải cao
Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệuHình minh họa AI về khả năng phân tích screenshot và tài liệu độ phân giải cao của Claude Opus 4.7.
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệu?. Article summary: Claude Opus 4.7 Vision nâng cấp đáng kể nhất ở giới hạn ảnh đầu vào: 2576 px / 3.75 MP thay vì 1568 px / 1.15 MP, tức khoảng 3,3 lần số megapixel.. Topic tags: ai, anthropic, claude, computer vision, multimodal ai. Reference image context from search candidates: Reference image 1: visual subject "# Claude Opus 4.7 Is Here - Less Supervision, Better Vision. Anthropic releases Claude Opus 4.7 with 3x higher resolution vision, a new xhigh effort level, task budgets for cost co" source context "Claude Opus 4.7 Is Here - Less Supervision, Better Vision | Awesome Agents" Reference image 2: visual subject "Flat vector illustration on an orange background showing a sequence of small robots working left to right—thinking at a laptop, wri

openai.com

Claude Opus 4.7 的 Vision 升級,最值得看的不是一句「看圖更好」,而是圖片輸入上限有了明確改變。Anthropic 表示,Opus 4.7 是 Claude 第一個支援高解析度圖片的模型;圖片限制從 1,568 px/1.15 MP 提高到 2,576 px/3.75 MP。[4]

MP 在這裡指 megapixel(百萬像素),也就是圖片包含的總像素量。對截圖、文件和使用者介面(UI)來說,這代表模型在推理前可以接收到更多像素。從 1.15 MP 到 3.75 MP,像素量約增加 3.26 倍;當畫面裡有小字、表格、按鈕標籤或資訊密度很高的版面時,這種差異更容易變成實際效果。[4]

Opus 4.7 Vision 的主要變化

變化Anthropic 公布的內容對實務工作流的意義
高解析度圖片支援Opus 4.7 是 Claude 第一個支援高解析度圖片的模型;上限由 1,568 px/1.15 MP 提高到 2,576 px/3.75 MP。[4]圖片在送入模型前可保留更多細節,對小字、密集 UI 和資料量大的文件特別重要。[4]
針對截圖、Artifacts 與文件Anthropic 指出,這項解析度提升對 computer use,以及理解截圖、artifacts(產出物)與文件尤其重要。[4]這不是只針對一般自然照片的泛用升級,而是直接指向螢幕畫面與工作文件場景。[4]
基礎視覺感知Anthropic 提到低階感知任務有所改善,包括指點、測量、計數等。[4]當你問模型「這裡有幾個項目」、「位置在哪裡」或「哪個區塊比較大」時,這類能力會更關鍵。[4]
影像定位Opus 4.7 被描述為改善 image localization,包括 bounding box 與自然影像中的物件偵測。[4]可用來測試模型是否能框出按鈕、欄位、圖表區塊或特定視覺物件。[4]
1:1 像素座標模型回傳的座標現在與圖片真實像素 1:1 對應。[4]在自動化或 computer use 中,把模型座標映射回原始截圖更直接,減少自行換算縮放比例的麻煩。[4]

3.75 MP 真正改變的是「進得去的細節」

3.75 MP 的重點,不是讓模糊圖片憑空變清楚,而是當原圖本來就夠清晰、只是資訊太密時,模型能在同一次分析中接收更多視覺資訊。過去若截圖或掃描文件必須大幅縮小才能符合輸入限制,小字、表格線、圖例或介面標籤可能在縮圖階段就被犧牲。Opus 4.7 的 2,576 px/3.75 MP 上限,降低了這類資訊在進入模型前流失的機率。[4]

因此,較保守也較準確的理解是:這是一項提高輸入資訊量的 Vision 升級,不等於保證所有低品質掃描、嚴重壓縮圖片或失焦照片都能被正確讀出。它最值得期待的場景,是原始圖片清楚、但內容密度超過舊解析度上限能舒服承載的情況。[4]

為什麼截圖會特別有感?

截圖通常不是一張單純照片,而是一個充滿細小元素的工作現場:按鈕、選單、圖示、輸入框、錯誤訊息、側邊欄、資料表與圖表標籤,常常擠在同一個畫面。Anthropic 明確把 Opus 4.7 的高解析度圖片支援,連到 computer use 與截圖理解這類場景。[4]

更關鍵的是座標。模型回傳座標現在與圖片真實像素 1:1 對應。[4] 對需要點擊、拖曳、確認元件位置或框選區域的自動化流程來說,這比單純「看得懂畫面」更實用:系統可以更直接地把模型答案放回原始截圖,而不是先猜測圖片曾被縮放多少。[4]

文件、簡報與 Artifacts:受惠點在版面密度

文件與簡報常見的難題,是資訊不只存在於正文。表格、註腳、欄位標題、圖表軸標、頁首頁尾、雙欄排版與小字註解,都可能影響理解。Anthropic 在 Opus 4.7 Vision 升級說明中,將 documents 與 artifacts 列為受益場景。[4]

Anthropic 的 Claude Opus 4.7 產品頁也把這個模型放在更強 vision,以及介面、簡報、文件等專業產出情境中介紹。[1] 所以,如果你的工作流包含讀取簡報截圖、檢查文件版面、分析表格圖片或驗證設計稿,Opus 4.7 值得用真實資料重新跑一輪測試。[1][4]

定位能力:不只讀到內容,還要指出位置

對許多多模態應用來說,讀出文字只是第一步;知道文字、按鈕或圖表元素在哪裡,才是能否進入自動化的關鍵。Anthropic 提到 Opus 4.7 改善影像定位能力,包括 bounding box、自然影像物件偵測,以及指點、測量、計數等低階感知任務。[4]

放到截圖與文件情境,這代表測試重點可以從「它是否看懂」延伸到「它是否能指對」。例如:能不能指出錯誤訊息所在區塊?能不能框出表格中的某一欄?能不能定位圖表裡需要檢查的標籤?這些問題更貼近 Opus 4.7 Vision 這次升級的方向。[4]

先別把它解讀成 OCR 固定提升多少%

官方資料中沒有提供獨立的截圖 OCR 或文件 OCR benchmark,也沒有給出「OCR 提升 X%」這類可套用到所有文件類型的數字。[1][4] 因此,比較負責任的說法是:Opus 4.7 Vision 透過更高解析度圖片支援、感知能力與定位能力改善,讓密集截圖、文件和 artifacts 更值得期待;但它不是一個已公開量化的 OCR 萬用保證。[4]

換句話說,如果你的瓶頸原本是「圖片被壓得太小,細節進不了模型」,3.75 MP 可能帶來明顯改善。若瓶頸是原始掃描品質太差、文字本身模糊、文件格式極端混亂,仍需要用你的資料集實測,而不是只依照解析度上限推論結果。[1][4]

建議怎麼測 Opus 4.7 Vision?

如果你要評估是否導入產品或內部流程,建議不要只丟一兩張漂亮樣本,而是分情境測:

  1. **高解析度對照測試:**用同一張小字密集圖片,分別測原始解析度與低解析度縮圖,觀察額外像素是否改善理解結果。[4]
  2. **UI 截圖:**要求模型辨識按鈕、輸入框、錯誤提示、選單與相關區域,並檢查它是否能說清楚位置。
  3. **文件與簡報:**測表格、小字註解、圖表標籤、多欄排版;documents 與 artifacts 正是 Anthropic 提到的 Vision 升級場景。[4]
  4. **自動化座標:**請模型回傳座標或 bounding box,再驗證這些座標是否能依官方所說的 1:1 機制準確映射到原始像素。[4]
  5. **OCR 評估:**用代表性文件集自行計算錯誤率,因為官方資料尚未給出獨立的截圖或文件 OCR 提升數字。[1][4]

結論

Claude Opus 4.7 Vision 的關鍵價值,在於讓模型處理更高解析度的圖片,並改善感知與定位能力。三個最值得記住的點是:圖片上限提高到 2,576 px/3.75 MP、影像定位與低階感知能力被強調改善、模型座標與真實像素現在是 1:1 對應。[4]

這對截圖、文件、artifacts 與 computer use 都是務實升級;但如果目標是大規模文件 OCR 或產品級自動化,仍應以真實資料 benchmark 為準,不要把解析度提升直接換算成固定準確率增幅。[1][4]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • Opus 4.7 是 Claude 第一個支援高解析度圖片的模型,圖片上限由 1,568 px/1.15 MP 提高到 2,576 px/3.75 MP,約為 3.3 倍像素量。[4]
  • Anthropic 指出,這項提升特別關係到 computer use,以及理解截圖、artifacts 和文件;低階感知與影像定位也有改善。[4]
  • 模型回傳座標現在與原圖像素 1:1 對應,對需要點擊、框選或驗證位置的自動化流程更實用;但官方未提供「文件 OCR 提升 X%」這類獨立數字。[1][4]

大家也會問

「Claude Opus 4.7 Vision 升到 3.75 MP:截圖、文件與自動化會有什麼差別?」的簡短答案是什麼?

Opus 4.7 是 Claude 第一個支援高解析度圖片的模型,圖片上限由 1,568 px/1.15 MP 提高到 2,576 px/3.75 MP,約為 3.3 倍像素量。[4]

最值得優先驗證的重點是什麼?

Opus 4.7 是 Claude 第一個支援高解析度圖片的模型,圖片上限由 1,568 px/1.15 MP 提高到 2,576 px/3.75 MP,約為 3.3 倍像素量。[4] Anthropic 指出,這項提升特別關係到 computer use,以及理解截圖、artifacts 和文件;低階感知與影像定位也有改善。[4]

接下來在實務上該怎麼做?

模型回傳座標現在與原圖像素 1:1 對應,對需要點擊、框選或驗證位置的自動化流程更實用;但官方未提供「文件 OCR 提升 X%」這類獨立數字。[1][4]

下一步適合探索哪個相關主題?

繼續閱讀「Claude Security 公測版:Anthropic 的企業程式碼漏洞掃描工具」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「Grok 4.3 API 解讀:1M 上下文、低 token 價格,xAI 想搶下哪個入口?」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

Tìm kiếm và kiểm chứng thông tin: Vision của Opus 4.7 nâng cấp gì cho ảnh độ phân giải cao, screenshot và tài liệu?

Studio Global AI12 個來源

附引用的答案

Nếu bạn đang nói tới Claude Opus 4.7 của Anthropic, thì phần Vision được nâng cấp rõ nhất là hỗ trợ ảnh độ phân giải cao hơn rất nhiều, cộng với cải thiện ở việc đọc ảnh/screenshot/tài liệu và các tác vụ định vị chi tiết trong ảnh.[1][4] Tuy vậy, Anthropic chưa công bố benchmark tách riêng cho “screenshot” hay “document OCR” để định lượng chính xác mức tăng theo từng loại nội dung, nên phần đó chỉ có thể kết luận ở mức “được tối ưu hơn”, chưa có số đo chi tiết công khai.[1][4]

  • Opus 4.7 là model Claude đầu tiên có “high-resolution image support”.[4]

  • Giới hạn ảnh tăng lên 2576 px / 3.75 MP, so với mức cũ 1568 px / 1.15 MP.[4]

  • Điều này tương đương lượng điểm ảnh đầu vào tăng khoảng 3.3 lần, nên về thực tế model có nhiều chi tiết hơn để đọc chữ nhỏ, UI nhỏ và bố cục dày thông tin trong ảnh.[4]

  • Với ảnh độ phân giải cao, Anthropic nói nâng cấp này đặc biệt quan trọng cho các workflow “computer use” và cho việc hiểu screenshot, artifact và tài liệu.[4]

  • Nói ngắn gọn: screenshot giao diện, ảnh chụp màn hình có nhiều chữ nhỏ, và tài liệu nhiều chi tiết là đúng nhóm use case mà Anthropic nhắm tới khi nâng cấp Vision ở 4.7.[4]

  • Ngoài tăng độ phân giải, Anthropic còn nói Opus 4.7 cải thiện “low-level perception”, gồm các tác vụ như chỉ điểm, đo đạc, đếm và các tác vụ tương tự.[4]

  • Họ cũng nói khả năng “image localization” được cải thiện, gồm định vị bằng bounding box và phát hiện đối tượng trong ảnh tự nhiên.[4]

  • Với screenshot và tài liệu, cải tiến này hữu ích khi cần chỉ đúng vị trí nút, ô nhập liệu, biểu đồ hoặc vùng nội dung cụ thể trong ảnh.[4]

  • Một thay đổi kỹ thuật đáng chú ý là tọa độ model trả về nay là 1:1 với pixel thật của ảnh, nên không còn phải tự tính hệ số scale khi map tọa độ lên ảnh.[4]

  • Điểm này đặc biệt hữu ích cho automation/computer use và các bài toán click/chỉ vùng trên screenshot.[4]

  • Ở mức mô tả sản phẩm, Anthropic cũng nói Opus 4.7 có “substantially better vision”, có thể nhìn ảnh ở độ phân giải cao hơn, và nhờ đó cho kết quả tốt hơn trong các đầu ra chuyên nghiệp như interfaces, slides và docs.[1][2]

  • Trên trang sản phẩm, Anthropic tiếp tục mô tả Opus 4.7 mạnh hơn ở coding, vision và các tác vụ nhiều bước, đồng thời cho hiệu năng tốt trên slides và docs trong workflow doanh nghiệp.[2]

  • Điểm cần kiểm chứng thận trọng: Anthropic không nêu công khai một con số riêng như “OCR tốt hơn X%” cho screenshot hay tài liệu.[1][4]

  • Vì vậy, phát biểu an toàn nhất là: Vision của Opus 4.7 được nâng cấp bằng đầu vào ảnh sắc nét hơn, hiểu screenshot/tài liệu tốt hơn theo mô tả chính thức, và cải thiện ở định vị/nhận biết chi tiết; còn mức tăng chính xác theo từng hạng mục thì hiện chưa có số liệu công khai đủ để khẳng định.[1][4]

Nếu bạn muốn, mình có thể làm tiếp 1 trong 2 việc:

  • so sánh riêng Opus 4.7 với Opus 4.6 cho use case OCR/screenshot/document;
  • hoặc trích nguyên văn các đoạn official của Anthropic và diễn giải sang tiếng Việt ngắn gọn.

來源