Claude Opus 4.7 的 Vision 升級,最值得看的不是一句「看圖更好」,而是圖片輸入上限有了明確改變。Anthropic 表示,Opus 4.7 是 Claude 第一個支援高解析度圖片的模型;圖片限制從 1,568 px/1.15 MP 提高到 2,576 px/3.75 MP。[4]
MP 在這裡指 megapixel(百萬像素),也就是圖片包含的總像素量。對截圖、文件和使用者介面(UI)來說,這代表模型在推理前可以接收到更多像素。從 1.15 MP 到 3.75 MP,像素量約增加 3.26 倍;當畫面裡有小字、表格、按鈕標籤或資訊密度很高的版面時,這種差異更容易變成實際效果。[4]
Opus 4.7 Vision 的主要變化
| 變化 | Anthropic 公布的內容 | 對實務工作流的意義 |
|---|---|---|
| 高解析度圖片支援 | Opus 4.7 是 Claude 第一個支援高解析度圖片的模型;上限由 1,568 px/1.15 MP 提高到 2,576 px/3.75 MP。[ | 圖片在送入模型前可保留更多細節,對小字、密集 UI 和資料量大的文件特別重要。[ |
| 針對截圖、Artifacts 與文件 | Anthropic 指出,這項解析度提升對 computer use,以及理解截圖、artifacts(產出物)與文件尤其重要。[ | 這不是只針對一般自然照片的泛用升級,而是直接指向螢幕畫面與工作文件場景。[ |
| 基礎視覺感知 | Anthropic 提到低階感知任務有所改善,包括指點、測量、計數等。[ | 當你問模型「這裡有幾個項目」、「位置在哪裡」或「哪個區塊比較大」時,這類能力會更關鍵。[ |
| 影像定位 | Opus 4.7 被描述為改善 image localization,包括 bounding box 與自然影像中的物件偵測。[ | 可用來測試模型是否能框出按鈕、欄位、圖表區塊或特定視覺物件。[ |
| 1:1 像素座標 | 模型回傳的座標現在與圖片真實像素 1:1 對應。[ | 在自動化或 computer use 中,把模型座標映射回原始截圖更直接,減少自行換算縮放比例的麻煩。[ |
3.75 MP 真正改變的是「進得去的細節」
3.75 MP 的重點,不是讓模糊圖片憑空變清楚,而是當原圖本來就夠清晰、只是資訊太密時,模型能在同一次分析中接收更多視覺資訊。過去若截圖或掃描文件必須大幅縮小才能符合輸入限制,小字、表格線、圖例或介面標籤可能在縮圖階段就被犧牲。Opus 4.7 的 2,576 px/3.75 MP 上限,降低了這類資訊在進入模型前流失的機率。[4]
因此,較保守也較準確的理解是:這是一項提高輸入資訊量的 Vision 升級,不等於保證所有低品質掃描、嚴重壓縮圖片或失焦照片都能被正確讀出。它最值得期待的場景,是原始圖片清楚、但內容密度超過舊解析度上限能舒服承載的情況。[4]
為什麼截圖會特別有感?
截圖通常不是一張單純照片,而是一個充滿細小元素的工作現場:按鈕、選單、圖示、輸入框、錯誤訊息、側邊欄、資料表與圖表標籤,常常擠在同一個畫面。Anthropic 明確把 Opus 4.7 的高解析度圖片支援,連到 computer use 與截圖理解這類場景。[4]
更關鍵的是座標。模型回傳座標現在與圖片真實像素 1:1 對應。[4] 對需要點擊、拖曳、確認元件位置或框選區域的自動化流程來說,這比單純「看得懂畫面」更實用:系統可以更直接地把模型答案放回原始截圖,而不是先猜測圖片曾被縮放多少。[
4]
文件、簡報與 Artifacts:受惠點在版面密度
文件與簡報常見的難題,是資訊不只存在於正文。表格、註腳、欄位標題、圖表軸標、頁首頁尾、雙欄排版與小字註解,都可能影響理解。Anthropic 在 Opus 4.7 Vision 升級說明中,將 documents 與 artifacts 列為受益場景。[4]
Anthropic 的 Claude Opus 4.7 產品頁也把這個模型放在更強 vision,以及介面、簡報、文件等專業產出情境中介紹。[1] 所以,如果你的工作流包含讀取簡報截圖、檢查文件版面、分析表格圖片或驗證設計稿,Opus 4.7 值得用真實資料重新跑一輪測試。[
1][
4]
定位能力:不只讀到內容,還要指出位置
對許多多模態應用來說,讀出文字只是第一步;知道文字、按鈕或圖表元素在哪裡,才是能否進入自動化的關鍵。Anthropic 提到 Opus 4.7 改善影像定位能力,包括 bounding box、自然影像物件偵測,以及指點、測量、計數等低階感知任務。[4]
放到截圖與文件情境,這代表測試重點可以從「它是否看懂」延伸到「它是否能指對」。例如:能不能指出錯誤訊息所在區塊?能不能框出表格中的某一欄?能不能定位圖表裡需要檢查的標籤?這些問題更貼近 Opus 4.7 Vision 這次升級的方向。[4]
先別把它解讀成 OCR 固定提升多少%
官方資料中沒有提供獨立的截圖 OCR 或文件 OCR benchmark,也沒有給出「OCR 提升 X%」這類可套用到所有文件類型的數字。[1][
4] 因此,比較負責任的說法是:Opus 4.7 Vision 透過更高解析度圖片支援、感知能力與定位能力改善,讓密集截圖、文件和 artifacts 更值得期待;但它不是一個已公開量化的 OCR 萬用保證。[
4]
換句話說,如果你的瓶頸原本是「圖片被壓得太小,細節進不了模型」,3.75 MP 可能帶來明顯改善。若瓶頸是原始掃描品質太差、文字本身模糊、文件格式極端混亂,仍需要用你的資料集實測,而不是只依照解析度上限推論結果。[1][
4]
建議怎麼測 Opus 4.7 Vision?
如果你要評估是否導入產品或內部流程,建議不要只丟一兩張漂亮樣本,而是分情境測:
- **高解析度對照測試:**用同一張小字密集圖片,分別測原始解析度與低解析度縮圖,觀察額外像素是否改善理解結果。[
4]
- **UI 截圖:**要求模型辨識按鈕、輸入框、錯誤提示、選單與相關區域,並檢查它是否能說清楚位置。
- **文件與簡報:**測表格、小字註解、圖表標籤、多欄排版;documents 與 artifacts 正是 Anthropic 提到的 Vision 升級場景。[
4]
- **自動化座標:**請模型回傳座標或 bounding box,再驗證這些座標是否能依官方所說的 1:1 機制準確映射到原始像素。[
4]
- **OCR 評估:**用代表性文件集自行計算錯誤率,因為官方資料尚未給出獨立的截圖或文件 OCR 提升數字。[
1][
4]
結論
Claude Opus 4.7 Vision 的關鍵價值,在於讓模型處理更高解析度的圖片,並改善感知與定位能力。三個最值得記住的點是:圖片上限提高到 2,576 px/3.75 MP、影像定位與低階感知能力被強調改善、模型座標與真實像素現在是 1:1 對應。[4]
這對截圖、文件、artifacts 與 computer use 都是務實升級;但如果目標是大規模文件 OCR 或產品級自動化,仍應以真實資料 benchmark 為準,不要把解析度提升直接換算成固定準確率增幅。[1][
4]




