Claude Opus 4.7 Vision 今次值得留意嘅,唔係單純一句「睇圖更好」,而係影像輸入解像度上限提高咗。Anthropic 表示,Opus 4.7 係第一個支援 high-resolution image support 嘅 Claude model;影像限制由 1568 px / 1.15 MP 提升到 2576 px / 3.75 MP。[4]
對 screenshot、文件、UI 自動化流程嚟講,呢個分別幾實際。由 1.15 MP 去到 3.75 MP,即係百萬像素數量大約 3.26 倍,通常可以理解成約 3.3 倍。當畫面入面有細字、表格、介面標籤、圖表註腳或者密集版面時,模型可以喺推理前保留更多視覺資訊。[4]
Opus 4.7 Vision 主要改咗啲咩?
| 改動 | Anthropic 公布內容 | 實際意思 |
|---|---|---|
| 支援更高解像度影像 | Opus 4.7 係首個有 high-resolution image support 嘅 Claude model,限制由 1568 px / 1.15 MP 提升至 2576 px / 3.75 MP。[ | 輸入圖片可以保留更多細節,尤其係細字、複雜 UI 同資訊密集文件。[ |
| 聚焦 screenshot、artifact、文件 | Anthropic 指出,呢個解像度升級對 computer use,以及理解 screenshot、artifacts、documents 特別重要。[ | 目標唔係只係自然相片,而係包含大量文字同版面資訊嘅工作場景。[ |
| Low-level perception 改善 | Anthropic 提到 pointing、measuring、counting 等任務有改善。[ | 適合問「邊個位置」、「有幾多個」、「相距幾遠」呢類細節問題。[ |
| Image localization 改善 | Opus 4.7 改善影像定位,包括 bounding box 同自然影像物件偵測。[ | 對需要框住按鈕、輸入欄、圖表區域或特定物件嘅 workflow 有幫助。[ |
| 座標同原圖像素 1:1 | 模型返回嘅座標而家同圖片實際像素 1:1 對應。[ | 做 automation 或 computer use 時,少咗自行計 scale、轉座標嘅麻煩。[ |
3.75 MP 對輸入圖片有咩實際意思?
核心變化係:Opus 4.7 可以處理更高上限嘅圖片。如果以前一張 screenshot 或文件圖片要被大幅縮細先符合輸入限制,細字、按鈕標籤、表格線、圖表註解等資訊可能未到模型分析前已經流失。升到 2576 px / 3.75 MP 後,同一張圖喺一次分析入面可以保留更多視覺細節。[4]
不過,要講得準確啲:呢個係「可接收更多像素」嘅升級,唔等於所有模糊圖、過度壓縮圖片或者質素差嘅掃描件都一定會讀啱。最大價值通常會出現喺源圖本身夠清,但內容太密、舊解像度上限會變成瓶頸嘅情況。[4]
點解 screenshot 會特別受惠?
Screenshot 嘅難度,往往唔係畫面「靚唔靚」,而係細節太多:按鈕、menu、icon、輸入欄、錯誤訊息、表格、側欄、圖表標籤,全部可能細細粒又貼得好近。Anthropic 明確講到,Opus 4.7 嘅高解像度影像支援對 computer use 同 screenshot 理解特別重要。[4]
對 automation 嚟講,更關鍵係座標 1:1。以前如果圖片被 resize,模型講出嚟嘅位置可能要再計比例先對得返原圖。Anthropic 表示 Opus 4.7 返回嘅座標而家同實際圖片像素 1:1 對應,對 click、拖拉、框選、檢查 UI 位置呢類流程會直接好多。[4]
文件、slide、artifact:重點係「版面好密」
文件同 slide 通常唔只係一段文字。佢哋可能有表格、圖表、細小註腳、座標軸標籤、header、footer、多欄排版,甚至混合圖像同文字。Anthropic 將 documents 同 artifacts 列入今次 Vision 升級受惠嘅內容類型。[4]
Anthropic 嘅 Claude Opus 4.7 產品頁亦將呢個 model 放喺 vision 改善,以及 interfaces、slides、docs 等專業輸出場景之中。[1] 所以如果你嘅工作流包括讀取投影片截圖、分析文件 layout、檢查圖片入面嘅文件內容,Opus 4.7 值得用真實樣本測一次,而唔係只靠一兩張 demo 圖判斷。[
1][
4]
Localization:唔止要讀到,仲要指得準
Vision 任務好多時唔係「睇到有咩」就夠,仲要知道「喺邊度」。Anthropic 提到 Opus 4.7 改善 image localization,包括 bounding box、自然影像物件偵測,以及 pointing、measuring、counting 等低層次 perception 任務。[4]
放返落 screenshot 同文件場景,呢點好實用。例如:唔只知道畫面有一個提交按鈕,仲要知道按鈕位置;唔只知道文件有一個圖表,仲要框出圖表範圍;唔只讀到表格入面有數字,仲要分清係邊一行邊一欄。呢啲都係 Anthropic 今次描述 Opus 4.7 Vision 改善方向所涵蓋嘅場景。[4]
但唔好直接當成「OCR 提升 X%」
要留意,呢批官方資料未有提供一個獨立 benchmark,例如「screenshot OCR 準確率提升幾多百分比」或者「文件 OCR 提升幾多百分比」。[1][
4] 所以最穩陣嘅講法係:Opus 4.7 Vision 透過更高解像度輸入、改善 perception/localization,以及 1:1 像素座標,令 screenshot、artifact、文件同 computer use 場景更值得期待。[
4]
換句話講,如果以往樽頸係圖片被壓細、細字同 UI 細節流失,今次升級有明顯理由會幫到手。但如果你要做產品級 OCR,仍然唔應該將 3.75 MP 直接換算成一個固定準確率提升;實際效果要睇你嘅文件類型、截圖質素、版面密度同評測方法。[1][
4]
點樣用真實 workflow 測 Opus 4.7 Vision?
如果你諗住將 Opus 4.7 放入產品或內部流程,建議唔好只試一兩張好靚嘅示範圖,而係分場景測:
- 高解像度圖片:用同一張細字密集圖片,分別測原圖同低解像度 resize 版本,睇更多像素輸入有冇實際改善。[
4]
- UI screenshot:要求模型指出按鈕、輸入欄、錯誤訊息、menu 或特定 panel,檢查佢係咪識分細節同上下文。
- 文件或 slide:測表格、細註腳、圖表標籤、多欄版面,因為 documents 同 artifacts 係 Anthropic 明確提到嘅受惠類型。[
4]
- Automation / computer use:要求模型返回座標或 bounding box,再驗證座標係咪真係同原圖像素 1:1 對得上。[
4]
- OCR 評測:自己準備代表性文件集,量度讀字、欄位抽取、表格理解嘅錯誤率;因為官方未有公布 screenshot 或文件 OCR 專項百分比數字。[
1][
4]
總結
Claude Opus 4.7 Vision 最值得留意嘅三點係:影像輸入上限升到 2576 px / 3.75 MP、perception/localization 改善,以及模型返回座標同原圖像素 1:1 對應。[4]
對 screenshot、文件、artifact 同 computer use,呢啲都係實在改動;尤其係畫面有好多細字、UI 元件或者需要精準定位時。不過,如果目標係大規模文件 OCR 或高可靠度自動化,仍然應該用自己嘅真實數據做 benchmark,而唔係單靠解像度升級去推斷一個固定提升幅度。[1][
4]




