Opus 4.7 的最大圖片解析度從 1568px/1.15MP 提高到 2576px/3.75MP,這是官方文件中最明確的視覺規格升級。[1]
對截圖與文件任務來說,這很實際。許多失敗案例不是模型不懂問題,而是輸入裡的小字、欄位名稱、圖例、註解、表格線或 UI 提示太小、太密。更高解析度不保證每次都答對,但它讓模型有更多原始視覺細節可用,尤其適合需要讀小字、看圖表標籤、辨識欄位位置或理解複雜版面的任務。[1]
Anthropic 文件明確把高解析圖片支援連到 computer use、screenshot、artifact 與 document understanding workflows。[1] 這代表 Opus 4.7 的升級不只適合一般圖片,也對實際工作中的畫面截圖、文件頁面、產品介面與報表視覺內容更有意義。
| 場景 | 可能改善的能力 | 需要注意的限制 |
|---|---|---|
| UI 截圖 | 看清按鈕、欄位、錯誤提示與畫面區塊;高解析圖片被官方連到 screenshot workflows。[ | 若任務需要精準操作,仍要驗證座標與元素判斷。 |
| 掃描 PDF 或文件截圖 | 對小字、密集版面、圖表標籤與區塊關係更有利;官方點名 document understanding workflows。[ | 這是視覺層改善,不是 PDF 專項分數。 |
| 報表與圖表 | 較適合處理圖文混合內容;Anthropic 發表文提到 multimodal understanding 改善。[ | 表格抽取、數字抄錄仍要人工抽查。 |
| 技術示意圖 | 更適合分析圖中元件、標籤與區域關係;官方提到 vision 改善。[ | 複雜圖仍可能需要逐區塊提問。 |
Opus 4.7 的官方文件還提到,低階視覺感知能力有所改善,包括 pointing、measuring、counting。[1] 這些能力聽起來基礎,卻是文件與截圖理解的核心。
報表任務常常不是只要摘要,而是要回答第三張圖右上角的數字是什麼、哪一列有異常標記、流程圖有幾個判斷節點。這類問題高度依賴視覺定位與細節感知,而不只是語言推理。[1]
Anthropic 文件指出,Claude Opus 4.7 的 image localization 有改善,包括自然影像的 bounding-box localization 與 detection。[1] 對文件和截圖來說,這代表模型更適合處理找區塊、框範圍、指出位置這類問題。
另一個對截圖工作流很實用的變化,是官方文件提到 Opus 4.7 的座標與實際像素 1:1 對應,不需要再做縮放換算。[1] 如果你要模型指出某個按鈕座標、框出表格區域、描述錯誤提示在畫面哪裡,或把模型輸出的座標交給自動化流程使用,這會讓流程更直接。[
1]
如果 PDF 本質上是掃描頁、圖片頁,或你把文件頁面轉成截圖輸入,Opus 4.7 的高解析圖片支援與 document understanding workflows 相關改進最可能派上用場。[1] 適合測的任務包括讀小字、找欄位、理解版面、解讀圖表、判斷某個區塊的位置。
如果報表包含圖表、表格截圖、技術圖或複雜版面,Opus 4.7 的高解析支援、低階視覺感知與圖像定位改善會更有價值。[1] Anthropic 發表文也提到 vision 與 multimodal understanding 的改善。[
8]
如果文件內容是乾淨文字,任務只是摘要或問答,Opus 4.7 的高解析視覺升級未必是主要變因。這次官方可查核的亮點是高解析圖片、視覺定位與多模態理解,而不是官方宣布新的 PDF 文字解析引擎。[1][
8]
Anthropic 文件提醒,高解析圖片會消耗更多 tokens;如果任務不需要那麼高的圖像細節,建議先 downsample,以控制成本。[1]
實務上可以這樣取捨:
評估 Opus 4.7 時,不要只問它會不會看 PDF。更有用的測法,是把同一批真實文件拆成幾種任務:摘要、細節抽取、視覺定位、表格或數字驗證。
建議測試流程:
Comments
0 comments