如果你打算用 Claude Opus 4.7 讀產品截圖、dashboard、文件截圖或設計稿,關鍵不是單純問「有冇 vision」,而是要分清兩層問題:整體視覺能力是否升級,以及你的具體任務是否已有公開數據證明大幅變好。現時較穩陣的判斷是:整體 vision 有官方升級證據;但 screenshot、圖表、設計稿這三類任務,仍未有足夠公開 benchmark 完整坐實。[9][
3]
判定:有升級,但不要把「vision 變強」直接等同「所有視覺任務大幅變準」
Anthropic 在 Opus 4.7 發布文中明確表示,Opus 4.7 相比 Opus 4.6 有「substantially better vision」,並可處理更高解像度圖片。[9] 這足以支持一個保守但清晰的結論:Claude Opus 4.7 的整體視覺能力值得視為升級。
不過,這不等於已經證明它在每一種視覺工作上都「明顯大幅」勝過上一代。尤其是 screenshot reading、chart interpretation、design mockup review 這些場景,公開資料暫時較多是官方描述和早期客戶訊號,而不是分類清晰、可重複、逐任務比較的 benchmark。
公開證據實際支持到哪裏?
1. 官方明確說 vision 變強
最直接的證據來自 Anthropic 自己:Opus 4.7 發布文稱新模型有「substantially better vision」,並支援更高解像度圖片。[9] Anthropic 的產品頁亦把 Opus 4.7 定位為在 coding、vision 和 complex multi-step tasks 上更強,並提到 spreadsheets、slides、docs 等企業工作流。[
3]
這些資料支持「整體圖片理解能力有進步」的判斷。不過,它仍然主要是廠商發布資料;用於生產決策時,應再配合自己的真實素材測試。
2. 更高解像度圖片支援,對 screenshot 是正面訊號
Screenshot 任務通常依賴細字、欄位、UI 區塊、表格和密集資訊。Anthropic 稱 Opus 4.7 可處理更高解像度圖片,這對讀介面截圖、文件截圖、設定頁或 dashboard 截圖都是合理的正面訊號。[9]
但要小心:更高解像度支援本身不是 screenshot reading benchmark。較準確的說法是,Opus 4.7 值得用 screenshot 任務重測;但公開資料未足以單獨證明 screenshot 理解準確率已大幅上升。
3. 技術圖和多模態理解的訊號較強
Anthropic 的發布文引用早期測試客戶 Solve Intelligence 的說法,指 Opus 4.7 的 multimodal understanding 有明顯改善,例子包括 chemical structures 和 complex technical diagrams。[9] 對工程圖、科研圖像、流程圖或其他技術示意圖來說,這比一般「vision 更好」的描述更具體。
限制是,這仍然是早期客戶回饋,而不是獨立公開 benchmark;而且 complex technical diagrams 不等於所有商業圖表、dashboard chart 或設計稿 review。
4. Interfaces、slides、docs 相關,但不能直接當成設計稿 benchmark
Anthropic 在發布資料中提到 Opus 4.7 在專業工作上能產生更高質素的 interfaces、slides 和 docs。[9] 產品頁亦提到 spreadsheets、slides、docs 等工作流。[
3]
這些訊號與 UI、投影片、文件工作有關,但推論要保守:能產生更好的 interface 或 slide,不等於已公開證明模型能更準確地分析設計稿、找出 spacing 問題、評估 visual hierarchy,或診斷 mockup 的一致性錯誤。
Screenshot、圖表、設計稿:逐項判斷
| 任務類型 | 現有公開證據 | 較穩陣判斷 |
|---|---|---|
| 一般圖片分析 | Anthropic 明確稱 Opus 4.7 有更好的 vision;產品頁亦把 vision 列為核心能力之一。[ | 有升級證據,可信度較高。 |
| 技術圖、chemical structures、complex technical diagrams | 早期測試客戶提到 multimodal understanding 改善,並舉出 chemical structures 和 complex technical diagrams。[ | 正面訊號較強,但仍不是獨立公開 benchmark。 |
| Screenshot、介面截圖、文件截圖 | Anthropic 稱 Opus 4.7 可處理更高解像度圖片。[ | 值得重測;但未見專門 screenshot benchmark 坐實提升幅度。 |
| 圖表、dashboard chart | 官方資料泛指 vision、spreadsheets、slides、docs 等能力和工作流。[ | 證據不足以證明 chart interpretation 已明顯大幅提升。 |
| 設計稿、UI mockup | 官方提到 interfaces、slides、docs 相關輸出質素。[ | 對設計工作有相關訊號,但未直接證明 mockup analysis 大幅變好。 |
小心引用「98.5% visual acuity」這類數字
有第三方技術文章提到一個 visual acuity benchmark 由 54.5% 升至 98.5%。[11] 這個數字看起來很大,但不宜直接當成「screenshot、圖表、設計稿全面大幅改善」的證明。
原因很簡單:第一,它不是 Anthropic 官方發布資料;第二,單一 visual acuity 指標未必能直接映射到 screenshot 讀字、chart 數值理解、UI hierarchy 評估或設計稿問題診斷。它可以作為額外參考,但不應成為採用或換模型的唯一依據。
如果要決定是否換模型,應該怎樣測?
對產品、設計、數據或工程團隊來說,最實際不是問發布文寫得有多強,而是用自己的真實素材做小型 blind A/B test。
建議流程:
- 準備同一批 screenshot、dashboard chart、UI mockup、文件截圖和技術圖。
- 用完全相同 prompt 分別測 Opus 4.7 和你目前使用的模型。
- 隱去模型名稱,讓評分者不知道答案來自哪個模型。
- 每題用固定 rubric 評分:文字讀取準確度、圖表數值理解、視覺 hierarchy 判斷、錯誤發現、幻覺率、輸出是否可執行。
- 不只看答案是否「似樣」,更要看有沒有漏細節、有沒有錯讀數字、有沒有自信講錯。
最值得優先測的素材包括:
- 細字 screenshot:設定頁、billing 頁、error log、dense dashboard。
- 圖表解讀:axis、legend、trend、outlier、百分比變化。
- 設計稿 review:spacing、alignment、visual hierarchy、CTA clarity。
- 文件截圖:表格、合約段落、投影片、報告摘要。
- 技術圖:系統架構圖、流程圖、工程圖、化學結構圖。
最終結論
如果問題是「Claude Opus 4.7 整體 vision 有沒有升級?」答案是有,公開資料支持這個判斷:Anthropic 明確稱它有更好的 vision,產品頁亦把 vision 放在 Opus 4.7 的核心能力之一。[9][
3]
如果問題是「screenshot、圖表、設計稿分析是否已被公開證據證明明顯好很多?」答案就要保守得多:目前有強烈正面訊號,但未有足夠公開、分類清晰的 benchmark 去完全坐實。 在真正換模型前,最好用自己的截圖、圖表和設計稿跑一輪 blind A/B test,確認提升是否出現在你的實際工作流。




