但要小心:更高解像度支援本身不是 screenshot reading benchmark。較準確的說法是,Opus 4.7 值得用 screenshot 任務重測;但公開資料未足以單獨證明 screenshot 理解準確率已大幅上升。
Anthropic 的發布文引用早期測試客戶 Solve Intelligence 的說法,指 Opus 4.7 的 multimodal understanding 有明顯改善,例子包括 chemical structures 和 complex technical diagrams。[9] 對工程圖、科研圖像、流程圖或其他技術示意圖來說,這比一般「vision 更好」的描述更具體。
限制是,這仍然是早期客戶回饋,而不是獨立公開 benchmark;而且 complex technical diagrams 不等於所有商業圖表、dashboard chart 或設計稿 review。
Anthropic 在發布資料中提到 Opus 4.7 在專業工作上能產生更高質素的 interfaces、slides 和 docs。[9] 產品頁亦提到 spreadsheets、slides、docs 等工作流。[
3]
這些訊號與 UI、投影片、文件工作有關,但推論要保守:能產生更好的 interface 或 slide,不等於已公開證明模型能更準確地分析設計稿、找出 spacing 問題、評估 visual hierarchy,或診斷 mockup 的一致性錯誤。
| 任務類型 | 現有公開證據 | 較穩陣判斷 |
|---|---|---|
| 一般圖片分析 | Anthropic 明確稱 Opus 4.7 有更好的 vision;產品頁亦把 vision 列為核心能力之一。[ | 有升級證據,可信度較高。 |
| 技術圖、chemical structures、complex technical diagrams | 早期測試客戶提到 multimodal understanding 改善,並舉出 chemical structures 和 complex technical diagrams。[ | 正面訊號較強,但仍不是獨立公開 benchmark。 |
| Screenshot、介面截圖、文件截圖 | Anthropic 稱 Opus 4.7 可處理更高解像度圖片。[ | 值得重測;但未見專門 screenshot benchmark 坐實提升幅度。 |
| 圖表、dashboard chart | 官方資料泛指 vision、spreadsheets、slides、docs 等能力和工作流。[ | 證據不足以證明 chart interpretation 已明顯大幅提升。 |
| 設計稿、UI mockup | 官方提到 interfaces、slides、docs 相關輸出質素。[ | 對設計工作有相關訊號,但未直接證明 mockup analysis 大幅變好。 |
有第三方技術文章提到一個 visual acuity benchmark 由 54.5% 升至 98.5%。[11] 這個數字看起來很大,但不宜直接當成「screenshot、圖表、設計稿全面大幅改善」的證明。
原因很簡單:第一,它不是 Anthropic 官方發布資料;第二,單一 visual acuity 指標未必能直接映射到 screenshot 讀字、chart 數值理解、UI hierarchy 評估或設計稿問題診斷。它可以作為額外參考,但不應成為採用或換模型的唯一依據。
對產品、設計、數據或工程團隊來說,最實際不是問發布文寫得有多強,而是用自己的真實素材做小型 blind A/B test。
建議流程:
最值得優先測的素材包括:
如果問題是「Claude Opus 4.7 整體 vision 有沒有升級?」答案是有,公開資料支持這個判斷:Anthropic 明確稱它有更好的 vision,產品頁亦把 vision 放在 Opus 4.7 的核心能力之一。[9][
3]
如果問題是「screenshot、圖表、設計稿分析是否已被公開證據證明明顯好很多?」答案就要保守得多:目前有強烈正面訊號,但未有足夠公開、分類清晰的 benchmark 去完全坐實。 在真正換模型前,最好用自己的截圖、圖表和設計稿跑一輪 blind A/B test,確認提升是否出現在你的實際工作流。
Comments
0 comments