studioglobal
熱門發現
答案已發布2 來源

Claude Opus 4.7 Vision:3.75 MP 對 screenshot、文件同 automation 意味住咩

Claude Opus 4.7 係首個支援高解像度影像輸入嘅 Claude model,限制由 1568 px / 1.15 MP 提升至 2576 px / 3.75 MP,百萬像素數量約多 3.3 倍。[4] Anthropic 指出,呢個升級特別關乎 computer use,以及理解 screenshot、artifact 同文件;亦改善 pointing、measuring、counting、bounding box 等 perception/localization 任務。[4] 官方資料未有公布「screenshot OCR」或「文件 OCR」提升幾多百分比,所以實際部署前仍然要用自己嘅文件同 UI 截圖做 be...

17K0
Minh họa Claude Opus 4.7 phân tích screenshot giao diện và tài liệu độ phân giải cao
Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệuHình minh họa AI về khả năng phân tích screenshot và tài liệu độ phân giải cao của Claude Opus 4.7.
AI 提示

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 Vision: 3.75 MP thay đổi gì cho screenshot và tài liệu?. Article summary: Claude Opus 4.7 Vision nâng cấp đáng kể nhất ở giới hạn ảnh đầu vào: 2576 px / 3.75 MP thay vì 1568 px / 1.15 MP, tức khoảng 3,3 lần số megapixel.. Topic tags: ai, anthropic, claude, computer vision, multimodal ai. Reference image context from search candidates: Reference image 1: visual subject "# Claude Opus 4.7 Is Here - Less Supervision, Better Vision. Anthropic releases Claude Opus 4.7 with 3x higher resolution vision, a new xhigh effort level, task budgets for cost co" source context "Claude Opus 4.7 Is Here - Less Supervision, Better Vision | Awesome Agents" Reference image 2: visual subject "Flat vector illustration on an orange background showing a sequence of small robots working left to right—thinking at a laptop, wri

openai.com

Claude Opus 4.7 Vision 今次值得留意嘅,唔係單純一句「睇圖更好」,而係影像輸入解像度上限提高咗。Anthropic 表示,Opus 4.7 係第一個支援 high-resolution image support 嘅 Claude model;影像限制由 1568 px / 1.15 MP 提升到 2576 px / 3.75 MP。[4]

對 screenshot、文件、UI 自動化流程嚟講,呢個分別幾實際。由 1.15 MP 去到 3.75 MP,即係百萬像素數量大約 3.26 倍,通常可以理解成約 3.3 倍。當畫面入面有細字、表格、介面標籤、圖表註腳或者密集版面時,模型可以喺推理前保留更多視覺資訊。[4]

Opus 4.7 Vision 主要改咗啲咩?

改動Anthropic 公布內容實際意思
支援更高解像度影像Opus 4.7 係首個有 high-resolution image support 嘅 Claude model,限制由 1568 px / 1.15 MP 提升至 2576 px / 3.75 MP。[4]輸入圖片可以保留更多細節,尤其係細字、複雜 UI 同資訊密集文件。[4]
聚焦 screenshot、artifact、文件Anthropic 指出,呢個解像度升級對 computer use,以及理解 screenshot、artifacts、documents 特別重要。[4]目標唔係只係自然相片,而係包含大量文字同版面資訊嘅工作場景。[4]
Low-level perception 改善Anthropic 提到 pointing、measuring、counting 等任務有改善。[4]適合問「邊個位置」、「有幾多個」、「相距幾遠」呢類細節問題。[4]
Image localization 改善Opus 4.7 改善影像定位,包括 bounding box 同自然影像物件偵測。[4]對需要框住按鈕、輸入欄、圖表區域或特定物件嘅 workflow 有幫助。[4]
座標同原圖像素 1:1模型返回嘅座標而家同圖片實際像素 1:1 對應。[4]做 automation 或 computer use 時,少咗自行計 scale、轉座標嘅麻煩。[4]

3.75 MP 對輸入圖片有咩實際意思?

核心變化係:Opus 4.7 可以處理更高上限嘅圖片。如果以前一張 screenshot 或文件圖片要被大幅縮細先符合輸入限制,細字、按鈕標籤、表格線、圖表註解等資訊可能未到模型分析前已經流失。升到 2576 px / 3.75 MP 後,同一張圖喺一次分析入面可以保留更多視覺細節。[4]

不過,要講得準確啲:呢個係「可接收更多像素」嘅升級,唔等於所有模糊圖、過度壓縮圖片或者質素差嘅掃描件都一定會讀啱。最大價值通常會出現喺源圖本身夠清,但內容太密、舊解像度上限會變成瓶頸嘅情況。[4]

點解 screenshot 會特別受惠?

Screenshot 嘅難度,往往唔係畫面「靚唔靚」,而係細節太多:按鈕、menu、icon、輸入欄、錯誤訊息、表格、側欄、圖表標籤,全部可能細細粒又貼得好近。Anthropic 明確講到,Opus 4.7 嘅高解像度影像支援對 computer use 同 screenshot 理解特別重要。[4]

對 automation 嚟講,更關鍵係座標 1:1。以前如果圖片被 resize,模型講出嚟嘅位置可能要再計比例先對得返原圖。Anthropic 表示 Opus 4.7 返回嘅座標而家同實際圖片像素 1:1 對應,對 click、拖拉、框選、檢查 UI 位置呢類流程會直接好多。[4]

文件、slide、artifact:重點係「版面好密」

文件同 slide 通常唔只係一段文字。佢哋可能有表格、圖表、細小註腳、座標軸標籤、header、footer、多欄排版,甚至混合圖像同文字。Anthropic 將 documents 同 artifacts 列入今次 Vision 升級受惠嘅內容類型。[4]

Anthropic 嘅 Claude Opus 4.7 產品頁亦將呢個 model 放喺 vision 改善,以及 interfaces、slides、docs 等專業輸出場景之中。[1] 所以如果你嘅工作流包括讀取投影片截圖、分析文件 layout、檢查圖片入面嘅文件內容,Opus 4.7 值得用真實樣本測一次,而唔係只靠一兩張 demo 圖判斷。[1][4]

Localization:唔止要讀到,仲要指得準

Vision 任務好多時唔係「睇到有咩」就夠,仲要知道「喺邊度」。Anthropic 提到 Opus 4.7 改善 image localization,包括 bounding box、自然影像物件偵測,以及 pointing、measuring、counting 等低層次 perception 任務。[4]

放返落 screenshot 同文件場景,呢點好實用。例如:唔只知道畫面有一個提交按鈕,仲要知道按鈕位置;唔只知道文件有一個圖表,仲要框出圖表範圍;唔只讀到表格入面有數字,仲要分清係邊一行邊一欄。呢啲都係 Anthropic 今次描述 Opus 4.7 Vision 改善方向所涵蓋嘅場景。[4]

但唔好直接當成「OCR 提升 X%」

要留意,呢批官方資料未有提供一個獨立 benchmark,例如「screenshot OCR 準確率提升幾多百分比」或者「文件 OCR 提升幾多百分比」。[1][4] 所以最穩陣嘅講法係:Opus 4.7 Vision 透過更高解像度輸入、改善 perception/localization,以及 1:1 像素座標,令 screenshot、artifact、文件同 computer use 場景更值得期待。[4]

換句話講,如果以往樽頸係圖片被壓細、細字同 UI 細節流失,今次升級有明顯理由會幫到手。但如果你要做產品級 OCR,仍然唔應該將 3.75 MP 直接換算成一個固定準確率提升;實際效果要睇你嘅文件類型、截圖質素、版面密度同評測方法。[1][4]

點樣用真實 workflow 測 Opus 4.7 Vision?

如果你諗住將 Opus 4.7 放入產品或內部流程,建議唔好只試一兩張好靚嘅示範圖,而係分場景測:

  1. 高解像度圖片:用同一張細字密集圖片,分別測原圖同低解像度 resize 版本,睇更多像素輸入有冇實際改善。[4]
  2. UI screenshot:要求模型指出按鈕、輸入欄、錯誤訊息、menu 或特定 panel,檢查佢係咪識分細節同上下文。
  3. 文件或 slide:測表格、細註腳、圖表標籤、多欄版面,因為 documents 同 artifacts 係 Anthropic 明確提到嘅受惠類型。[4]
  4. Automation / computer use:要求模型返回座標或 bounding box,再驗證座標係咪真係同原圖像素 1:1 對得上。[4]
  5. OCR 評測:自己準備代表性文件集,量度讀字、欄位抽取、表格理解嘅錯誤率;因為官方未有公布 screenshot 或文件 OCR 專項百分比數字。[1][4]

總結

Claude Opus 4.7 Vision 最值得留意嘅三點係:影像輸入上限升到 2576 px / 3.75 MP、perception/localization 改善,以及模型返回座標同原圖像素 1:1 對應。[4]

對 screenshot、文件、artifact 同 computer use,呢啲都係實在改動;尤其係畫面有好多細字、UI 元件或者需要精準定位時。不過,如果目標係大規模文件 OCR 或高可靠度自動化,仍然應該用自己嘅真實數據做 benchmark,而唔係單靠解像度升級去推斷一個固定提升幅度。[1][4]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • Claude Opus 4.7 係首個支援高解像度影像輸入嘅 Claude model,限制由 1568 px / 1.15 MP 提升至 2576 px / 3.75 MP,百萬像素數量約多 3.3 倍。[4]
  • Anthropic 指出,呢個升級特別關乎 computer use,以及理解 screenshot、artifact 同文件;亦改善 pointing、measuring、counting、bounding box 等 perception/localization 任務。[4]
  • 官方資料未有公布「screenshot OCR」或「文件 OCR」提升幾多百分比,所以實際部署前仍然要用自己嘅文件同 UI 截圖做 benchmark。[1][4]

人們還問

「Claude Opus 4.7 Vision:3.75 MP 對 screenshot、文件同 automation 意味住咩」的簡短答案是什麼?

Claude Opus 4.7 係首個支援高解像度影像輸入嘅 Claude model,限制由 1568 px / 1.15 MP 提升至 2576 px / 3.75 MP,百萬像素數量約多 3.3 倍。[4]

首先要驗證的關鍵點是什麼?

Claude Opus 4.7 係首個支援高解像度影像輸入嘅 Claude model,限制由 1568 px / 1.15 MP 提升至 2576 px / 3.75 MP,百萬像素數量約多 3.3 倍。[4] Anthropic 指出,呢個升級特別關乎 computer use,以及理解 screenshot、artifact 同文件;亦改善 pointing、measuring、counting、bounding box 等 perception/localization 任務。[4]

接下來在實務上我該做什麼?

官方資料未有公布「screenshot OCR」或「文件 OCR」提升幾多百分比,所以實際部署前仍然要用自己嘅文件同 UI 截圖做 benchmark。[1][4]

接下來我應該探索哪個相關主題?

繼續“Claude Security 公測版:Anthropic 點樣用 AI 幫企業掃 code 漏洞”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「xAI Grok 4.3 API 解讀:1M context、低 token 價與語音平台野心」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

Tìm kiếm và kiểm chứng thông tin: Vision của Opus 4.7 nâng cấp gì cho ảnh độ phân giải cao, screenshot và tài liệu?

Studio Global AI12 來源

引用的答案

Nếu bạn đang nói tới Claude Opus 4.7 của Anthropic, thì phần Vision được nâng cấp rõ nhất là hỗ trợ ảnh độ phân giải cao hơn rất nhiều, cộng với cải thiện ở việc đọc ảnh/screenshot/tài liệu và các tác vụ định vị chi tiết trong ảnh.[1][4] Tuy vậy, Anthropic chưa công bố benchmark tách riêng cho “screenshot” hay “document OCR” để định lượng chính xác mức tăng theo từng loại nội dung, nên phần đó chỉ có thể kết luận ở mức “được tối ưu hơn”, chưa có số đo chi tiết công khai.[1][4]

  • Opus 4.7 là model Claude đầu tiên có “high-resolution image support”.[4]

  • Giới hạn ảnh tăng lên 2576 px / 3.75 MP, so với mức cũ 1568 px / 1.15 MP.[4]

  • Điều này tương đương lượng điểm ảnh đầu vào tăng khoảng 3.3 lần, nên về thực tế model có nhiều chi tiết hơn để đọc chữ nhỏ, UI nhỏ và bố cục dày thông tin trong ảnh.[4]

  • Với ảnh độ phân giải cao, Anthropic nói nâng cấp này đặc biệt quan trọng cho các workflow “computer use” và cho việc hiểu screenshot, artifact và tài liệu.[4]

  • Nói ngắn gọn: screenshot giao diện, ảnh chụp màn hình có nhiều chữ nhỏ, và tài liệu nhiều chi tiết là đúng nhóm use case mà Anthropic nhắm tới khi nâng cấp Vision ở 4.7.[4]

  • Ngoài tăng độ phân giải, Anthropic còn nói Opus 4.7 cải thiện “low-level perception”, gồm các tác vụ như chỉ điểm, đo đạc, đếm và các tác vụ tương tự.[4]

  • Họ cũng nói khả năng “image localization” được cải thiện, gồm định vị bằng bounding box và phát hiện đối tượng trong ảnh tự nhiên.[4]

  • Với screenshot và tài liệu, cải tiến này hữu ích khi cần chỉ đúng vị trí nút, ô nhập liệu, biểu đồ hoặc vùng nội dung cụ thể trong ảnh.[4]

  • Một thay đổi kỹ thuật đáng chú ý là tọa độ model trả về nay là 1:1 với pixel thật của ảnh, nên không còn phải tự tính hệ số scale khi map tọa độ lên ảnh.[4]

  • Điểm này đặc biệt hữu ích cho automation/computer use và các bài toán click/chỉ vùng trên screenshot.[4]

  • Ở mức mô tả sản phẩm, Anthropic cũng nói Opus 4.7 có “substantially better vision”, có thể nhìn ảnh ở độ phân giải cao hơn, và nhờ đó cho kết quả tốt hơn trong các đầu ra chuyên nghiệp như interfaces, slides và docs.[1][2]

  • Trên trang sản phẩm, Anthropic tiếp tục mô tả Opus 4.7 mạnh hơn ở coding, vision và các tác vụ nhiều bước, đồng thời cho hiệu năng tốt trên slides và docs trong workflow doanh nghiệp.[2]

  • Điểm cần kiểm chứng thận trọng: Anthropic không nêu công khai một con số riêng như “OCR tốt hơn X%” cho screenshot hay tài liệu.[1][4]

  • Vì vậy, phát biểu an toàn nhất là: Vision của Opus 4.7 được nâng cấp bằng đầu vào ảnh sắc nét hơn, hiểu screenshot/tài liệu tốt hơn theo mô tả chính thức, và cải thiện ở định vị/nhận biết chi tiết; còn mức tăng chính xác theo từng hạng mục thì hiện chưa có số liệu công khai đủ để khẳng định.[1][4]

Nếu bạn muốn, mình có thể làm tiếp 1 trong 2 việc:

  • so sánh riêng Opus 4.7 với Opus 4.6 cho use case OCR/screenshot/document;
  • hoặc trích nguyên văn các đoạn official của Anthropic và diễn giải sang tiếng Việt ngắn gọn.

來源