換句話講,官方證據目前只去到「由文字生成影片」,未去到「理解用戶提供的影片」。
可見的第三方資料確實有更進取的講法:有文章稱 Grok 可以 generate videos 同 analyze/watch videos;有第三方新聞頁聲稱 Grok 4.3 Beta 加入 video、slides、speech APIs;亦有 Substack 文章聲稱 Grok 4.3 Beta 有 native video understanding 和 video input;X 搜尋結果摘要亦出現 Analyze videos 相關描述。
影片理解則是另一回事:模型要接收一段影片作為輸入,理解畫面、時間順序、人物、物件、動作和事件,再用文字回答問題。要確認這種能力,通常需要見到官方列明 video input、影片上載或影片 URL 的 API 範例、支援格式、長度限制、大小限制、可用模型和計費方式。這些資料未在目前可核對的 xAI 影片生成文件中出現。
所以,見到「Grok 支援 video」時,不應直接推論成「Grok 4.3 可以睇懂短片」。最關鍵的分別是:video 是輸出,還是輸入。
如果工作流程需要 AI 幫你描述鏡頭、總結影片內容、分析事件或解釋畫面,建議等到 xAI 官方資料清楚列出以下內容,才把 Grok 4.3 視為正式支援影片理解:
如果問題是「Grok 4.3 而家可唔可以睇影片/短片,並解釋入面發生緊乜?」——基於目前提供的證據,答案應該是:未能可靠確認。
可確認的是:xAI 官方文件有影片生成 API,使用 /v1/videos/generations 和 grok-imagine-video。 至於 Grok 4.3 的影片理解、短片分析或逐幕解釋能力,現有證據主要來自第三方文章、Substack 或社交搜尋摘要,未足以當成官方確認。
Comments
0 comments