這代表三件事:
換句話講,官方證據目前只去到「由文字生成影片」,未去到「理解用戶提供的影片」。
可見的第三方資料確實有更進取的講法:有文章稱 Grok 可以 generate videos 同 analyze/watch videos;有第三方新聞頁聲稱 Grok 4.3 Beta 加入 video、slides、speech APIs;亦有 Substack 文章聲稱 Grok 4.3 Beta 有 native video understanding 和 video input;X 搜尋結果摘要亦出現 Analyze videos 相關描述。[4][
5][
6][
10]
這些資料可以視為線索,但它們不是 xAI 官方 API 文件或正式產品規格。對於一項實際功能,尤其涉及影片輸入、檔案格式、長度限制、模型名稱、價格和可用範圍的功能,第三方描述未足以取代官方文件。[4][
5][
6][
10][
12]
| 要確認的問題 | 目前可見證據 | 判斷 |
|---|---|---|
| xAI 是否有官方影片功能? | xAI Docs 有 Video Generation 頁,示例使用 /v1/videos/generations 與 grok-imagine-video。[ | 確認:影片生成 |
| Grok 4.3 是否正式支援 video input? | 第三方來源有相關聲稱,但提供來源中未見 xAI 官方 video input 規格。[ | 未能官方確認 |
| Grok 是否可以 watch/analyze videos? | 有第三方文章與 X 搜尋摘要作出相關說法。[ | 只屬線索 |
| 是否可以放心用 Grok 4.3 逐幕解釋短片? | 官方文件目前只清楚展示影片生成流程。[ | 證據不足 |
影片生成是模型根據 prompt 產生一條新影片。xAI 官方文件展示的 videos/generations 流程正屬於這類能力。[12]
影片理解則是另一回事:模型要接收一段影片作為輸入,理解畫面、時間順序、人物、物件、動作和事件,再用文字回答問題。要確認這種能力,通常需要見到官方列明 video input、影片上載或影片 URL 的 API 範例、支援格式、長度限制、大小限制、可用模型和計費方式。這些資料未在目前可核對的 xAI 影片生成文件中出現。[12]
所以,見到「Grok 支援 video」時,不應直接推論成「Grok 4.3 可以睇懂短片」。最關鍵的分別是:video 是輸出,還是輸入。
如果工作流程需要 AI 幫你描述鏡頭、總結影片內容、分析事件或解釋畫面,建議等到 xAI 官方資料清楚列出以下內容,才把 Grok 4.3 視為正式支援影片理解:
video inputvideo understandinggrok-imagine-video 這類影片生成模型。[如果問題是「Grok 4.3 而家可唔可以睇影片/短片,並解釋入面發生緊乜?」——基於目前提供的證據,答案應該是:未能可靠確認。
可確認的是:xAI 官方文件有影片生成 API,使用 /v1/videos/generations 和 grok-imagine-video。[12] 至於 Grok 4.3 的影片理解、短片分析或逐幕解釋能力,現有證據主要來自第三方文章、Substack 或社交搜尋摘要,未足以當成官方確認。[
4][
5][
6][
10]
import os import os import time import time import requests import requests headers = {headers = { "Content-Type": "application/json", "Content-Type": "application/json", "Authorization": f"Bearer {os.environ['XAI API KEY']}", "Authorization": f "Bearer {os...
Comments
0 comments