换句话说,官方证据目前只走到了“由文字生成视频”,还没有走到“理解用户提供的视频”。
网上确实能看到更积极的说法:有文章称Grok可以生成视频,也可以分析或观看视频;有第三方新闻页称Grok 4.3 Beta加入了video、slides、speech APIs;也有Substack文章称Grok 4.3 Beta具备原生视频理解和video input;X搜索结果摘要中也出现了“Analyze videos”相关描述。
视频理解是另一回事:模型需要接收一段视频作为输入,理解画面、时间顺序、人物、物体、动作和事件,再用文字回答问题。要确认这种能力,通常应当看到官方列明video input、视频上传或视频URL的API示例,以及支持格式、时长限制、大小限制、可用模型和计费方式等信息。当前可核对的xAI视频生成文件中,并没有这些视频输入规格。
所以,看到“Grok支持video”时,不应直接推论为“Grok 4.3可以看懂短视频”。关键问题只有一个:video是输出,还是输入?
如果你的工作流需要AI帮你描述镜头、总结视频内容、分析事件或解释画面,建议等到xAI官方资料明确列出以下内容,再把Grok 4.3视为正式支持视频理解:
如果问题是:“Grok 4.3现在能不能看视频或短视频,并解释里面发生了什么?”——基于目前提供的证据,答案应是:尚不能可靠确认。
可以确认的是:xAI官方文件有视频生成API,使用/v1/videos/generations和grok-imagine-video。 至于Grok 4.3的视频理解、短视频分析或逐幕解释能力,现有证据主要来自第三方文章、Substack或社交平台搜索摘要,还不足以视为官方确认。
Comments
0 comments