つまり、公式情報として言えるのは「テキストから動画を作る」までであり、「渡した動画を見て理解する」までではありません。
一方で、より踏み込んだ説明をしている外部情報はあります。たとえば、Grokが動画を生成できるだけでなく、動画を分析・視聴できるとする記事や、Grok 4.3 Betaにvideo、slides、speech APIsが加わったとする第三者ニュース、Grok 4.3 Betaにnative video understandingやvideo inputがあるとするSubstack記事、さらにX検索結果上の「Analyze videos」といった記述です。
ただし、これらはxAIの公式APIドキュメントや正式な製品仕様そのものではありません。動画入力のような実務上重要な機能では、対応モデル、入力形式、ファイル形式、長さや容量の制限、料金、提供範囲が公式に示されているかが重要です。現時点で確認できる公式文書は、動画生成の仕様を示すものにとどまります。
動画生成は、ユーザーのプロンプトをもとに新しい動画を作る機能です。xAI Docsの videos/generations と grok-imagine-video の例は、このタイプの機能に当たります。
動画理解は、既にある動画をAIに入力し、画面の内容、時間の流れ、人物、物体、動作、出来事を読み取らせたうえで、質問に答えさせる機能です。これを確認するには、通常、公式ドキュメント上で video input
要するに、「video対応」と書かれていても、それが 出力として動画を作る という意味なのか、入力として動画を理解する という意味なのかを見分ける必要があります。
動画レビュー、SNS向け短尺動画の内容説明、撮影素材へのフィードバックなどに使いたい場合は、次のような項目がxAI公式から示されるまで慎重に見たほうがよいでしょう。
「Grok 4.3は今、短尺動画を見て、何が起きているか説明できるのか」という問いへの答えは、現時点では信頼できる形で確認できない です。
Comments
0 comments