結論から言うと、Grok 4.3が写真、スキャン文書、レシートから直接OCRで文字を抽出できると、公式文書で確認できる状態ではありません。
xAIのドキュメントから確認できるのは、Grokがチャットに添付された文書を検索・推論できること、またモデル機能として画像に関する能力が示されていることです。[2][
4][
13] ただし、そこから直ちに「OCR対応」「レシート解析対応」「スキャン画像からの文字抽出対応」と言い切るのは飛躍があります。
公式文書から言えること
今回の公式情報で比較的確実に言えるのは、次の3点です。
- Grokは、チャットメッセージに添付した文書を検索し、その内容について推論できます。xAIのFiles関連ドキュメントでは、公開URLのファイル参照や、アップロードした非公開ファイルをIDで参照する方法が説明され、システムが自動的に
attachment_searchを有効化するとされています。[2]
- xAIのGrokモデルページでは、モデルの能力としてText、Images、Videoが列挙されています。[
4]
- xAIにはImage Understanding、つまり画像理解に関する公式ドキュメントページがあります。[
13]
一方で、これらの文書は「OCR」という言葉や、「写真・スキャン文書・レシートから文字を逐字的に抽出する」といった具体的なワークフローを明示していません。[2][
4][
13]
したがって、正確な表現は次のようになります。
Grokにはファイル関連機能と画像理解機能がある。ただし、Grok 4.3が公式にOCRやレシート解析へ対応しているとは、今回確認できる公式文書からは言えない。[
2][
4][
13]
「画像理解」と「OCR」は同じではない
日本語では「画像を読める」と聞くと、つい「画像内の文字も正確に抜き出せるのでは」と受け止めがちです。しかし、実務上は分けて考える必要があります。
画像理解とは、画像内の物体、場面、レイアウト、視覚的な情報をモデルが扱えるという広い概念です。OCR、つまり光学文字認識は、画像内の文字を読み取り、できれば行の順序、列、金額、日付、店舗名、品目名などの構造を保ったまま取り出す、より限定的で検証しやすい処理です。
特にレシートやスキャン文書では、次のような要因で精度が大きく変わります。
- 文字が小さい
- 写真が暗い、またはピントが甘い
- 用紙が斜めになっている
- 反射や影がある
- 折り目や汚れがある
- 表や複数カラムがある
- 小数点、税込・税抜、日付形式などを正確に読む必要がある
つまり、モデルが画像を理解できることと、レシートやスキャン文書から文字を安定して抽出できることは別問題です。
確認できる能力と、推測してはいけない能力
| 項目 | 公式文書で確認できる範囲 | 自動的に推測すべきでないこと |
|---|---|---|
| 添付文書の検索・推論 | Grokは、チャットに添付された文書を検索し、その内容について推論できる。attachment_searchも自動的に使われる。[ | すべてのスキャン画像が正確にOCRされる、とは言えない。 |
| 画像理解 | Grokのモデル能力としてImagesが示され、Image Understandingの公式ページもある。[ | 画像内の文字を逐字的に抽出できるという公式保証にはならない。 |
| OCR・レシート解析 | 今回の公式情報では、OCR、スキャン文書の文字抽出、レシート解析は明記されていない。[ | 「Grok 4.3は公式にOCR対応」とは書くべきではない。 |
要するに、公式文書は「Grokには文書と画像に関する能力がある」と言う根拠にはなります。しかし、「Grok 4.3には正式なOCR機能がある」と言う根拠としては不十分です。[2][
4][
13]
第三者情報は参考にはなるが、公式確認ではない
今回の情報には、Threads、Hacker News、第三者ブログ、Xの投稿、YouTube動画なども含まれています。そこではGrok 4.3 beta、文書生成、PDF処理、チャットのエクスポートといった話題が見られます。[5][
6][
7][
8][
9][
10][
11][
12]
ただし、これらはxAIの公式OCR仕様書ではありません。ユーザーの観察、周辺情報、チュートリアルとして参考になる場合はありますが、写真OCR、スキャン文書の文字抽出、レシート解析がxAIによって正式にサポートされている証拠にはなりません。[5][
6][
7][
8][
9][
10][
11][
12]
製品ページ、営業資料、社内マニュアル、監査対応資料などに書くなら、第三者情報ではなく、公式文書で明示された機能に絞るのが無難です。
対外的にはどう書くのが安全か
書いてよい表現は、たとえば次のようなものです。
xAIのドキュメントによると、Grokはチャットに添付された文書を検索・推論でき、画像理解に関する機能も示されています。[
2][
4][
13]
一方で、次のような表現は避けた方がよいでしょう。
Grok 4.3は、レシート、スキャン文書、写真から直接OCRで文字を抽出できると公式に確認されている。
理由は単純です。今回確認できる公式文書は、そこまで具体的なOCR対応を明示していないからです。[2][
4][
13]
実際に使いたい場合の検証方法
Grokで画像内の文字を読ませる実験自体はできます。ただし、それは「公式に保証されたOCR機能」ではなく、あくまで実測による能力評価として扱うべきです。
検証するなら、次のような手順が現実的です。
- 清晰な写真、暗い写真、斜めのスキャン、長いレシート、小さい文字、表、手書き文字など、条件の異なるサンプルを用意する。
- モデルに「画像内の文字を行ごとにそのまま出力し、不確かな文字は印を付ける」よう指示する。
- 人手で作った正解データと照合し、抜け、誤字、金額の小数点、日付、店舗名、項目位置を確認する。
- 経費精算、会計、監査、法務・コンプライアンス用途では、人による確認を残すか、OCRや文書抽出を明示的にサポートする専用ツールを使う。
最終判断
Grokには、添付文書の検索・推論と画像理解に関する能力があることは、xAIの公式文書から確認できます。[2][
4][
13]
しかし、Grok 4.3が写真、スキャン文書、レシートから直接OCRで文字を抽出できるかどうかは、今回の公式証拠だけでは確認できません。[2][
4][
13]
最も安全な結論はこうです。
Grokには文書と画像に関する能力がある。ただし、Grok 4.3が公式にOCR対応しているとは、現時点の確認資料からは言えない。




