Короткий вывод: по предоставленным источникам нельзя утверждать, что Grok 4.3 официально поддерживает OCR — то есть прямое извлечение текста с фотографий, сканов или чеков. Документация xAI подтверждает более осторожную формулировку: Grok может искать и рассуждать по документам, прикреплённым к чату, а также имеет возможности работы с изображениями, включая Image Understanding.[2][
4][
13]
Но в этих официальных материалах нет явного обещания «OCR», «распознавания текста со сканов» или «парсинга чеков».[2][
4][
13]
Что именно подтверждено официально
По текущим документам xAI можно уверенно сказать три вещи:
- Grok может искать информацию в документах, прикреплённых к сообщениям чата, и рассуждать по ним. В документации также сказано, что можно ссылаться на публичный файл по URL или загрузить частный файл и обращаться к нему по ID; система при этом автоматически активирует инструмент
attachment_search.[2]
- На странице модели Grok среди возможностей перечислены Text, Images и Video.[
4]
- У xAI есть отдельная документация по Image Understanding — то есть по пониманию изображений.[
13]
Этого достаточно, чтобы говорить: у Grok есть функции, связанные с файлами и изображениями. Но этого недостаточно, чтобы писать: «Grok 4.3 официально поддерживает OCR для фото, сканов и чеков».[2][
4][
13]
Почему Image Understanding — это не то же самое, что OCR
В бытовом смысле может показаться: если модель «видит» картинку, значит, она должна уметь читать с неё текст. Для рекламного баннера или простого скриншота это иногда действительно выглядит похоже. Но в документации важны точные формулировки.
Image Understanding обычно означает, что модель может анализировать изображение: понимать сцену, объекты, визуальный контекст и информацию на картинке.[13]
OCR — более узкая и проверяемая задача: извлечь видимый текст из изображения, желательно с сохранением порядка строк, колонок, полей, дат, сумм, названий продавцов и другой структуры.
Для чеков и сканов это особенно критично. Там часто встречаются мелкий шрифт, бликующая бумага, смазанные фото, перекос, сгибы, таблицы, несколько колонок, десятичные разделители, разные форматы дат и похожие символы. Даже если модель понимает изображение, это не означает, что поставщик официально гарантирует стабильное построчное распознавание текста или структурированный разбор чеков.
Таблица: что можно и нельзя выводить из документов xAI
| Возможность | Что подтверждают текущие официальные материалы | Что нельзя автоматически утверждать |
|---|---|---|
| Работа с прикреплёнными файлами | Grok может искать и рассуждать по документам, прикреплённым к сообщениям чата; для этого используется attachment_search.[ | Это не доказывает, что любой скан или фото будут точно распознаны как текст. |
| Работа с изображениями | На странице модели указаны возможности Images, а у xAI есть документация по Image Understanding.[ | Это не равно официальной гарантии OCR для фотографий, сканов или чеков. |
| OCR и разбор чеков | В предоставленных официальных источниках нет прямого подтверждения OCR, извлечения текста из сканов или парсинга чеков.[ | Не стоит заявлять, что Grok 4.3 уже официально поддерживает такие сценарии. |
Иными словами: «Grok работает с файлами и изображениями» — корректно. «Grok 4.3 официально подтверждён как OCR-инструмент для чеков и сканов» — по этим источникам некорректно.[2][
4][
13]
А как быть с постами и сторонними обсуждениями Grok 4.3?
В доступных материалах есть и неофициальные источники: Threads, Hacker News, сторонние сайты, посты в X и ролики на YouTube. Они обсуждают Grok 4.3 beta, генерацию документов, PDF, экспорт чатов и похожие темы.[5][
6][
7][
8][
9][
10][
11][
12]
Такие публикации полезны как сигнал о пользовательском интересе и возможных экспериментах. Но они не заменяют документацию xAI. Даже если сторонний автор пишет о возможностях Grok 4.3 beta, это не является официальным подтверждением OCR, распознавания текста с фотографий или структурированного разбора чеков.[5][
6][
7][
8][
9][
10][
11][
12]
Для продуктовых страниц, коммерческих материалов, инструкций и особенно внутренних регламентов лучше опираться на то, что прямо написано в официальной документации. Если формулировки нет, безопаснее писать «не подтверждено» или «требует тестирования».
Как сформулировать корректно
Можно написать так:
Согласно документации xAI, Grok может искать и рассуждать по документам, прикреплённым к сообщениям чата; также xAI описывает возможности Grok, связанные с изображениями и Image Understanding.[
2][
4][
13]
А вот так писать не стоит:
Grok 4.3 официально поддерживает OCR и может напрямую извлекать текст из чеков, сканов и фотографий.
Проблема второй фразы в том, что предоставленные официальные источники её не подтверждают. Для такой формулировки нужна явная документация xAI по OCR, извлечению данных из документов, обработке сканов, receipt parsing или аналогичному API.
Если всё-таки нужно проверить Grok на распознавание текста
Практический тест провести можно, но его стоит считать именно тестом, а не доказательством официальной поддержки. Для более честной оценки:
- Соберите набор примеров: чёткие фото, тёмные фото, перекошенные сканы, длинные чеки, мелкий шрифт, таблицы, рукописные элементы.
- Попросите модель выводить текст построчно и помечать сомнительные символы.
- Сравните результат с ручной разметкой: пропуски, ошибки в суммах, копейках/центах, датах, названиях продавцов и расположении полей.
- Для бухгалтерии, аудита, возмещения расходов и комплаенса оставьте ручную проверку или используйте инструмент, где OCR и извлечение данных явно заявлены и документированы.
Итог
Официальные материалы xAI подтверждают, что Grok может работать с прикреплёнными документами и имеет возможности понимания изображений.[2][
4][
13] Но по предоставленным источникам нельзя подтвердить, что Grok 4.3 официально поддерживает OCR для фотографий, сканов или чеков.[
2][
4][
13]
Самая точная формулировка: у Grok есть функции для работы с файлами и изображениями, но официальное подтверждение OCR в Grok 4.3 по этим документам отсутствует.




