signatureЭто позволяет сразу использовать результат для отслеживания цитирования, автоматического редактирования и интеллектуальной разбивки на смысловые фрагменты (chunking) без дополнительной обработки .
Параметр API include_blocks. При его активации каждая страница возвращает массив blocks со структурными метками и пространственными координатами в порядке чтения .
Поддержка 170 языков. Mistral заявляет о высокой точности, в том числе для редких и сложных языков, таких как японский, хинди и греческий .
Автономное развертывание в одном контейнере. Это ключевое отличие для регулируемых отраслей (финансы, медицина, юриспруденция), где нельзя отправлять данные на внешние серверы. Вся модель работает локально .
Гибкий ввод и структурированный вывод. На вход — PDF и изображения (офисные форматы — через конвертацию). На выход — структурированный Markdown и JSON, оптимизированные для RAG-систем .
Кроме того, Mistral сообщает о сильных результатах на собственном внутреннем тесте Crawl Multilingual, хотя точные цифры не публиковались .
| Тариф | Цена | Что входит |
|---|---|---|
| Стандартный | $4 за 1 000 страниц | Базовое извлечение текста |
| С разметкой | $5 за 1 000 страниц | Включает координаты блоков, типы блоков и оценку достоверности |
Цена фиксирована за страницу, а не за токены, что отражает ориентацию на пакетную обработку документов.
Запуск OCR 4 знаменует собой стратегический сдвиг: от «извлечения текста» к «пониманию документа». Модель позиционируется как базовый слой для корпоративных систем, где критически важно сохранить исходную структуру — таблицы, уравнения, подписи .
Прямые конкуренты — Google Document AI, Azure Document Intelligence и open-source OCR-пайплайны. Mistral пытается отыграть свою нишу за счет уникального сочетания: структурированный вывод по товарной цене и возможность полностью автономного развертывания. Такого набора нет ни у одного крупного облачного OCR-сервиса .
Возможность локального размещения — главный козырь для банков, больниц и юридических фирм, которые обязаны хранить данные в своей инфраструктуре .
Comments
0 comments