Parámetro include_blocks en la API. Al activarlo, cada página devuelve un array blocks con etiquetas estructurales y coordenadas espaciales en orden de lectura .
170 idiomas en 10 grupos lingüísticos. Mistral asegura mejoras significativas en idiomas y alfabetos menos comunes, como japonés, hindi y griego .
Autoalojamiento en un solo contenedor. El modelo se puede desplegar completamente en las instalaciones de la empresa en un solo contenedor. Esto es un diferenciador clave para industrias reguladas que no pueden enviar documentos a APIs externas .
Entrada multimodal y salida estructurada. OCR 4 acepta PDFs e imágenes (los documentos de Office se convierten previamente) y genera Markdown y JSON estructurados, listos para integrarse en pipelines de RAG y agentes de IA .
Mistral también reporta puntuaciones altas en su prueba interna Crawl Multilingual, aunque no se publicaron las cifras concretas en las fuentes revisadas .
El precio se basa en páginas, no en tokens, lo que es inusual entre los modelos de Mistral y refleja su uso en lotes de documentos.
OCR 4 marca un cambio deliberado de la "extracción de texto" a la "comprensión de documentos". Se posiciona como una capa fundamental para la búsqueda empresarial, los pipelines de RAG y los flujos de trabajo con agentes, donde es crucial preservar el diseño y la estructura (tablas, ecuaciones, firmas) . Con esta estrategia, Mistral apunta directamente a competidores como Google Document AI, Azure Document Intelligence y las soluciones de OCR de código abierto, ofreciendo una combinación poco común: resultados estructurados a un precio competitivo y la opción de autoalojamiento en un contenedor
.
Comments
0 comments