Mistral OCR 4, lancé les 23 et 24 juin 2026, restitue des bounding boxes au niveau paragraphe, des étiquettes de blocs typés (titre, tableau, équation, signature) et des scores de confiance par mot, en plus du texte e... Il trône en tête du classement public OlmOCRBench avec un score de 85,20 et atteint 93,07 sur Om...

Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What are the key features, benchmark performance, pricing options, and strategic context of Mistr. Article summary: Here is the fact-checked breakdown of Mistral AI's newly released OCR 4 model.. Topic tags: general, documentation, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fake numbers, clickbait thumbnails, icons, and tiny thumbnail layouts. Make it useful as an illustrative visual, not as factual e
Mistral AI a dévoilé OCR 4 les 23 et 24 juin 2026, marquant un tournant : on ne parle plus de simple extraction de texte, mais de compréhension structurée des documents. Ce modèle est conçu comme composant d'ingestion pour la recherche d'entreprise, les pipelines RAG et les workflows agentiques. Il arrive en même temps que Mistral Document AI et Mistral Medium 3.5 dans Microsoft Azure AI Foundry .
Extraction sensible à la structure. OCR 4 renvoie des bounding boxes au niveau paragraphe, des étiquettes de type de bloc (texte, titre, liste, tableau, image, équation, légende, code, références, texte marginal, en-tête, pied de page, signature) et des scores de confiance par mot, en plus du texte extrait . Les résultats sont directement exploitables pour le suivi des citations, la rédaction et le découpage sémantique, sans post-traitement
.
Paramètre API include_blocks. Une fois activé, chaque page renvoie un tableau blocks avec les étiquettes structurelles et les coordonnées spatiales, dans l'ordre de lecture .
170 langues réparties en 10 groupes linguistiques. Mistral annonce des gains de précision notables sur les écritures rares et peu dotées, notamment le japonais, l'hindi et le grec .
Hébergement sur site dans un conteneur unique. Le modèle peut être déployé intégralement sur site dans un seul conteneur, un différenciateur clé pour les secteurs réglementés qui ne peuvent pas envoyer leurs documents vers des API externes .
Entrée multimodale et sortie structurée. OCR 4 accepte les PDF et les images (les documents Office passent par une conversion) et produit du Markdown et du JSON structurés, conçus pour l'intégration avec les pipelines RAG et agentiques .
Mistral annonce également de bons scores sur son benchmark interne Crawl Multilingual, mais les chiffres bruts n'ont pas été publiés dans les sources consultées .
| Niveau | Prix | Détails |
|---|---|---|
| OCR Standard | 4 $ pour 1 000 pages | Extraction de texte de base |
| Annoté (structuré) | 5 $ pour 1 000 pages | Inclut les bounding boxes, les étiquettes de blocs et les scores de confiance |
La tarification est basée sur le nombre de pages, et non sur le nombre de tokens, ce qui est inhabituel parmi les autres modèles de Mistral et reflète le cas d'usage du traitement par lots de documents.
OCR 4 marque un virage délibéré de « l'extraction de texte » vers la « compréhension de document ». Il est positionné comme une couche fondamentale pour la recherche d'entreprise, les pipelines RAG et les workflows agentiques, où la préservation de la mise en page et de la structure (tableaux, équations, signatures) est cruciale . Il cible directement Google Document AI, Azure Document Intelligence et les pipelines OCR open source en combinant une sortie structurée à un prix concurrentiel avec une option de conteneur auto-hébergeable, une combinaison rare parmi les principales API OCR
.
La conception en conteneur unique est un différenciateur clé pour les secteurs de la finance, de la santé et du droit, qui exigent la souveraineté des données . Mistral a également fait d'OCR 4 le modèle de compréhension de documents par défaut pour des millions d'utilisateurs sur Le Chat
.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Mistral OCR 4, lancé les 23 et 24 juin 2026, restitue des bounding boxes au niveau paragraphe, des étiquettes de blocs typés (titre, tableau, équation, signature) et des scores de confiance par mot, en plus du texte e...
Mistral OCR 4, lancé les 23 et 24 juin 2026, restitue des bounding boxes au niveau paragraphe, des étiquettes de blocs typés (titre, tableau, équation, signature) et des scores de confiance par mot, en plus du texte e... Il trône en tête du classement public OlmOCRBench avec un score de 85,20 et atteint 93,07 sur OmniDocBench, tandis que des testeurs indépendants l'ont préféré dans 72 % des cas face aux concurrents.
La tarification est basée sur le nombre de pages : 4 $ pour 1 000 pages en version standard, 5 $ pour la version annotée.
Loading comments...
Comments
0 comments