Mistral OCR 4, gestartet am 23.–24. Juni 2026, gibt Absatz Bounding Boxes, typisierte Block Label (Titel, Tabelle, Gleichung, Signatur) und Konfidenzwerte pro Wort neben dem extrahierten Text zurück und unterstützt 17...

Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What are the key features, benchmark performance, pricing options, and strategic context of Mistr. Article summary: Here is the fact-checked breakdown of Mistral AI's newly released OCR 4 model.. Topic tags: general, documentation, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fake numbers, clickbait thumbnails, icons, and tiny thumbnail layouts. Make it useful as an illustrative visual, not as factual e
Mistral AI hat am 23.–24. Juni 2026 OCR 4 veröffentlicht und damit den Fokus von reiner Textextraktion auf strukturiertes Dokumentenverständnis verlagert . Das Modell ist als Ingredienz-Komponente für Enterprise Search, RAG-Pipelines und agentische Workflows konzipiert und erscheint zusammen mit Mistral Document AI und Mistral Medium 3.5 in Microsoft Azure AI Foundry
.
Strukturbewusste Extraktion. OCR 4 gibt Absatz-Bounding-Boxes, Block-Typ-Label (Text, Titel, Liste, Tabelle, Bild, Gleichung, Bildunterschrift, Code, Referenzen, aside_text, Kopfzeile, Fußzeile, Signatur) sowie Konfidenzwerte pro Wort neben dem extrahierten Text zurück . Dadurch sind die Ausgaben ohne Nachbearbeitung direkt für Zitierverfolgung, Schwärzung und semantisches Chunking nutzbar
.
include_blocks API-Parameter. Ist dieser Parameter aktiviert, gibt jede Seite ein blocks-Array mit strukturellen Labels und räumlichen Koordinaten in Lesereihenfolge zurück .
170 Sprachen in 10 Sprachgruppen. Mistral berichtet von besonderen Genauigkeitsgewinnen bei selteneren und weniger ressourcenstarken Schriften, darunter Japanisch, Hindi und Griechisch .
Ein-Container-Selfhosting. Das Modell kann komplett on-premises in einem einzigen Container betrieben werden – ein entscheidender Vorteil für regulierte Branchen, die keine Dokumente an externe APIs senden dürfen .
Multimodaler Input und strukturierter Output. OCR 4 akzeptiert PDFs und Bilder (Office-Dokumente via Konvertierung) und gibt strukturiertes Markdown und JSON aus, optimiert für die Integration in RAG- und agentische Pipelines .
Mistral berichtet außerdem von starken Werten beim internen Crawl Multilingual-Benchmark, obwohl die genauen Zahlen in den geprüften Quellen nicht veröffentlicht wurden .
| Stufe | Preis | Details |
|---|---|---|
| Standard OCR | 4 $ pro 1.000 Seiten | Basis-Textextraktion |
| Annotiert (strukturiert) | 5 $ pro 1.000 Seiten | Enthält Bounding Boxes, Block-Label und Konfidenzwerte |
Die Preisgestaltung erfolgt seitenbasiert, nicht tokenbasiert, was bei Mistrals anderen Modellen ungewöhnlich ist und den Anwendungsfall der Dokumentenverarbeitung widerspiegelt.
OCR 4 markiert einen bewussten Wandel von der „Textextraktion” hin zum „Dokumentenverständnis”. Es wird als grundlegende Schicht für Enterprise Search, RAG-Pipelines und agentische Workflows positioniert, bei denen die Erhaltung von Layout und Struktur (Tabellen, Gleichungen, Signaturen) entscheidend ist . Das Modell zielt direkt auf Google Document AI, Azure Document Intelligence und Open-Source-OCR-Pipelines ab, indem es strukturierte Ausgaben zu günstigen Preisen mit einer selbst hostbaren Container-Option kombiniert – eine seltene Kombination unter den großen OCR-APIs
.
Das Ein-Container-Design ist ein entscheidender Unterschied für regulierte Branchen, die auf Datensouveränität angewiesen sind . Mistral hat OCR 4 außerdem zum Standard-Dokumentenverständnismodell für Millionen von Nutzern auf Le Chat gemacht
.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Mistral OCR 4, gestartet am 23.–24. Juni 2026, gibt Absatz Bounding Boxes, typisierte Block Label (Titel, Tabelle, Gleichung, Signatur) und Konfidenzwerte pro Wort neben dem extrahierten Text zurück und unterstützt 17...
Mistral OCR 4, gestartet am 23.–24. Juni 2026, gibt Absatz Bounding Boxes, typisierte Block Label (Titel, Tabelle, Gleichung, Signatur) und Konfidenzwerte pro Wort neben dem extrahierten Text zurück und unterstützt 17... Das Modell führt die öffentliche OlmOCRBench Rangliste mit 85,20 Punkten an und erreicht 93,07 Punkte im OmniDocBench.
Loading comments...
Comments
0 comments