Mistral OCR 4, rilasciato il 23 24 giugno 2026, non si limita a estrarre testo, ma restituisce bounding box a livello di paragrafo, etichette di blocco (titolo, tabella, equazione, firma) e punteggi di confidenza paro... Il modello ha conquistato il primo posto nella classifica pubblica OlmOCRBench con un punteggio...

Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What are the key features, benchmark performance, pricing options, and strategic context of Mistr. Article summary: Here is the fact-checked breakdown of Mistral AI's newly released OCR 4 model.. Topic tags: general, documentation, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fake numbers, clickbait thumbnails, icons, and tiny thumbnail layouts. Make it useful as an illustrative visual, not as factual e
Mistral AI ha rilasciato OCR 4 il 23-24 giugno 2026, segnando un passaggio dalla semplice estrazione di testo a una vera comprensione strutturata dei documenti. Il modello è progettato come componente di ingestione per la ricerca aziendale, pipeline RAG e flussi di lavoro agentici, ed è stato lanciato insieme a Mistral Document AI e Mistral Medium 3.5 su Microsoft Azure AI Foundry .
Estrazione sensibile alla struttura. OCR 4 restituisce bounding box a livello di paragrafo, etichette di tipo di blocco (testo, titolo, elenco, tabella, immagine, equazione, didascalia, codice, riferimenti, testo a margine, intestazione, piè di pagina, firma) e punteggi di confidenza per ogni parola, oltre al testo estratto . Questo rende gli output direttamente utilizzabili per il tracciamento delle citazioni, la redazione e il chunking semantico senza necessità di post-elaborazione
.
Parametro API include_blocks. Se abilitato, ogni pagina restituisce un array blocks con etichette strutturali e coordinate spaziali in ordine di lettura .
170 lingue in 10 gruppi linguistici. Mistral riporta particolari miglioramenti nell'accuratezza su scritture rare e con meno risorse, tra cui giapponese, hindi e greco .
Self-hosting in un singolo contenitore. Il modello può essere distribuito interamente on-premise in un unico contenitore, un elemento chiave di differenziazione per i settori regolamentati che non possono inviare documenti ad API esterne .
Input multimodale e output strutturato. OCR 4 accetta PDF e immagini (documenti Office tramite conversione) e produce output strutturati in Markdown e JSON, progettati per l'integrazione con pipeline RAG e agentiche .
Mistral riporta anche buoni punteggi sul suo benchmark interno Crawl Multilingual, sebbene i dati grezzi non siano stati pubblicati nelle fonti esaminate .
| Livello | Prezzo | Dettagli |
|---|---|---|
| OCR Standard | 4 $ per 1.000 pagine | Estrazione di testo di base |
| Annotato (strutturato) | 5 $ per 1.000 pagine | Include bounding box, etichette di blocco e punteggi di confidenza |
Il prezzo è basato sulle pagine, non sui token, una scelta insolita tra gli altri modelli Mistral che riflette il caso d'uso del batch di documenti.
OCR 4 segna un deliberato spostamento dall'"estrazione di testo" alla "comprensione dei documenti". È posizionato come livello fondamentale per la ricerca aziendale, le pipeline RAG e i flussi di lavoro agentici, dove è fondamentale preservare l'impaginazione e la struttura (tabelle, equazioni, firme) . Punta direttamente a Google Document AI, Azure Document Intelligence e alle pipeline OCR open-source, combinando un output strutturato a prezzi competitivi con un'opzione di contenitore auto-ospitabile, una combinazione rara tra le principali API OCR
.
Il design a contenitore singolo è un elemento chiave di differenziazione per i settori finanziario, sanitario e legale che richiedono la sovranità dei dati . Mistral ha inoltre reso OCR 4 il modello predefinito per la comprensione dei documenti per milioni di utenti su Le Chat
.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Mistral OCR 4, rilasciato il 23 24 giugno 2026, non si limita a estrarre testo, ma restituisce bounding box a livello di paragrafo, etichette di blocco (titolo, tabella, equazione, firma) e punteggi di confidenza paro...
Mistral OCR 4, rilasciato il 23 24 giugno 2026, non si limita a estrarre testo, ma restituisce bounding box a livello di paragrafo, etichette di blocco (titolo, tabella, equazione, firma) e punteggi di confidenza paro... Il modello ha conquistato il primo posto nella classifica pubblica OlmOCRBench con un punteggio di 85,20, e ha ottenuto 93,07 su OmniDocBench [4][6].
Loading comments...
Comments
0 comments