include_blocks API-parameter. Als deze optie is ingeschakeld, geeft elke pagina een blocks-array terug met structurele labels en coördinaten in leesvolgorde .
170 talen in 10 taalgroepen. Mistral meldt specifieke nauwkeurigheidswinsten bij zeldzame en minder ondersteunde schriften, waaronder Japans, Hindi en Grieks .
Zelf-hostend in één container. Het model kan volledig on-premise worden geïmplementeerd in één container. Dit is een belangrijk pluspunt voor gereguleerde sectoren die geen documenten naar externe API's mogen sturen .
Multimodale invoer en gestructureerde uitvoer. OCR 4 accepteert pdf's en afbeeldingen (Office-documenten via conversie) en levert gestructureerde Markdown en JSON. Het is ontworpen voor integratie met RAG- en agentic-pijplijnen .
Mistral rapporteert ook goede scores op de interne Crawl Multilingual-benchmark, hoewel de exacte cijfers in de bronnen niet zijn genoemd .
| Variant | Prijs | Details |
|---|---|---|
| Standaard OCR | $4 per 1.000 pagina's | Basistekstextractie |
| Geannoteerd (gestructureerd) | $5 per 1.000 pagina's | Inclusief bounding boxes, bloklabels en betrouwbaarheidsscores |
De prijs is per pagina, niet per token – ongebruikelijk binnen het Mistral-assortiment en passend bij het gebruik in grote documentbatches.
OCR 4 markeert een bewuste verschuiving van 'tekstherkenning' naar 'documentbegrip'. Het wordt gepositioneerd als een fundamentele laag voor enterprise-zoekmachines, RAG-pijplijnen en agentic-workflows, waar het behoud van lay-out en structuur (tabellen, formules, handtekeningen) essentieel is . Het richt zich rechtstreeks op Google's Document AI, Azure Document Intelligence en open-source OCR-pijplijnen, door gestructureerde uitvoer tegen concurrerende prijzen te combineren met een zelf-hostende container – uniek onder grote OCR-API's
.
Comments
0 comments