Parametr API include_blocks. Po jego włączeniu każda strona zwraca tablicę blocks z etykietami strukturalnymi i współrzędnymi przestrzennymi w kolejności czytania .
170 języków w 10 grupach językowych. Firma Mistral raportuje szczególną poprawę dokładności w przypadku rzadszych i gorzej udokumentowanych pism, w tym japońskiego, hindi i greckiego .
Samodzielne hostowanie w jednym kontenerze. Model można wdrożyć w całości lokalnie w jednym kontenerze, co stanowi kluczową zaletę dla branż regulowanych, które nie mogą wysyłać dokumentów do zewnętrznych interfejsów API .
Wejście multimodalne i ustrukturyzowane wyjście. OCR 4 akceptuje pliki PDF i obrazy (dokumenty Office po konwersji) i generuje ustrukturyzowany język Markdown i JSON, przeznaczony do integracji z potokami RAG i agentami .
Firma Mistral podaje również dobre wyniki w swoim wewnętrznym teście Crawl Multilingual, choć w przeanalizowanych źródłach nie opublikowano konkretnych liczb .
| Poziom | Cena | Szczegóły |
|---|---|---|
| Standardowy OCR | 4 USD za 1000 stron | Podstawowa ekstrakcja tekstu |
| Adnotowany (strukturalny) | 5 USD za 1000 stron | Obejmuje obwiednie, etykiety bloków i wyniki ufności |
Cennik oparty jest na liczbie stron, a nie tokenów, co jest nietypowe wśród innych modeli Mistral i odzwierciedla przypadek użycia wsadowego przetwarzania dokumentów.
OCR 4 oznacza celowe przejście od „ekstrakcji tekstu” do „rozumienia dokumentu”. Jest pozycjonowany jako podstawowa warstwa dla wyszukiwania korporacyjnego, potoków RAG i przepływów pracy agentów, gdzie kluczowe jest zachowanie układu i struktury (tabele, równania, podpisy) . Bezpośrednio konkuruje z Google Document AI, Azure Document Intelligence i otwartoźródłowymi potokami OCR, łącząc ustrukturyzowane wyjście w przystępnej cenie z opcją samodzielnego hostowania — co jest rzadkim połączeniem wśród głównych interfejsów API OCR
.
Konstrukcja jednego kontenera to kluczowa zaleta dla sektorów finansów, opieki zdrowotnej i prawnego, które wymagają suwerenności danych . Firma Mistral uczyniła również OCR 4 domyślnym modelem rozumienia dokumentów dla milionów użytkowników na platformie Le Chat
.
Comments
0 comments