Mistral AI ने OCR 4 लॉन्च किया, जो 23 24 जून 2026 को आया। यह सिर्फ़ टेक्स्ट नहीं, बल्कि पैराग्राफ़ लेवल बाउंडिंग बॉक्स, ब्लॉक टाइप (टाइटल, टेबल, इक्वेशन, सिग्नेचर) और प्रति शब्द कॉन्फिडेंस स्कोर भी देता है। [1][7][10] OCR 4 ने OlmOCRBench लीडरबोर्ड पर 85.20 और OmniDocBench पर 93.07 स्कोर किया, और ब्लाइंड टेस्ट में 7...

Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What are the key features, benchmark performance, pricing options, and strategic context of Mistr. Article summary: Here is the fact-checked breakdown of Mistral AI's newly released OCR 4 model.. Topic tags: general, documentation, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fake numbers, clickbait thumbnails, icons, and tiny thumbnail layouts. Make it useful as an illustrative visual, not as factual e
Mistral AI ने 23–24 जून 2026 को अपना नया OCR 4 मॉडल लॉन्च किया, जो सिर्फ़ प्लेन टेक्स्ट निकालने से हटकर डॉक्यूमेंट को स्ट्रक्चर्ड तरीके से समझने पर फोकस करता है। यह मॉडल एंटरप्राइज सर्च, RAG पाइपलाइन और एजेंटिक वर्कफ़्लो के लिए एक इंजेशन कंपोनेंट के तौर पर डिज़ाइन किया गया है। इसे Mistral Document AI और Mistral Medium 3.5 के साथ Microsoft Azure AI Foundry में भी उपलब्ध कराया गया है।
स्ट्रक्चर-अवेयर एक्सट्रैक्शन। OCR 4 सिर्फ़ टेक्स्ट नहीं, बल्कि पैराग्राफ़-लेवल बाउंडिंग बॉक्स, ब्लॉक-टाइप लेबल (text, title, list, table, image, equation, caption, code, references, aside_text, header, footer, signature) और हर शब्द का कॉन्फिडेंस स्कोर भी रिटर्न करता है। इससे आउटपुट को बिना किसी पोस्ट-प्रोसेसिंग के सीधे साइटेशन ट्रैकिंग, रिडक्शन और सिमैंटिक चंकिंग में इस्तेमाल किया जा सकता है।
include_blocks API पैरामीटर। जब इसे इनेबल किया जाता है, तो हर पेज एक blocks ऐरे लौटाता है जिसमें स्ट्रक्चरल लेबल और स्पेशियल कोऑर्डिनेट्स रीडिंग ऑर्डर में होते हैं।
170 भाषाएँ, 10 भाषा समूहों में। Mistral का दावा है कि दुर्लभ और कम-संसाधन वाली लिपियों, जैसे जापानी, हिंदी और ग्रीक, में विशेष सुधार हुआ है।
सिंगल-कंटेनर सेल्फ-होस्टिंग। इस मॉडल को एक ही कंटेनर में पूरी तरह से ऑन-प्रिमाइसेस डिप्लॉय किया जा सकता है। यह रेगुलेटेड इंडस्ट्रीज़ (जैसे बैंकिंग, हेल्थकेयर, लीगल) के लिए एक बड़ा फ़ायदा है जो अपना डेटा बाहरी APIs को नहीं भेज सकते।
मल्टीमॉडल इनपुट और स्ट्रक्चर्ड आउटपुट। OCR 4 PDF और इमेजेज़ को इनपुट के रूप में लेता है (Office डॉक्यूमेंट्स को कन्वर्ज़न के ज़रिए) और स्ट्रक्चर्ड Markdown और JSON फ़ॉर्मेट में आउटपुट देता है, जो RAG और एजेंटिक पाइपलाइनों में इंटीग्रेशन के लिए ऑप्टिमाइज़ है।
Mistral ने अपने आंतरिक Crawl Multilingual बेंचमार्क पर भी मज़बूत स्कोर की रिपोर्ट दी है, हालांकि समीक्षा किए गए स्रोतों में कच्चे आंकड़े प्रकाशित नहीं किए गए थे।
| टियर | कीमत | विवरण |
|---|---|---|
| स्टैंडर्ड OCR | $4 प्रति 1,000 पेज | बेसिक टेक्स्ट एक्सट्रैक्शन |
| एनोटेटेड (स्ट्रक्चर्ड) | $5 प्रति 1,000 पेज | इसमें बाउंडिंग बॉक्स, ब्लॉक लेबल और कॉन्फिडेंस स्कोर शामिल हैं |
मूल्य निर्धारण पेज-आधारित है, टोकन-आधारित नहीं, जो Mistral के अन्य मॉडलों में असामान्य है और डॉक्यूमेंट-बैच यूज़ केस को दर्शाता है।
OCR 4 "टेक्स्ट एक्सट्रैक्शन" से "डॉक्यूमेंट अंडरस्टैंडिंग" की ओर एक जानबूझकर किया गया बदलाव है। इसे एंटरप्राइज सर्च, RAG पाइपलाइन और एजेंटिक वर्कफ़्लो के लिए एक मूलभूत लेयर के रूप में रखा गया है जहाँ लेआउट और स्ट्रक्चर (टेबल, इक्वेशन, सिग्नेचर) को संरक्षित करना महत्वपूर्ण है। यह सीधे Google के Document AI, Azure Document Intelligence और ओपन-सोर्स OCR पाइपलाइनों को टार्गेट करता है, क्योंकि यह कमोडिटी प्राइसिंग पर स्ट्रक्चर्ड आउटपुट और सेल्फ-होस्ट करने योग्य कंटेनर विकल्प—जो प्रमुख OCR APIs में एक दुर्लभ संयोजन है—प्रदान करता है।
सिंगल-कंटेनर डिज़ाइन वित्त, स्वास्थ्य सेवा और कानूनी क्षेत्रों के लिए एक प्रमुख अंतर है जहाँ डेटा संप्रभुता (डेटा सॉवरेन्टी) की आवश्यकता होती है। Mistral ने Le Chat पर लाखों उपयोगकर्ताओं के लिए OCR 4 को डिफ़ॉल्ट डॉक्यूमेंट-अंडरस्टैंडिंग मॉडल भी बना दिया है।
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Mistral AI ने OCR 4 लॉन्च किया, जो 23 24 जून 2026 को आया। यह सिर्फ़ टेक्स्ट नहीं, बल्कि पैराग्राफ़ लेवल बाउंडिंग बॉक्स, ब्लॉक टाइप (टाइटल, टेबल, इक्वेशन, सिग्नेचर) और प्रति शब्द कॉन्फिडेंस स्कोर भी देता है। [1][7][10]
Mistral AI ने OCR 4 लॉन्च किया, जो 23 24 जून 2026 को आया। यह सिर्फ़ टेक्स्ट नहीं, बल्कि पैराग्राफ़ लेवल बाउंडिंग बॉक्स, ब्लॉक टाइप (टाइटल, टेबल, इक्वेशन, सिग्नेचर) और प्रति शब्द कॉन्फिडेंस स्कोर भी देता है। [1][7][10] OCR 4 ने OlmOCRBench लीडरबोर्ड पर 85.20 और OmniDocBench पर 93.07 स्कोर किया, और ब्लाइंड टेस्ट में 72% विन रेट हासिल किया। [4][6]
कीमत: स्टैंडर्ड OCR के लिए $4 प्रति 1000 पेज और एनोटेड (स्ट्रक्चर्ड) के लिए $5 प्रति 1000 पेज। [1][6]
Loading comments...
Comments
0 comments