답변게시됨12시간 전Last edited 12시간 전20 소스

Mistral OCR 4: 단순 텍스트 추출을 넘어, 문서를 '이해'하는 AI

미스트랄 AI OCR 4는 2026년 6월 23 24일 출시, 단순 텍스트 추출이 아닌 문단 단위 바운딩 박스, 블록 유형(제목, 표, 수식, 서명 등), 단어별 신뢰도 점수를 함께 반환하는 구조화된 문서 이해 모델 공개 벤치마크 OlmOCRBench에서 85.20점으로 1위, OmniDocBench 93.07점 기록, 600개 이상 실제 문서 블라인드 평가에서 경쟁사 대비 72% 선호도 170개 언어 지원, 단일 컨테이너로 완전한 자체 구축(on premises) 배포 가능, 규제 산업(금융·의료·법률) 데이터 주권 요구 충족

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

1100

Mistral OCR 4 model interface showing structured document extraction with bounding boxes, block labels, and confidence scores — Search & fact-check with cited sources for What are the key features, benchmark performance, pricing options, and strategic context of MistrMistral OCR 4 transforms document processing by returning spatial and structural metadata alongside extracted text.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: Search & fact-check with cited sources for What are the key features, benchmark performance, pricing options, and strategic context of Mistr. Article summary: Here is the fact-checked breakdown of Mistral AI's newly released OCR 4 model.. Topic tags: general, documentation, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fake numbers, clickbait thumbnails, icons, and tiny thumbnail layouts. Make it useful as an illustrative visual, not as factual e
openai.com

미스트랄 AI(Mistral AI)가 2026년 6월 23~24일 'OCR 4'를 공개했다. 이 모델은 기존 OCR처럼 단순히 텍스트만 뽑아내는 수준을 넘어, 문서의 레이아웃과 구조까지 함께 이해하는 '문서 이해(document understanding)' 엔진으로 설계됐다. 기업용 검색, RAG(검색 증강 생성), 에이전틱 워크플로우의 핵심 입력 요소로 자리잡는 것이 목표다 .

주요 기능

구조 인식 추출. OCR 4는 추출된 텍스트와 함께 문단 단위 바운딩 박스(위치 좌표), 블록 유형 레이블(텍스트, 제목, 목록, 표, 이미지, 수식, 캡션, 코드, 참조, 사이드 텍스트, 머리글, 바닥글, 서명 등), 단어별 신뢰도 점수를 함께 반환한다 . 별도의 후처리 없이 인용 추적, 문서 내 정보 삭제(redaction), 의미 기반 청크 분할 등에 바로 활용 가능하다 .

include_blocks API 파라미터. 활성화 시 각 페이지마다 구조적 레이블과 공간 좌표가 포함된 blocks 배열을 읽기 순서대로 반환한다 .

170개 언어, 10개 언어군. 미스트랄은 상대적으로 드물고 자원이 부족한 문자 체계(일본어, 힌디어, 그리스어 등)에서 특히 정확도가 크게 개선되었다고 밝혔다 .

단일 컨테이너 자체 구축. 이 모델은 단 하나의 컨테이너로 완전한 온프레미스(on-premises) 배포가 가능하다. 문서를 외부 API로 보낼 수 없는 규제 산업(금융, 의료, 법률)에게는 핵심 차별화 요소다 .

멀티모달 입력 및 구조화된 출력. PDF와 이미지를 입력받고(Office 문서는 변환 필요), 구조화된 마크다운(Markdown)과 JSON 형식으로 출력한다. RAG 및 에이전틱 파이프라인과의 통합에 최적화됐다 .

벤치마크 성능

벤치마크	OCR 4 점수	비고
OlmOCRBench (공개 리더보드)	85.20	출시와 동시에 리더보드 1위
OmniDocBench	93.07	다양한 문서 유형에서 강력한 성능
인간 선호도 평가 (블라인드, 600개 이상 문서, 12개 이상 언어)	평균 72% 승률	독립 평가자들이 경쟁 OCR 시스템보다 OCR 4를 선호

미스트랄은 자체 내부 벤치마크인 Crawl Multilingual에서도 높은 점수를 보고했으나, 검토된 출처에서는 구체적인 수치가 공개되지 않았다 .

가격 옵션

등급	가격	세부 내용
일반 OCR (Standard)	1,000페이지당 4달러	기본 텍스트 추출
구조화 OCR (Annotated)	1,000페이지당 5달러	바운딩 박스, 블록 레이블, 신뢰도 점수 포함

가격은 토큰 기준이 아닌 페이지 기준으로 책정됐다. 이는 미스트랄의 다른 모델과 비교해 이례적인 방식으로, 대량 문서 배치 처리 사용 사례를 반영한다.

전략적 의미

OCR 4는 '텍스트 추출'에서 '문서 이해'로의 명확한 전환점을 찍었다. 표, 수식, 서명 등 레이아웃과 구조의 보존이 중요한 기업 검색, RAG 파이프라인, 에이전틱 워크플로우를 위한 기초 계층(fundamental layer)으로 포지셔닝됐다 .

이 모델은 구글의 Document AI, 애저의 Document Intelligence, 오픈소스 OCR 파이프라인을 직접 겨냥한다. 구조화된 출력을 저렴한 가격에 제공하면서도 자체 구축 가능한 컨테이너 옵션을 함께 제공하는 것은 주요 OCR API 중에서도 드문 조합이다 .

미스트랄은 이미 자사 AI 챗봇 'Le Chat'의 수백만 사용자를 대상으로 OCR 4를 기본 문서 이해 모델로 적용했다 .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.