Tham số API include_blocks. Khi được bật, mỗi trang trả về một mảng blocks với các nhãn cấu trúc và tọa độ không gian theo thứ tự đọc .
170 ngôn ngữ thuộc 10 nhóm ngôn ngữ. Mistral báo cáo có độ chính xác cao hơn đặc biệt trên các hệ thống chữ viết hiếm và ít tài nguyên, bao gồm tiếng Nhật, tiếng Hindi và tiếng Hy Lạp .
Tự lưu trữ trong một container duy nhất. Mô hình có thể được triển khai hoàn toàn tại chỗ (on-premises) chỉ trong một container, một điểm khác biệt chính cho các ngành được quản lý chặt chẽ, nơi không thể gửi tài liệu đến các API bên ngoài .
Đầu vào đa phương thức và đầu ra có cấu trúc. OCR 4 chấp nhận PDF và hình ảnh (tài liệu Office qua chuyển đổi), xuất ra Markdown và JSON có cấu trúc, được tối ưu để tích hợp với các pipeline RAG và tác nhân .
Mistral cũng báo cáo điểm số mạnh mẽ trên điểm chuẩn nội bộ Crawl Multilingual của họ, mặc dù các con số thô không được công bố trong các nguồn được xem xét .
| Gói | Giá | Chi tiết |
|---|---|---|
| OCR tiêu chuẩn | 4 USD cho 1.000 trang | Trích xuất văn bản cơ bản |
| Chú thích (có cấu trúc) | 5 USD cho 1.000 trang | Bao gồm bounding box, nhãn khối và điểm tin cậy |
Định giá dựa trên trang, không dựa trên token, điều này khác thường so với các mô hình khác của Mistral và phản ánh trường hợp sử dụng hàng loạt tài liệu.
OCR 4 đánh dấu một sự thay đổi có chủ ý từ "trích xuất văn bản" sang "hiểu tài liệu." Nó được định vị như một lớp nền tảng cho tìm kiếm doanh nghiệp, pipeline RAG và quy trình tác nhân, nơi việc bảo toàn bố cục và cấu trúc (bảng biểu, công thức, chữ ký) là rất quan trọng . Nó trực tiếp nhắm vào Document AI của Google, Azure Document Intelligence và các pipeline OCR mã nguồn mở bằng cách kết hợp đầu ra có cấu trúc với giá cả hàng hóa và tùy chọn container tự lưu trữ - một sự kết hợp hiếm có trong số các API OCR lớn
.
Comments
0 comments