Mistral AI 于 2026 年 6 月 23 日至 24 日发布了 OCR 4 模型,其核心定位从传统的“文本提取”转向了更具深度的“结构化文档理解”。该模型旨在作为企业搜索、RAG(检索增强生成)管道以及智能体工作流程的基础组件,并与 Mistral Document AI 和 Mistral Medium 3.5 一同登陆微软 Azure AI Foundry ![]()
。
核心功能详解
结构感知提取。 OCR 4 的输出远不止于纯文本。它能够返回段落级的边界框(Bounding Boxes)、类型化的块标签(Block Labels,包括 text, title, list, table, image, equation, caption, code, references, aside_text, header, footer, signature 等类型)以及逐词的置信度分数 ![]()
![]()
。这使得输出结果可以直接用于引文追踪、内容修订和语义分块,而无需繁琐的后处理
。
include_blocks API 参数。 启用此参数后,API 会为每一页返回一个 blocks 数组,其中包含按阅读顺序排列的结构化标签和空间坐标 。
Comments
0 comments