文档分类 - 区分发票、合同、身份证、营业执照等20+种文档类型
表格识别与提取 - 精确识别表格结构,转换为行列数据
关键字段提取 - 自动定位和提取发票号、金额、日期、公司名等
手写内容识别 - 识别签名、手写备注、图章等
文档质量评估 - 检测模糊、倾斜、不完整等问题
1.端到端文档理解 - 视觉 + 语义 + 布局三维度
不仅提取文字,还理解文档结构和逻辑关系
融合了位置、视觉和文本特征
相比传统OCR,精度提升40%+
多模态信息融合 - 类似GPT-Vision的思路
2 输入:文档图像 → 特征提取 → 视觉tokens
输入:文字序列 → 分词 → 文本tokens
融合:位置编码 + 注意力机制 → 统一表示
预测:关键字段位置和值
文档版面复原 - 恢复原始排版结构
3 识别正文、表格、图片、标题等元素
按照原始布局重新组织
生成结构化文档(XML/JSON)
迭代学习机制 - 用户校正数据自动回流
4 用户在系统上修正错误 → 数据标注
针对性优化高错误率的文档类型