ixp
latest
false
从非结构化文档中提取数据

非结构化文档和复杂文档用户指南
上次更新日期 2025年8月19日
非结构化及复杂文档功能能够增强对复杂非结构化文档的处理能力,依靠生成式 AI 技术映射抽取范式定义的字段及字段组,并实现高置信度的准确预测。 此高级功能擅长从复杂表格、图表或图形等复杂元素中提取数据,并有效地构建输出。
该流程涉及:
- 查看初始模型预测。
- 根据审核结果迭代修改提示指令。
- 对文档进行标注,以收集基本事实以进行验证,并提供信息以改进数据提取性能。
从非结构化文档(例如合同、长发票或其他类似文档)中提取数据需要采用系统性的智能方法,因为格式、语言和布局各不相同。
该流程首先提供明确的指令,以指导提取模型识别、解释和提取相关信息。 这些指令通常被称为“快速工程”或“提取”,在确保 AI 模型准确解释和处理内容方面起着关键作用。
这些指令包括:
- 定义目标数据字段,例如日期、名称、金额、子句等。
- 提供上下文提示或示例,供 AI 识别类似的模式。
依托细致的提示词设计、迭代反馈以及生成式 AI 的推理能力,该方法能够显著提升对非结构化和可变文档的结构化信息提取。