ixp
latest
false

非结构化文档和复杂文档用户指南
上次更新日期 2025年8月19日
UiPath™ 智能提取处理 (IXP) 提供多模态数据分类和提取功能,能够快速地大规模解锁企业数据。这使您能够通过一组可供您选择的功能处理各种文档类型:
- 通信数据 (Communications Mining)
- 结构化文档和半结构化文档(Document Understanding)
- 非结构化文档与复杂文档(生成式提取)
从复杂的非结构化文档中提取数据时,您会遇到以下常见挑战,具体取决于您所处的阶段:
在模型构建和测试期间
- 需要访问不同的 LLM,才能对各种文档类型进行测试,这些都是用例。
- 难以快速迭代用户提示词并查看预测结果。
- 需要访问更多参数,以优化预测结果。
评估期间
- 难以验证预测并提供基础事实。
- 评估模型和字段级指标非常耗时。
- 需比较调整模型参数(例如模型、用户提示词、分块大小、零样本或少样本学习)的影响。
- 用于构建性能指标的可视化,例如,精度、召回量和 F1 分数。
在生产部署期间
- 没有简单的方法来修改和维护用例的数据架构。
- 例如,小模型监管,可以恢复到以前的版本,或选择特定版本进行生产。
本节介绍“ 非结构化和复杂文档 ”功能,该功能使用生成式提取流程处理复杂的非结构化文档。此功能有助于用户解决上一部分中概述的难题。
此功能非常适合数据格式不一致的高级文档处理场景。使用此功能在以下情况下:
-
文档包含自由格式文本或复杂元素的段落,例如:
- 复杂的表格
- 图形
- 图表
- 复选框
- 标注框
- 签名
- 手写内容等。
-
您需要提取推断值,这些值不是直接声明的信息,而是必须从上下文中派生出来的。
-
文档之间或要提取的字段内的布局或结构存在很大差异。
-
您需要处理的是多个文档类型堆栈,它们被组合为一个文件,您需要提取数据,而不是先将其拆分。
有关非结构化文档和复杂文档功能的更多详细信息,请查看《IXP 概述指南》中的 “选择正确的功能”。
非结构化与复杂文档功能适用于跨行业的多种场景,包括但不限于以下领域,以及覆盖所有垂直行业及部门的更多领域:
法律服务
- 雇佣协议
- 运营协议
- 投资协议
医疗保健
- 医生报表
- 急诊室报告
- 患者转介
零售
- 退款请求
- 客户投诉
- 产品目录
房地产
- 租约
- 抵押贷款
- 财产评估报告
金融或银行业
- 经纪人对账单
- 贷款申请
- 信用报告
制造部
- 更改订单
- 产品规格
- 供应订单
保险
- 保单
- 索赔
- 拒赔信
技术或电信
- 服务协议
- 软件许可证
- 事件报告
要访问非结构化文档和复杂文档功能,请参阅 IXP 概述指南“访问功能”。