- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- Automation Cloud 和 Test Cloud 的公共端点
- Automation Cloud 和 Test Cloud 公共部门的公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款平交披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 日志记录
- 许可
- 如何
- 故障排除
Document Understanding 用户指南
概述
可训练的拆分器使用 Helix 分类器模型对多文档包进行拆分和分类。它会自动检测文档边界,并为每个检测到的子文档分配文档类型。
该模型仅适用于欧洲和美国的租户。
此功能仅支持供应商管理的密钥。即使在组织级别启用了客户托管密钥 (CMK),此功能也无法使用客户托管密钥 (CMK) 来加密数据。
何时使用
在以下场景中使用可训练的拆分器:
- 抵押贷款应用程序:拆分包含 ID、申请表和银行对账单的数据包。
- 医疗保健登记:验证是否存在所需文件,例如诊断书、NPI 表格和身份证。
- 保险索赔:单独的索赔表、医疗记录和收据。
- 发票处理:处理多供应商发票数据包。
- 文档清理:删除不相关的页面,以便仅在下游处理相关内容。
创建新项目
创建新项目时,位于欧洲和美国的租户可能会启用新的拆分器和分类器模型。这种可训练的模型可以通过训练对复杂文档进行拆分和分类,以便您处理文档包。
请按照此页面上的说明创建一个 Document Understanding TM项目并启用新的拆分器和分类器模型。
先决条件
开始之前,请确保满足以下条件:
- 您的租户位于欧洲或美国。
- 已安装 IntelligentOCR.Activities 版本 6.27.0 或更高版本。
- 在 Automation Cloud 租户中启用了新式项目。
- 您拥有代表生产用例的文档包示例。
-
打开 Document Understanding。
-
选择“创建项目” 。
-
输入所需的项目名称。
-
对于 Automation Cloud 和 Test Cloud,请选择“新式”以使用新式体验。
-
打开“启用新的拆分器和分类器模型”开关。
-
如果需要,请配置高级选项。
- 打开“启用拆分” 开关,以允许模型在分类之前将文档拆分为单独的文件。您也可以从“项目设置”屏幕启用此选项。
重要提示:
关闭“启用拆分”选项时,模型以“仅分类”模式运行:
- 拆分批注界面不可用。
- 无法手动拆分文档。
- 要进行训练,请上传同一类型的单页或多页文档。
- 所有其他功能保持不变。
- 从“OCR 方法”下拉列表中选择 OCR 方法。
- 输入“OCR API 密钥” 。
备注:
如果您选择 UiPath™ OCR,则系统会自动填充此字段。
- 输入OCR URL() 。有关 UiPath OCR URL 的完整列表,请参阅“公共端点”页面。
- 选择是否在 PDF 上应用 OCR 。默认情况下为“自动” 。
- 打开“启用拆分” 开关,以允许模型在分类之前将文档拆分为单独的文件。您也可以从“项目设置”屏幕启用此选项。
-
选择“创建”。
结果
项目已创建。“构建”部分将变为可用,您可以在其中上传文档以进行提取或分类。
选择两个可用选项之一:
- 从文档中提取数据:从文档中拉取特定字段,例如发票编号、日期和总计。需要从文档中提取字段时,请使用此选项。
- 对文档进行分类和拆分: 按类型对文档进行排序,并拆分单个文件中的多个文档。需要拆分文档并进行分类时,请使用此选项。
从文档中提取数据
- 选择文档类型。
- 选择“上传”或将文件拖放到新文档类型中。等待上传完成。
对文档进行分类和拆分
某些复杂文件包含多种文档类型。可训练的拆分器会检测每个子文档的开始和结束位置,并相应地对每个部分进行分类。
- 选择“分类并拆分文档” 。
- 上传文档包。等待上传和处理完成。
- 从上传部分选择文档。
- 选择“拆分” 。拆分注释界面将打开。
备注:
如果项目已有经过训练的模型,则系统会使用该模型对上传的文档进行预批注。这有助于加快注释速度,并允许您查看新文档的预测结果。
- 选择“新建文档类型” ,为分类中的每个项目创建文档类型。选择预定义的文档类型或创建自定义文档类型。对于自定义文档类型,请提供以下信息:
- 名称:文档类型的清晰描述性名称。
- 说明:用一到三句话解释文档的目的及其与类似类型的区别。
- 关键指标:用于唯一标识此文档类型的逗号分隔字段或术语。描述和关键指标直接影响模型准确性。如果分类分数较低,请在添加更多训练数据之前优化描述。发票文档类型示例:
- 说明:卖方向买方发出的正式付款请求,会列出行项目、数量和应付总金额。
- 关键指标:发票编号、发票日期、总金额、卖方信息、买方信息、付款条件编写有效说明的提示:
- 包含特定于文档类型的术语。
- 如果两种文档类型经常混淆,请在两种描述中补充详细信息以帮助区分。
- 将不需要下游处理的页面分配给“未知”类型。这包括封页、空白页和分隔页。模型会在运行时将这些页面预测为“未知”。
- 选择文档类型之间的边界,以指示每个文档的开始和结束位置。
- 通过下拉菜单为每个页面范围指定对应的文档类型。
- 完成文档注释后,选择“确认” 。
结果
每个子文档都会显示在“构建”部分中相应的文档类型下。每个子文档都使用所分配的文档类型的架构预先批注。
培训最佳实践
使用原始且未拆分的生产文档包进行训练,避免使用已预先拆分的单个文档。
模型会从每个文档类型的上下文中学习文档捆绑模式:即在真实数据包中,该文档前后的内容。在预拆分文档上进行训练会丢失上下文,并使拆分准确性下降。
推荐的方法:
- 上传包含多个文档类型的生产数据包。
- 包含能够覆盖生产环境中不同文档顺序及文档数量范围的数据包。
- 力求使各类文档类型的数据集分布保持平衡。
备注:
对拆分前的文档进行训练会生成工作模型,但拆分准确性低于对原始数据包进行训练时的准确性。
模型训练
You start model training manually using the Start Training button on the Model Training status pill, shown in the upper right corner of the Classification pane. Training does not begin automatically.
The button becomes enabled once both of the following conditions are met:
- 至少已创建五个子文档并进行了批注。
备注:
例如,如果您使用的是单个 PDF,则它必须至少包含五个子文档。如果您使用的是两个 PDF,则一个 PDF 必须包含至少两个子文档,另一个至少包含三个。
- 文档已确认。
Once the threshold is met, select Start Training to queue a run. The status pill transitions through Queued, training-in-progress, and finally Trained — showing the score, last-training date, duration, and base model version. If a training fails, the pill shows the error and a Retry action.
For details on button states, the changes counter, and the full training lifecycle, see Start a training run.
训练数据要求
| 要求 | 详细信息 |
|---|---|
| 最少文档类型 | 1 |
| 最少总样本 | 所有文档类型中的 5 个文档 |
| 每种类型的最小样本数 | 1 |
| 若要获得可靠结果,建议执行此操作 | 50 到 100 个数据包 |
| 最大文档大小 | 160 MB 或 500 页 |
| 训练/测试拆分 | 自动:80% 训练,20% 测试 |
改进训练结果
当效果强差人意时,请使用以下方法之一:
- 对于表现较差的文档类型,优化其描述和关键指标。
- 对于准确性低的文档类型,添加更多训练样本。
拆分和分类预测
每当训练新模型时,项目中的所有文档都会收到来自训练模型的预测结果。您可以据此查看分类模型的表现。
“类型”列显示真实值,即批注的文档类型。“预测的类型”列显示模型预测的类型。
默认情况下,仅显示文档数据包。要查看每个包中的子文档,请选择“查看”,然后选中“包括子文档” 。
通过启用“显示预测”开关,您也可以在注释界面中使用预测。
了解指标
选择“衡量”选项卡,以审核模型性能。
| 指标 | 它测量什么 | 如果低,该怎么办 |
|---|---|---|
| 拆分 F1 | 文档边界识别的准确性(不受分类结果影响) | 添加包含更多样化边界示例的训练数据 |
| 分类 F1 | 文档类型分配的准确性(不受边界影响) | 为表现较差的文档类型增加更多训练页面 |
| 整体 F1 | 综合评分:文档边界识别和类型分配均需准确 | 判断是拆分还是分类的表现较差,并优先优化该部分 |
只有当边界识别和类型分配都正确时,子文档才会被视为正确。
测试集中包含许多未知页面的大型文档可能会大大降低分数。如果分数出奇低,请检查异常值文档是否影响了测试集。
在运行时调用模型
通过 IntelligentOCR 活动
使用 IntelligentOCR 包中的Document Understanding 项目分类器活动。在项目中启用拆分后,活动将返回多个分类结果,每个检测到的子文档一个。遍历结果以对每个子文档执行验证或提取。
通过 DocumentUnderstanding 活动
使用“分类文档”活动。
通过 API
使用classify端点。当在项目版本中启用拆分功能时,端点会执行拆分,并为每个识别出的子文档返回对应的分类结果。
导入和导出
导出已训练模型数据集
如果项目版本中包含已训练的拆分器分类器,则有两个导出选项:
- “文档类型数据集导出”:批注数据的标准导出。
- 拆分器和分类器导出:完整的项目导出,包括经过训练的模型。
只有具有经过训练的拆分器分类器的项目版本才会显示在拆分器和分类器导出下拉列表中。
导入到新项目
导入选项在空白分类页面上可用。导入 zip 文件后,系统会自动将文档分配到对应的文档类型,并触发训练流程。
限制
- 仅限位于欧洲和美国的租户使用。
- 在批注界面中,页面无法重新排序或删除。
- 拆分信息在“监控”页面中不可用。
- Action Center 不支持对拆分和分类模型进行重新训练。