- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款平交披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 日志记录
- 许可
- 如何
- 故障排除

Document Understanding 新式项目用户指南
新建项目时,欧洲和美国的租户可能会启用我们新的拆分器和分类器模型。经过训练,可以训练此可训练模型拆分和分类复杂文档,从而处理文档数据包。
请按照此页面中的说明创建Document Understanding TM项目,并启用新的拆分器和分类器模型:
- 打开 Document Understanding。
- 选择“创建项目” 。
- 填写所需的项目名称。
- 选择“新式”以享受新式体验。
- 打开“启用新的拆分器和分类器模型”开关。
- 如果需要,请配置高级选项。
- 打开“启用拆分” 开关,以使模型能够在分类之前将文档拆分为单独的文件。您也可以从“项目设置”屏幕启用此功能。
重要提示:关闭“启用拆分”选项时,所有文档将分类为一个整体。
- 从“OCR 方法”下拉列表中选择要用于新项目的 OCR。
- 填写 OCR API 密钥。
注意:如果您选择 UiPath™ OCR,则系统会自动填充此字段。
- 填写 OCR URL。有关 UiPath OCR URL 的完整列表,请查看“公共端点”页面。
- 选择是否要在 PDF 上应用 OCR。默认情况下设置为“自动”。
- 打开“启用拆分” 开关,以使模型能够在分类之前将文档拆分为单独的文件。您也可以从“项目设置”屏幕启用此功能。
- 选择“创建”。
成功创建项目后,您可以从“构建”部分上传文档。
选择以下两个可用选项之一:
- 从文档中提取数据: 从文档中拉取特定字段,例如发票编号、日期、总计等。
注意:当您需要从文档中提取字段时,我们建议您选择此选项。
- 分类和拆分文档: 按类型对文档进行排序,并可将单个文件中的多个文档拆分开。
注意:当您需要对文档进行拆分和分类时,我们建议您选择此选项。
某些复杂文件包含多种文档类型。我们的新模型可以检测每个子文档的开始位置和结束位置,并对每个部分相应地进行分类。
-
单击“分类并拆分文档” ,然后上传文档数据包。等待文档完成上传和处理。
-
选择上传部分中的任何文档,然后单击“拆分” 。该操作将打开拆分注释界面。
注意:如果项目已经有经过训练的模型,则系统会使用该模型对上传的文档进行预批注。这有助于加快注释速度,并允许您查看新文档的预测结果。 -
单击“新建文档类型”为所需分类中的每个项目创建文档类型。您可以选择预定义的文档类型或创建自定义文档类型。
注意:对于自定义文档类型,请提供名称、说明其用途的简短说明,以及有助于识别文档的逗号分隔关键指标(例如唯一字段或术语)。 -
指示应分隔文档的位置。使用下拉菜单将每个页面范围分配给一种文档类型。完成文档标注后,单击“确认” 。
注意:单击“确认”会触发文档处理。处理后,每个子文档都将显示在“构建”部分中相应的文档类型下。注意:移动到某种文档类型的每个子文档都会使用该文档类型的架构预先批注。
模型训练
仅在以下时间后触发模型训练:
- 已创建并批注至少五个子文档
注意:例如,如果您使用的是单个 PDF,请确保它至少包含五个子文档,以启动训练。如果您使用的是两个 PDF,则其中一个应至少包含两个子文档,另一个应至少包含三个。
- 已确认文档。
您可以在“分类”窗格的右上角查看训练状态。
- 最大文档大小为 160MB 或 500 页。
- 页面无法重新排序或删除。
拆分和分类预测
每当训练新模型时,项目中的所有文档都会收到来自经过训练的模型的预测。这使您可以查看分类模型的性能。
“类型”列显示真实值,即批注的文档类型。“预测的类型”列显示模型预测的类型。
默认情况下,用户界面中仅显示文档数据包。要查看每个包中的子文档,请单击“查看” ,然后选中“包括子文档”复选框。
您也可以通过启用“显示预测”开关,在注释界面中查看预测。