- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款平交披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 日志记录
- 许可
- 如何
- 故障排除

Document Understanding 新式项目用户指南
创建新项目时,位于欧洲和美国的租户可以启用我们新的拆分器和分类器模型。这种可训练的模型可以通过训练对复杂文档进行拆分和分类,以便您处理文档包。
按照此页面中的 Document UnderstandingTM 项目说明进行操作,并启用新的拆分器和分类器模型:
- 打开 Document Understanding。
- 选择“创建项目” 。
- 填写所需的项目名称。
- 选择“新式”以享受新式体验。
- 打开“启用新的拆分器和分类器模型”开关。
- 如果需要,请配置高级选项。
- 打开“启用拆分”开关,使模型能够在分类之前将文档拆分为单独的文件。您还可以在“项目设置”屏幕中启用此功能。
重要:当“启用拆分”选项关闭时,所有文档都将作为一个整体进行分类。
- 从“OCR 方法”下拉列表中选择要用于新项目的 OCR。
- 填写 OCR API 密钥。
注意:如果您选择 UiPath™ OCR,则系统会自动填充此字段。
- 填写 OCR URL。有关 UiPath OCR URL 的完整列表,请查看“公共端点”页面。
- 选择是否要在 PDF 上应用 OCR。默认情况下设置为“自动”。
- 打开“启用拆分”开关,使模型能够在分类之前将文档拆分为单独的文件。您还可以在“项目设置”屏幕中启用此功能。
- 选择“创建”。
成功创建项目后,您可以从“构建”部分上传文档。
选择两个可用选项之一:
- 从文档中提取数据:从文档中提取特定字段,例如发票编号、日期、总数等。
注意:需要从文档中提取字段时,建议选择此选项。
- 对文档进行分类和拆分:按类型对文档进行分类,并拆分单个文件中的多个文档。
注意:需要对文档拆分和分类时,建议选择此选项。
某些复杂文件包含多种文档类型。我们的新模型可以检测每个子文档的开始和结束位置,并相应地对每个部分进行分类。
-
单击“对文档进行分类和拆分”,然后上传您的文档包。等待文档完成上传和处理。
-
从“上传”部分中选择任何文档,然后单击“拆分”。此时将打开拆分批注界面。
注意:如果项目已有训练过的模型,则会使用该模型对上传的文档进行预批注。这有助于加快批注速度,并查看新文档的预测结果。 -
单击“新建文档类型”,为所需分类中的每个项目创建文档类型。您可以选择预定义的文档类型或创建自定义文档类型。
注意:对于自定义文档类型,请提供名称、解释其用途的简短描述,以及有助于识别该文档类型、用逗号分隔的关键指标(例如唯一字段或术语)。 -
指明文档分割的位置。使用下拉菜单将每个页面的范围分配给一个文档类型。完成文档批注后,单击“确认”。
注意:单击“确认”会触发文档处理。处理后,每个子文档将显示在“构建”部分的相应文档类型下。注意:每个移动到文档类型的子文档都会通过文档类型架构进行预批注。
模型训练
只有在以下情况下,才会触发模型训练:
- 至少已创建五个子文档并进行了批注
注意:例如,如果您使用的是单个 PDF,请确保其中至少包含五个子文档,以开始训练。如果您使用的是两个 PDF,一个应至少包含两个子文档,另一个应至少包含三个子文档。
- 文档已确认。
可以在“分类”窗格的右上角查看训练状态。
- 文档大小上限为 160MB 或 500 页。
- 页面无法重新排序或删除。
拆分和分类预测
每当训练新模型时,项目中的所有文档都会收到来自已训练模型的预测结果。这样,您就可以查看分类模型的性能。
“类型”列显示基本事实,即被批注的文档类型。“预测类型”列显示模型预测的类型。
默认情况下,用户界面中仅显示文档包。要查看每个包中的子文档,请单击“查看”,然后选中“包括子文档”复选框。
还可以启用“显示预测”开关,在批注界面中查看预测结果。