- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 护照 - ML 包
- 工资单 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 硬件要求
- 管道
- Document Manager
- OCR 服务
- 支持的语言
- 深度学习
- Insights 仪表板
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- Activities (活动)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding 用户指南
数据集诊断
从头开始训练新模型有时可能是一项非常艰巨的工作。
Dataset Diagnostics feature helps you build effective datasets by providing feedback and hints of the steps needed to achieve good accuracy for the trained model.
数据集诊断位于 Document Manager 的管理栏中,在训练新模型的整个过程中提供可视化和书面指导。
“管理”栏中显示了三个数据集状态级别:
- Red - More labelled training data is required.
- Orange - More labelled training data is recommended.
- Green - The needed level of labelled training data is achieved.
如果会话中未创建任何字段,则数据集状态级别为灰色。
有关每种状态的更多信息,请参见“数据集诊断”弹出菜单。选择“数据集诊断”按钮,将其打开。

数据集诊断菜单
Dataset tab
提供有关用于训练模型的文档、已导入页面总数和已标记页面总数的信息。
颜色状态栏上的分隔由训练模型所需的建议已标记页面数和数据集的实际状态(包括已标记数据和未标记数据)确定。将鼠标指针悬停在状态栏的每种颜色上,可在工具提示中看到有关每种状态的额外信息。
“数据集”选项卡上的可用数字是根据训练过程中常规字段和项目字段的数量计算得出的。
- Red - The dataset requires more labelled data for training the model.
- Orange - For an increased level of accuracy on the trained model, more labelled data is recommended. You can choose to proceed further with the actual data, but the level of accuracy is not as high as wanted.
- Green - The labelled data is enough for the dataset to be trained accordingly and to receive accurate information.
Fields tab
提供有关每个已加标签字段的信息,更准确地说是已加标签的训练页面总数、具有已加标签字段的评估文档总数及其当前训练集的状态。

- Field - The name of the labelled field.
- Training Pages - The number of pages in the Training+Validation set on which the field is labelled.
- Evaluation Documents - The number of documents in the Evaluation set on which this field is labelled.
- Status - The status of each field, marked by three options, Red, Orange, and Green.
Here are all the options available for the Status bar:
-
Red - There is insufficient data about the field, more labels being required.

-
Orange - More pages need to be labelled for the results to be relevant.

-
Green - There are enough labelled pages for the results to be relevant.

Refresh and Close buttons are applicable for both tabs, meaning that if the Refresh button is selected on the Dataset tab, the Fileds tab is also refreshed.
- Refresh - Use the refresh option after alterations have been made to the dataset, whether on the number of total pages or the number of labelled pages. The popup menu automatically refreshes every few minutes and it takes place on both tabs, simultaneously. Use this function when a refresh is needed outside the automatic window.
- Close - Once all the needed information is gathered, close the menu by using the Close button. The entire popup menu is closed, no matter the tab from which the button is selected.
计算器选项卡
“计算器”选项卡会提供您在新建文档类型时添加的相同信息。

您可以使用数据集计算器来修改最初在创建文档类型时添加的部分信息。
可以使用数据集计算器修改以下字段:
- 开箱即用文档类型
- 语言数量
- 布局数量
“计算器”选项卡中的以下字段为只读,其值通过将所使用的开箱即用文档类型与当前架构字段相交来确定:
- 开箱即用常规字段
- 开箱即用列字段
- 开箱即用的分类字段
修改上述任何字段都会影响数据集的建议大小。根据新的建议大小,当前打开的弹出窗口中的“数据集”选项卡将更新为绿色/黄色/红色状态。保存更改后,整体数据集诊断指示器会考虑新的“数据集”选项卡运行状况。
假设您在最初创建文档类型时为“开箱即用文档类型”字段选择了“发票”。如果您将初始选择更改为其他内容,例如收据,则数据集将吸收这两种文档类型的信息,并显示所选两种文档类型(发票和收据)的交叉信息。
如果有些字段仅存在于其中一个模型中,则这些字段将显示在“自定义常规字段”或“自定义列字段”中,因为这些更改会同时应用于常规字段和分类字段。