UiPath Documentation
document-understanding
2.2510
true
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 用户指南

上次更新日期 2026年4月15日

数据集诊断

从头开始训练新模型有时可能是一项非常艰巨的工作。

Dataset Diagnostics feature helps you build effective datasets by providing feedback and hints of the steps needed to achieve good accuracy for the trained model.

数据集诊断位于 Document Manager 的管理栏中,在训练新模型的整个过程中提供可视化和书面指导。

“管理”栏中显示了三个数据集状态级别:

  • Red - More labelled training data is required.
  • Orange - More labelled training data is recommended.
  • Green - The needed level of labelled training data is achieved.

如果会话中未创建任何字段,则数据集状态级别为灰色。

有关每种状态的更多信息,请参见“数据集诊断”弹出菜单。选择“数据集诊断”按钮,将其打开。

“数据集诊断”界面的屏幕截图

数据集诊断菜单

Dataset tab

提供有关用于训练模型的文档、已导入页面总数和已标记页面总数的信息。

颜色状态栏上的分隔由训练模型所需的建议已标记页面数和数据集的实际状态(包括已标记数据和未标记数据)确定。将鼠标指针悬停在状态栏的每种颜色上,可在工具提示中看到有关每种状态的额外信息。

“数据集”选项卡上的可用数字是根据训练过程中常规字段和项目字段的数量计算得出的。

  • Red - The dataset requires more labelled data for training the model.
  • Orange - For an increased level of accuracy on the trained model, more labelled data is recommended. You can choose to proceed further with the actual data, but the level of accuracy is not as high as wanted.
  • Green - The labelled data is enough for the dataset to be trained accordingly and to receive accurate information.

Fields tab

提供有关每个已加标签字段的信息,更准确地说是已加标签的训练页面总数、具有已加标签字段的评估文档总数及其当前训练集的状态。

“字段”选项卡的屏幕截图

  • Field - The name of the labelled field.
  • Training Pages - The number of pages in the Training+Validation set on which the field is labelled.
  • Evaluation Documents - The number of documents in the Evaluation set on which this field is labelled.
  • Status - The status of each field, marked by three options, Red, Orange, and Green.

Here are all the options available for the Status bar:

  • Red - There is insufficient data about the field, more labels being required.

    “字段”选项卡的屏幕截图

  • Orange - More pages need to be labelled for the results to be relevant.

    “字段”选项卡的屏幕截图

  • Green - There are enough labelled pages for the results to be relevant.

    “字段”选项卡的屏幕截图

Refresh and Close buttons are applicable for both tabs, meaning that if the Refresh button is selected on the Dataset tab, the Fileds tab is also refreshed.

  • Refresh - Use the refresh option after alterations have been made to the dataset, whether on the number of total pages or the number of labelled pages. The popup menu automatically refreshes every few minutes and it takes place on both tabs, simultaneously. Use this function when a refresh is needed outside the automatic window.
  • Close - Once all the needed information is gathered, close the menu by using the Close button. The entire popup menu is closed, no matter the tab from which the button is selected.

计算器选项卡

“计算器”选项卡会提供您在新建文档类型时添加的相同信息。

“计算器”选项卡的屏幕截图

您可以使用数据集计算器来修改最初在创建文档类型时添加的部分信息。

可以使用数据集计算器修改以下字段:

  • 开箱即用文档类型
  • 语言数量
  • 布局数量

“计算器”选项卡中的以下字段为只读,其值通过将所使用的开箱即用文档类型与当前架构字段相交来确定:

  • 开箱即用常规字段
  • 开箱即用列字段
  • 开箱即用的分类字段

修改上述任何字段都会影响数据集的建议大小。根据新的建议大小,当前打开的弹出窗口中的“数据集”选项卡将更新为绿色/黄色/红色状态。保存更改后,整体数据集诊断指示器会考虑新的“数据集”选项卡运行状况。

假设您在最初创建文档类型时为“开箱即用文档类型”字段选择了“发票”。如果您将初始选择更改为其他内容,例如收据,则数据集将吸收这两种文档类型的信息,并显示所选两种文档类型(发票和收据)的交叉信息。

如果有些字段仅存在于其中一个模型中,则这些字段将显示在“自定义常规字段”或“自定义列字段”中,因为这些更改会同时应用于常规字段和分类字段。

  • 数据集诊断菜单
  • Dataset tab
  • Fields tab
  • 计算器选项卡

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新