Document Understanding
2022.10
False
横幅背景图像
Document Understanding 用户指南
上次更新日期 2024年4月19日

数据集诊断

从头开始训练新模型有时可能是一项非常艰巨的工作。

“数据集诊断”功能通过提供反馈和有关步骤的提示,帮助您构建有效的数据集,以使经过训练的模型获得良好的准确性。

数据集诊断位于 Document Manager 的管理栏中,在训练新模型的整个过程中提供可视化和书面指导。



“管理”栏中显示了三个数据集状态级别:

  • 红色 - 需要更多已加标签的训练数据。
  • 橙色 - 建议使用更多已加标签的训练数据。
  • 绿色 - 已达到所需的已加标签训练数据级别。

如果会话中未创建任何字段,则数据集状态级别为灰色。

有关每种状态的更多信息,请参见“数据集诊断”弹出菜单。单击“数据集诊断”按钮即可打开该菜单。



数据集诊断菜单

“数据集”选项卡

提供有关用于训练模型的文档、导入的页面总数和已加标签页面的总数的信息。

颜色状态栏上的分隔由训练模型所需的建议标签页数和数据集的实际状态(包括已加标签和未加标签数据)确定。将鼠标悬停在状态栏的每种颜色上,可在工具提示中看到有关每种状态的额外信息。

“数据集”选项卡上的可用数字是根据训练过程中常规字段和项目字段的数量计算得出的。

  • 红色 - 数据集需要更多标记数据来训练模型。



  • 橙色 - 为了提高已训练模型的准确性,建议使用更多已加标签的数据。您可以选择进一步处理实际数据,但准确度并不像预期的那样高。



  • 绿色 - 标记的数据足以使数据集得到相应的训练并接收准确的信息。



“字段”选项卡

提供有关每个已加标签字段的信息,更准确地说是已加标签的训练页面总数、具有已加标签字段的评估文档总数及其当前训练集的状态。



  • 字段 - 已加标签字段的名称。
  • 训练页面 - “训练+验证”集里标记了字段的页数。
  • 评估文档 - 评估集中对此字段加标签的文档数量。
  • 状态”- 每个字段的状态,由三个选项标记:“红色”、“橙色”和“绿色”

以下是“状态”栏的所有可用选项:

  • 红色 - 有关字段的数据不足,需要更多标签。



  • 橙色 - 需要为更多页面添加标签才能使结果相关。



  • 绿色 - 有足够的已加标签页面以使结果具有相关性。



“刷新”和“关闭”按钮适用于这两个选项卡,这意味着如果单击“数据集”选项卡上的“刷新”按钮,则“归档”选项卡也会刷新。

  • 刷新 - 在对数据集进行更改(无论是更改总页数还是已加标签页数)后,请使用刷新选项。弹出菜单每隔几分钟自动刷新一次,并且会在两个选项卡上同时出现。当需要在自动窗口之外刷新时,请使用此功能。
  • 关闭 - 收集完所有需要的信息后,单击“关闭”按钮来关闭菜单。无论从哪个选项卡单击“关闭”按钮,整个弹出菜单都将关闭。
  • 数据集诊断菜单
  • “数据集”选项卡
  • “字段”选项卡

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.