Document Understanding 用户指南

适用平台：

上次更新日期 2024年11月11日

数据集诊断

从头开始训练新模型有时可能是一项非常艰巨的工作。

“数据集诊断”功能通过提供反馈和有关步骤的提示，帮助您构建有效的数据集，以使经过训练的模型获得良好的准确性。

数据集诊断位于 Document Manager 的管理栏中，在训练新模型的整个过程中提供可视化和书面指导。

“管理”栏中显示了三个数据集状态级别：

如果会话中未创建任何字段，则数据集状态级别为灰色。

有关每种状态的更多信息，请参见“数据集诊断”弹出菜单。单击“数据集诊断”按钮即可打开该菜单。

提供有关用于训练模型的文档、导入的页面总数和已加标签页面的总数的信息。

颜色状态栏上的分隔由训练模型所需的建议标签页数和数据集的实际状态（包括已加标签和未加标签数据）确定。将鼠标悬停在状态栏的每种颜色上，可在工具提示中看到有关每种状态的额外信息。

“数据集”选项卡上的可用数字是根据训练过程中常规字段和项目字段的数量计算得出的。

提供有关每个已加标签字段的信息，更准确地说是已加标签的训练页面总数、具有已加标签字段的评估文档总数及其当前训练集的状态。

以下是“状态”栏的所有可用选项：

“刷新”和“关闭”按钮适用于这两个选项卡，这意味着如果单击“数据集”选项卡上的“刷新”按钮，则“归档”选项卡也会刷新。

刷新 - 在对数据集进行更改（无论是更改总页数还是已加标签页数）后，请使用刷新选项。弹出菜单每隔几分钟自动刷新一次，并且会在两个选项卡上同时出现。当需要在自动窗口之外刷新时，请使用此功能。
关闭 - 收集完所有需要的信息后，单击“关闭”按钮来关闭菜单。无论从哪个选项卡单击“关闭”按钮，整个弹出菜单都将关闭。

在此页面上