Document Understanding
2022.10
False
横幅背景图像
Document Understanding 用户指南
上次更新日期 2024年4月19日

自动微调循环(公开预览)

在训练/再训练 ML 模型时,首先要牢记的是,通过将所有数据累积到单个大型且理想情况下精心策划的数据集中,可以获得最佳结果。在数据集 A 上进行训练,然后在数据集 B 上重新训练生成的模型,这样产生的结果将远不如在组合的数据集 A+B 上训练的结果。

第二点要牢记的是,并非所有数据都相同。与在具有不同焦点的工具(如“验证站点”)中标记的数据相比,在专用工具(如 Document Manager)中标记的数据通常质量更高,并且所生成的模型也更好。从业务流程的角度来看,来自“验证站点”的数据可能是高质量的,但从模型训练的角度来看,则不是如此,因为 ML 模型需要非常特定形式的数据,这几乎总是与业务流程所需的形式不同。例如,在一张 10 页的发票上,发票编号可能会出现在每一页上,但在“验证站点”中,只需在第一页上指出该编号,而在 Document Manager 中,您要在每一页上为其加上标签。在这种情况下,“验证站点”数据中会缺失 90% 的正确标签。因此,如上所述,“验证站点”数据实用性有限。

要有效训练 ML 模型,您需要一个全面、优质、有代表性的数据集。因此,一种累积方法是向输入数据集添加更多数据,从而每次都使用更大的数据集训练 ML 模型。实现此目的的一种方法是使用自动微调循环。

为了更好地理解此功能,让我们来看看自动微调在 ML 模型生命周期中的适用位置。

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.