Document Understanding 用户指南

适用平台：

上次更新日期 2025年11月6日

自动微调循环（公开预览）

在训练/再训练 ML 模型时，首先要牢记的是，通过将所有数据累积到单个大型且理想情况下精心策划的数据集中，可以获得最佳结果。在数据集 A 上进行训练，然后在数据集 B 上重新训练生成的模型，这样产生的结果将远不如在组合的数据集 A+B 上训练的结果。

第二点要牢记的是，并非所有数据都相同。与在具有不同焦点的工具（如“验证站点”）中标记的数据相比，在专用工具（如 Document Manager）中标记的数据通常质量更高，并且所生成的模型也更好。从业务流程的角度来看，来自“验证站点”的数据可能是高质量的，但从模型训练的角度来看，则不是如此，因为 ML 模型需要非常特定形式的数据，这几乎总是与业务流程所需的形式不同。例如，在一张 10 页的发票上，发票编号可能会出现在每一页上，但在“验证站点”中，只需在第一页上指出该编号，而在 Document Manager 中，您要在每一页上为其加上标签。在这种情况下，“验证站点”数据中会缺失 90％的正确标签。因此，如上所述，“验证站点”数据实用性有限。

要有效训练 ML 模型，您需要一个全面、优质、有代表性的数据集。因此，一种累积方法是向输入数据集添加更多数据，从而每次都使用更大的数据集训练 ML 模型。实现此目的的一种方法是使用自动微调循环。

为了更好地理解此功能，让我们来看看自动微调在 ML 模型生命周期中的适用位置。