Document Understanding
最新
False
横幅背景图像
Document Understanding 用户指南
上次更新日期 2024年4月30日

训练管道

提示:现在,通过使用 Document Understanding 产品(而不是 AI Center 服务),利用“一键提取”和“一键分类”功能,可以更方便地训练提取程序和分类器。
重要提示:

最小数据集大小

为了成功运行训练管道,我们强烈建议数据集中的每个已标记字段至少具有 10 个文档和 5 个样本。否则,管道将引发以下错误:Dataset Creation Failed

在 GPU 与 CPU 上进行训练

  • 对于较大的数据集,您需要使用 GPU 进行训练。此外,使用 GPU 进行训练至少比使用 CPU 快 10 倍。
  • 对于 v21.10.x ML 包,在 CPU 上训练仅支持大小不超过 5000 页的数据集,而对于其他版本的 ML 包,在 CPU 上训练的限制为最多 1000 页。
  • 在 2021.10 版本之前,在 CPU 上训练的限制为 500 页,对于 2021.10 版本,其增加到 5000 页,对于 2022.4 版本,其将减少到最多 1000 页。

有关数据集结构的更多信息,请查看数据集格式部分。

有两种方法可以训练 ML 模型:

  • 从头开始训练模型
  • 重新训练开箱即用模型

可以使用 Document Understanding ML 包从头开始训练模型,该包在作为输入提供的数据集上执行此操作。

可以使用开箱即用的 ML 包(例如发票、收据、采购订单、水电费账单、印度发票、澳大利亚发票等)重新训练模型,基本上可以使用除 Document Understanding 以外的任何其他数据提取 ML 包。使用其中一个包进行训练时会产生另外一个输入:基本模型。我们将此称为重新训练,因为您不是从头开始,而是从基本模型开始。这种方法使用了一种称为“迁移学习”的技术,模型会利用另一个预先存在的模型中编码的信息。该模型保留了一些开箱即用的知识,但也会从新数据中学习。但是,随着训练数据集大小的增加,预训练的基本模型会越来越不重要。它主要与中小型训练数据集(最多 500-800 页)相关。

按如下方式配置训练管道:

  • 在“管道类型”字段中,选择“训练运行”。
  • 在“选择包”字段中,选择基于 Document Understanding ML 包创建的包。
  • 在“选择包主要版本”字段中,选择包的主要版本。
  • 在“选择包次要版本”字段中,选择包的次要版本。强烈建议始终使用次要版本 0(零)。
  • 在“选择输入数据集”字段中,选择一个数据集,如本页下方视频所示。要构建高质量的训练数据集,您可以查看教程。
  • 在“输入参数”部分中,输入管道定义和使用的任何环境变量(如果有)。对于大多数用例,不需要指定任何参数,模型将使用高级技术来查找高性能配置。但是,您可以使用以下一些环境变量:
  • auto_retraining,您可借此完成自动重新训练循环;如果将该变量设置为 True,则输入数据集必须是与数据所标记的标签会话相关联的“导出”文件夹;如果仍将该变量设置为 False,则输入数据集需要对应于以下数据集格式。
  • model.epochs,用于自定义训练管道的时期数(默认值为 100)。 Optional
  • 对于 ML 包 v23.4 或更高版本,在少于 400 页的数据集上进行训练时,需要使用一种称为冻结主干的方法来加速训练并提高性能。但是,您可以选择覆盖此行为并强制执行完整训练,即使对于较小的数据集也如此,或者相反,即使对于较大的数据集(最多 3000 页),也强制执行冻结主干训练。您可以将以下环境变量与条件一起使用,可以将第一个变量与第二个变量一起使用,也可以将第一个变量与第三个变量一起使用。Optional
    • model.override_finetune_freeze_backbone_mode=True - 要覆盖默认行为,请添加此环境变量。在以下两种情况下,此变量都是必需的。
    • model.finetune_freeze_backbone_mode=True - 要强制模型即使对于较大的数据集也使用“冻结主干”,请添加此环境变量。
    • model.finetune_freeze_backbone_mode=False - 要强制模型即使对于较小的数据集也使用“完整训练”,请添加此环境变量。
  • 选择是在 GPU 还是 CPU 上训练管道。默认情况下,“启用 GPU”滑块处于禁用状态,在这种情况下,管道将在 CPU 上进行训练。
  • 请选择管道应何时运行:“立即运行”、“基于时间”或“循环”。如果您使用的是 auto_retraining 变量,请选择“循环”。


  • 配置所有字段后,单击“创建”。已创建管道。

以下是使用先前导出到 AI Center 的数据集创建新训练管道的示例:



此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.