document-understanding
latest
false
UiPath logo, featuring letters U and I in white

Document Understanding 用户指南

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
上次更新日期 2024年12月12日

完整管道

完整管道同时运行训练管道和评估管道。

重要提示:

最小数据集大小

为了成功运行训练管道,我们强烈建议数据集中的每个已标记字段至少具有 10 个文档和 5 个样本。否则,管道将引发以下错误:Dataset Creation Failed

在 GPU 与 CPU 上进行训练

  • 对于较大的数据集,您需要使用 GPU 进行训练。此外,使用 GPU 进行训练至少比使用 CPU 快 10 倍。
  • 对于 v21.10.x ML 包,在 CPU 上训练仅支持大小不超过 5000 页的数据集,而对于其他版本的 ML 包,在 CPU 上训练的限制为最多 1000 页。
  • 在 2021.10 版本之前,在 CPU 上训练的限制为 500 页,对于 2021.10 版本,其增加到 5000 页,对于 2022.4 版本,其将减少到最多 1000 页。

同时训练和评估模型

按如下方式配置训练管道:

  • 在“管道类型”字段中,选择“完整管道运行”。
  • 在“选择包”字段中,选择要训练和评估的包。
  • 在“选择包主要版本”字段中,选择包的主要版本。
  • 在“选择包次要版本”字段中,选择包的次要版本。强烈建议始终使用次要版本 0(零)。
  • 在“选择输入数据集”字段中,选择一个具有代表性的训练数据集
  • 在“选择评估数据集”字段中,选择一个具有代表性的评估数据集
  • 在“输入参数”部分中,输入管道定义和使用的任何环境变量(如果有)。对于大多数用例,不需要指定任何参数,模型将使用高级技术来查找高性能配置。但是,您可以使用以下一些环境变量:
  • auto_retraining,您可借此完成自动重新训练循环;如果将该变量设置为 True,则输入数据集必须是与数据所标记的标签会话相关联的“导出”文件夹;如果仍将该变量设置为 False,则输入数据集需要对应于以下数据集格式。
  • model.epochs,用于自定义训练管道的时期数(默认值为 100)。
  • 选择是在 GPU 还是 CPU 上训练管道。默认情况下,“启用 GPU”滑块处于禁用状态,在这种情况下,管道将在 CPU 上进行训练。此外,使用 GPU 进行训练至少比使用 CPU 快 10 倍。此外,仅支持对不超过 1000 张图像的数据集进行 CPU 训练。对于较大的数据集,您需要使用 GPU 进行训练。
  • 请选择管道应何时运行:“立即运行”、“基于时间”或“循环”。如果您使用的是 auto_retraining 变量,请选择“循环”。


  • 配置所有字段后,单击“创建”。已创建管道。

工件

对于完整管道,“输出”窗格还包括“artifacts”/“eval_metrics”文件夹,其中包含两个文件:



  • evaluation_default.xlsx 是一个 Excel 电子表格,其中包含模型预测的每个字段的真实值与预测值的比较,以及文档准确性指标(按准确性升序排序)。因此,最不准确的文档会显示在顶部,以便于诊断和故障排除。
  • evaluation_metrics_default.txt 包含预测的字段的 F1 分数。

    对于行项目,将获取所有列的全局分数。

  • 同时训练和评估模型
  • 工件

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。