document-understanding

2021.10

false

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

不在支持范围内

Document Understanding 用户指南

适用平台：

适用平台：

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

上次更新日期 2025年2月4日

完整管道

完整管道同时运行训练管道和评估管道。

重要提示：

最小数据集大小

为了成功运行训练管道，我们强烈建议数据集中的每个已标记字段至少具有 25 个文档和 10 个样本。否则，管道将引发以下错误：Dataset Creation Failed。

在 GPU 与 CPU 上进行训练

对于较大的数据集，您需要使用 GPU 进行训练。但是，使用 GPU（AI 机器人 Pro）进行训练至少比使用 CPU（AI 机器人）进行训练慢 5 倍。
对于 v21.10.x ML 包，在 CPU 上训练仅支持大小不超过 5000 页的数据集，而对于其他版本的 ML 包，在 CPU 上训练的限制为最多 1000 页。在 CPU 而非 GPU 上进行训练也可能导致模型准确性降低（介于 0-5% 之间）。
在 2021.10 版本之前，在 CPU 上训练的限制为 500 页，对于 2021.10 版本，其增加到 5000 页，对于 2022.4 版本，其将减少到最多 1000 页。

同时训练和评估模型

按如下方式配置训练管道：

在“管道类型”字段中，选择“完整管道运行”。
在“选择包”字段中，选择要训练和评估的包。
在“选择包主要版本”字段中，选择包的主要版本。
在“选择包次要版本”字段中，选择包的次要版本。强烈建议始终使用次要版本 0（零）。
在“选择输入数据集”字段中，选择一个具有代表性的训练数据集。
在“选择评估数据集”字段中，选择一个具有代表性的评估数据集。
在“输入参数”部分中，输入管道定义和使用的任何环境变量（如果有）。对于大多数用例，不需要指定任何参数，模型将使用高级技术来查找高性能配置。但是，您可以使用以下一些环境变量：
auto_retraining，它允许您完成自动重新训练循环；如果该变量设置为 True，则输入数据集必须是与数据所标记的标签会话相关联的“导出”文件夹；如果该变量仍设置为 False，则输入数据集需要对应于以下数据集格式。
model.epochs，用于自定义训练管道的时期数（默认值为 100）。
选择是在 GPU 还是 CPU 上训练管道。默认情况下，“启用 GPU”滑块处于禁用状态，在这种情况下，管道将在 CPU 上进行训练。
请选择管道应何时运行：“立即运行”、“基于时间”或“循环”。如果您使用的是 auto_retraining 变量，请选择“循环”。

配置所有字段后，单击“创建”。已创建管道。

工件

对于评估管道，“输出”窗格还包括“artifacts”/“eval_metrics”文件夹，其中包含两个文件：

evaluation_default.xlsx 是一个 Excel 电子表格，其中包含模型预测的每个字段的真实值与预测值的比较，以及文档准确性指标（按准确性升序排序）。因此，最不准确的文档会显示在顶部，以便于诊断和故障排除。
evaluation_metrics_default.txt 包含预测的字段的 F1 分数。
对于行项目，将获取所有列的全局分数。

在此页面上

同时训练和评估模型
工件

此页面有帮助吗？

前一个评估管道

下一个微调

支持与服务

获取您需要的帮助

了解 RPA - 自动化课程

UiPath Community 论坛

信任与安全

© 2005-2025 UiPath。保留所有权利。