Document Understanding 用户指南

适用平台：

上次更新日期 2025年2月4日

训练管道和评估管道

Document Understanding ML 包可以运行所有三种类型的管道（完整管道、训练管道和评估管道）。

对于大多数用例，不需要指定任何参数，模型将使用高级技术来查找高性能模型。

您可以从以下两个位置获取有关管道的信息：从“管道”表格右侧的上下文下拉菜单访问的“详细信息”视图中，或从左侧侧边栏的“ML 日志”选项卡中。“详细信息”视图包含“输出”窗格和“日志”页面。“输出”窗格将始终包含 _results.json 文件，其中包含管道详细信息的摘要，例如包版本、数据集、GPU 使用情况和执行时间。

训练管道和重新训练管道

有两种训练管道：

在“Document Understanding”类型的 ML 包中
在不同类型的 ML 包上，例如发票、收据、订单、水电费账单、印度发票或澳大利亚发票。

使用 Document Understanding 包进行训练时，只需在作为输入提供的数据集上从头开始训练模型。

对于包含低多样性文档（表单）的用例，使用少至 30 到 50 个样本，您可能会获得良好的结果。

对于包含多样化文档的用例，其中您只需要常规（“标头”）字段，每个字段至少需要 20 到 50 个样本，因此，如果需要提取 10 个常规字段，则至少需要 200 到 500 个样本。

当您需要提取列字段（例如行项目）时，每个列字段需要 50 到 200 个样本，因此，对于 5 个列字段，使用干净简单的版式，您可能需要 300 到 400 个样本；但而对于高度复杂且多样化的版式，可能需要多达 1000 个样本。

如果还需要涵盖多种语言，则每种语言至少需要 200 到 300 个样本。这些数字不需要累加，语言除外。因此，对于 10 个标头字段和 5 个列字段，500 个样本就足够了，但在某些情况下可能需要超过 1000 个样本。

使用步骤 2 中描述的包之一进行训练需要一个额外的输入：基本模型。我们也将此称为再训练，因为您不是从头开始，而是从基本模型开始。此方法使用一种称为“迁移学习”的技术，其中模型利用另一个预先存在的模型中编码的信息。当您在相同的字段上训练以仅优化准确性时，只需增加 100-500 个文档即可获得良好的结果。如果要向模型添加新字段，则每个新字段需要 30-50 个文档才能获得良好结果。在选择要使用的基本模型版本时，我们强烈建议您始终使用 1.0，即 UiPath 提供的开箱即用预训练版本。

备注：

系统不会重新训练分类字段，因此在重新训练模型时，您需要确保添加标签的数据集拥有至少 10 到 20 个来自每个类别的样本，您希望该模型能够识别，无论您用作基本模型的预训练模型的性能如何。

使用来自验证站点的数据进行微调（预览版）

AI Fabric 的 2020 年发行版包括使用人工利用验证站点验证的数据来微调 ML 模型的功能。

当 RPA 工作流使用现有 ML 模型处理文档时，某些文档可能需要使用验证站点活动（在有人值守机器人上或使用 Orchestrator Action Center 的浏览器中提供）进行人工验证。

在“验证站点”中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出，并可用于微调 AI Fabric 中的 ML 模型。

我们不建议使用来自验证站点的数据从头开始训练 ML 模型（即使用 DocumentUnderstanding ML 包），而仅使用来自验证站点的数据来微调现有 ML 模型（包括开箱即用 ML 模型）。

有关微调 ML 模型所涉及的详细步骤，请参阅 Data Manager 文档的“验证站点数据集导入”部分。

重要提示：为了成功运行训练管道或完整管道，我们强烈建议数据集中的每个已标记字段至少具有 25 个文档和 10 个样本。否则，管道将显示“数据集创建失败”错误

重要提示：随着更多数据被加标签（使用 Data Manager 或来自验证站点），通过维护单个数据集并向其中添加更多数据，并始终在 UiPath 提供的基本模型（次要版本为 0）上重新训练，可以获得最佳结果。强烈建议您避免使用自己先前训练的基本模型（次要版本 1 或更高版本）进行重新训练。

在 GPU 或 CPU 上训练

使用 GPU（AI 机器人 Pro）进行训练至少比使用 CPU（AI 机器人）进行训练快 10 倍。请注意，在 GPU 上训练 Document Understanding 模型时，GPU 至少需要具有 11GB 的视频 RAM 才能成功运行。

GPU 模型需要支持版本 418.0 及更高版本的 NVIDIA 驱动程序和版本 9.0 及更高版本的 CUDA 驱动程序。

仅支持对不超过 500 个图像的数据集进行 CPU 训练。对于较大的数据集，您需要使用 GPU 进行训练。

数据集格式

包含来自 Data Manager 的导出数据集的文件夹。这包括：

images：此文件夹包含所有已标记页面的图像；
latest：此文件夹包含 json 文件，以及每个页面中的已标记数据；
schema.json：此文件包含要提取的字段及其类型；
split.csv：此文件夹包含每个文档的拆分，这些文档将在训练管道中用于训练或验证

环境变量

ml_model.epochs：自定义训练管道或完整管道的时期数（默认值为 150）

工件

当管道为完整管道或评估管道时，“输出”窗格还将包含一个“artifacts”文件夹，其中包含两个文件：

evaluation_metrics.txt 包含预测的字段的 F1 分数。请注意，对于行项目，只会获取所有列的全局分数。
evaluation.xlsx 是一个 Excel 电子表格，其中包含模型预测的每个字段的真实值与预测值的比较，以及文档准确性指标（按准确性升序排序）。因此，最不准确的文档会显示在顶部，以便于诊断和故障排除。

在此页面上

训练管道和重新训练管道
使用来自验证站点的数据进行微调（预览版）
在 GPU 或 CPU 上训练
数据集格式
环境变量
工件

此页面有帮助吗？

前一个AI Center 与 Document Understanding 的关系

下一个关于 ML 包