UiPath Documentation
document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 用户指南

上次更新日期 2026年5月13日

重新训练提取程序

备注:

功能可用性取决于您使用的云平台。有关详细信息,请参阅“选择部署类型”页面

您可以使用在验证站点中验证的文档,进一步提高模型的性能。

您可以使用以下活动重新训练文档经过处理的文档:

  • UiPath.DocumentUnderstanding.Activities:使用此活动包处理并在验证站点中验证的所有文档都会自动收集,可用于重新训练。
  • UiPath.IntelligentOCR.Activities (从 6.25.0 预览版开始):要重新训练使用此活动包处理的文档,请在工作流中使用“ Document Understanding 项目提取程序训练器”活动。这样便可收集文档以用于重新训练目的。

现在,对于相应文档类型,在“构建”部分中始终可见“审核异常”按钮。 如果未收集任何文档,则该按钮将保持可用状态,并显示 0 个计数。

备注:

Collected documents are not automatically included in the training set. Review the documents and confirm their addition in the training set. Then select Start Training on the document type's annotation page to queue a new training run that includes the added documents. For details, see Start a training run.

待审核的异常

按照此过程中的步骤,使用验证站点中的文档微调模型。

备注:

针对异常情况收集的文档将存储 90 秒,在此期限后,系统会将其自动删除。系统不会为持续时间超过 7 天的验证任务收集文档。

  1. 选择“待审核的异常”按钮。

  2. 查看“待微调的异常”菜单中的异常文档。

    每个文档都提供以下信息:

    • 文件名称:包含异常的文档的文件名称。
    • 状态:文档的状态。
    • 页面:文档包含的页面数。
    • 项目版本:包含文档的项目版本。
    • 处理日期:处理文档的日期。
    • 提取字段的数量:包含异常的文档的提取字段数量。
    • 更正字段的数量:在验证阶段被修改的字段数量。
    • 验证者姓名:验证文档的人员的用户名。
    备注:

    “微调例外”列表可能包括从其他 Document Understanding 项目或环境导入的文档。

  3. 从列表中选择你想要用于微调的文档。

    每个文档都提供以下信息:

    • 此时将显示所有提取的字段以及模型的置信度。如果置信度的值为 N/A,这表示该字段未自动提取,而是由验证者手动添加的。
    • 更正的字段的提取字段名称旁边标记有黄点。
    • 以下信息可用于所有更正的字段:
      • 预测值:模型预测的值。
      • 更正的值:如果手动更改,则为验证后的值。如果验证后未更改文档类型,则该值将为N/A
      • 参考:文档中高亮显示的原始值。如果您决定使用文档进行微调,则此值将用于注释。
    • 您可以轻松按置信度排序查看置信度低的字段,无需进行更正。
    • 您也可以筛选出已更正的字段,专注于这类字段。

  4. 如果您想进一步标注此文档,请选择“标注”,如果您想使用此文档重新训练模型,请选择“用于模型微调”

    • 用于模型微调
      • 当文档是模型微调的理想样本、且所有字段在文档中引用正确时选择此项。
      • 文档导入训练中时带有“异常”标签,而且所有标注均已完成确认。文档将用于微调。
    • 标注
      • 如果文档是模型微调的良好示例,但存在一些验证错误,例如并非所有字段都在文档中正确引用,需要进一步更正,则请选择此选项。
      • 文档导入训练集中时带有“异常”标签,而且所有标注均未确认。标注必须在构建部分中完成确认,文档才能用于微调模型。
      • 如果您选择进一步标注文档,请查看“标注文档”页面,了解有关如何标注文档的更多信息。
    • 排除
      • 当文档并非理想样本,且需将其从待审核异常列表中移除,而且在未来审核会话中无需审核该文档时选择此项。
      • 您可以更改文档的状态以恢复更改。

    图 1. 用于微调或标注的选定文档

选择所有文档进行微调后,系统会使用验证站点中的新数据重新训练您的模型。

您可以创建新的项目版本,并使用“度量”部分中的“比较模型”功能对模型性能进行比较。

[预览] 导出和导入重新训练候选对象

Document Understanding 允许您从一个环境导出重新训练候选对象,然后将其导入到另一个环境。

此设置通常用于以下场景:您维护开发 - 测试 - 生产环境结构,您的流程涉及在更高层次的环境(例如测试、UAT 或生产)中创建开发 Document Understanding 项目的副本。 在此安排中,重新训练文档会被收集到生产项目中,导出 - 导入功能允许您将文档带回开发环境以进行模型重新训练,然后将更新推回更高层次的环境。

导出重新训练候选对象

您可以选择“导出”按钮,直接从“待审核的异常”页面导出重新训练候选对象。 选择“查看导出”,以访问已导出文件的列表。

您可以选择导出所有收集的文档或仅导出所选子集,具体取决于您喜欢如何管理审核流程,如下例所述:

  • 您可以导出所有收集的文档,在计划导入文档并重新训练模型的环境中对其进行分类。

  • 您可以在当前环境中完成审核,并仅导出要用于重新训练的特定文档。

导入重新训练候选对象

“待审核的例外”页面导入。导入的文档的显示方式与自动从“验证站点”收集的文档类似,并具有“目标审核”状态。

已导入的文档将作为重新训练候选对象添加。 要对模型进行微调,只需执行与直接在项目中收集的文档相同的步骤。 请记住,在将重新训练候选对象添加到训练集中之前,请查看并确认它们。

  • 待审核的异常
  • [预览] 导出和导入重新训练候选对象
  • 导出重新训练候选对象
  • 导入重新训练候选对象

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新