document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 新式项目用户指南

上次更新日期 2025年12月9日

重新训练提取程序

您可以使用在验证站点中验证的文档,进一步提高模型的性能。

您可以使用以下活动重新训练文档经过处理的文档:
  • UiPath.DocumentUnderstanding.Activities:使用此活动包处理并在验证站点中验证的所有文档都会自动收集,可用于重新训练。
  • UiPath.IntelligentOCR.Activities(从 6.25.0 预览版开始):要重新训练使用此活动包处理的文档,请在工作流中使用 Document Understanding 项目提取程序训练活动。这样,可以收集文档以进行重新训练。

现在, “审核例外”按钮对于“构建”部分中的相应文档类型始终可见。如果未收集到任何文档,则该按钮保持可用状态,并显示计数为 0。

注意:收集的文档不会自动包含在训练集中。 您需要查看文档并确认将其添加到训练集中,以重新训练您的模型。

待审核的异常

按照此过程中的步骤,使用验证站点中的文档微调模型。
注意:针对异常情况收集的文档将存储 90 秒,在此期限后,系统将自动将其删除。

不会收集持续时间超过 7 天的验证任务的文档。

  1. 选择“待审核的异常”按钮。
  2. 查看“待微调的异常”菜单中的异常文档。
    每个文档都提供以下信息:
    • 文件名称:包含异常的文档的文件名称。
    • 状态:文档的状态。
    • 页面:文档包含的页面数。
    • 项目版本:包含文档的项目版本。
    • 处理日期:处理文档的日期。
    • 提取字段的数量:包含异常的文档的提取字段数量。
    • 更正字段的数量:在验证阶段被修改的字段数量。
    • 验证者姓名:验证文档的人员的用户名。
    注意: “微调例外”列表可能包括从其他 Document Understanding 项目或环境导入的文档。


  3. 从列表中选择你想要用于微调的文档。
    每个文档都提供以下信息:
    • 此时将显示所有提取的字段以及模型的置信度。如果置信度的值为 N/A,这表示该字段未自动提取,而是由验证者手动添加的。
    • 更正的字段的提取字段名称旁边标记有黄点。
    • 以下信息可用于所有更正的字段:
      • 预测值:模型预测的值。
      • 更正的值:如果手动更改,则为验证后的值。 如果文档类型在验证后未更改,值将为“不适用”
      • 引用:文档上高亮显示的原始值。 如果您决定将该文档用于微调,此值会用于标注。
    • 您可以轻松按置信度排序查看置信度低的字段,无需进行更正。
    • 您也可以筛选出已更正的字段,专注于这类字段。


  4. 如果您想进一步标注此文档,请选择“标注”,如果您想使用此文档重新训练模型,请选择“用于模型微调”
    • 用于模型微调
      • 当文档是模型微调的理想样本、且所有字段在文档中引用正确时选择此项。
      • 文档导入训练中时带有“异常”标签,而且所有标注均已完成确认。文档将用于微调。
    • 标注
      • 如果文档是模型微调的良好示例,但存在一些验证错误,例如并非所有字段都在文档中正确引用且需要进一步更正,请选择此字段。
      • 文档导入训练集中时带有“异常”标签,而且所有标注均未确认。标注必须在构建部分中完成确认,文档才能用于微调模型。
      • 如果您选择进一步标注文档,请查看“标注文档”页面,了解有关如何标注文档的更多信息。
    • 排除
      • 当文档并非理想样本,且需将其从待审核异常列表中移除,而且在未来审核会话中无需审核该文档时选择此项。
      • 您可以更改文档的状态以恢复更改。
    图 1. 用于微调或标注的选定文档

选择所有文档进行微调后,系统会使用验证站点中的新数据重新训练您的模型。

您可以创建新的项目版本,并使用“度量”部分中的“比较模型”功能对模型性能进行比较。

[预览] 导出和导入重新训练候选对象

Document Understanding 允许您从一个环境导出重新训练候选对象并将其导入到另一个环境中。

此设置通常用于您维护“开发-测试-生产”环境结构的场景,并且流程涉及在更高环境(例如测试、UAT 或生产)中创建开发 Document Understanding 项目的副本。在这种安排中,重新训练文档将收集在生产项目中,而导出– 导入功能允许您将文档带回开发环境以进行模型重新训练,然后将更新提升回更高级的环境。

导出再训练候选对象

您可以通过选择“导出” 按钮,直接从“例外以供审核” 页面导出重新训练候选对象。选择“查看导出”以访问导出文件的列表。



您可以选择导出所有收集的文档,也可以仅导出选定的子集,具体取决于您希望如何管理审核流程,如以下示例中所述:

  • 您可以导出所有收集的文档,并在计划导入这些文档的环境中对这些文档进行分类,然后重新训练模型。
  • 您可以在当前环境中完成审核,并仅导出要用于重新训练的特定文档。


导入重新训练候选对象

“待审核的例外”页面导入。导入的文档的显示方式与自动从“验证站点”收集的文档类似,并具有“目标审核”状态。

导入的文档将添加为重新训练候选对象。对于模型微调,只需遵循与直接在项目中收集的文档相同的步骤。请记住在将重新训练候选对象添加到训练集之前对其进行审核和确认。

  • 待审核的异常
  • [预览] 导出和导入重新训练候选对象
  • 导出再训练候选对象
  • 导入重新训练候选对象

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo
信任与安全
© 2005-2025 UiPath。保留所有权利。