Document Understanding
2022.4
False
横幅背景图像
Document Understanding 用户指南
上次更新日期 2024年3月13日

数据提取训练概述

什么是数据提取训练

数据提取训练是 Document Understanding 框架中的一个组件,可帮助关闭能够从人工反馈中学习的提取程序的反馈循环。这将有助于提取程序在其他文档中表现更好(取决于其自身的学习能力)。

何时应使用数据提取训练

您可以构建不包含任何训练组件的 Document Understanding 流程。发生这种情况的原因可能有很多,其中包括:

  • 您使用的提取程序不支持重新训练
  • 您不想执行重新训练,更希望流程始终使用相同的训练
  • 您想离线更新提取程序训练,并在 DU 流程之外管理提取程序训练更新。

但是,在大多数情况下,作为常规流程使用的一部分对提取程序进行训练非常有用,这是因为提取程序可以通过提取人工验证信息来收集自己的训练数据并自行更新,而无需您以任何方式更新已有的工作流。可以说,它们会成为一种自学习算法,可以根据人类已经验证的正确数据,教自己在将来表现得更好。

如何使用数据提取训练组件

您可以通过“训练提取程序作用域”活动完成数据提取训练。作用域活动具有一次配置和执行一个或多个提取程序训练算法的作用,因此您可以训练一个或多个提取程序。

数据提取训练通常在数据提取验证后运行:只有经人工确认的反馈才应发送回分类器进行训练,以确保算法接收的训练数据准确无误。

在自动提取的数据正确无误(无需更正)的情况下,以及在人工更正的情况下,均应运行数据提取训练。这是因为这两种情况都有助于算法学习。

您可以训练已在数据提取组件中使用的提取程序,以及未用于数据提取预测的提取程序。后一种方法用于收集训练数据和从头开始训练提取程序,目的是将其添加到 Document Understanding 工作流中,以备日后使用。

简而言之,以下是“训练提取程序作用域”执行的操作:

  • 为所有提取程序训练器(训练算法)提供运行所需的必要配置。
  • 接受一个或多个提取程序训练器。
  • 允许在项目分类和任何内部提取程序分类之间进行文档类型级别和字段级别筛选以及分类映射。

“训练提取程序作用域”使您能够使用“配置提取程序”向导对其进行配置。您可以自定义

  • 哪些文档类型和字段发送给哪个提取程序训练器进行训练,
  • 项目分类和提取程序的内部分类(如果有)之间的文档类型级别和字段级别分类映射是什么。

“训练提取程序作用域”还使您能够通过在“数据提取作用域”和“训练作用域”中使用相同的框架别名字符串来唯一地标识活动的“提取程序 - 提取程序训练器”对。

可用的提取程序训练器

目前,只有机器学习提取程序具有训练/重新训练功能。该活动位于 UiPath.DocumentUnderstanding.ML.Activities 包中,其训练活动称为机器学习提取程序训练器

  • 什么是数据提取训练
  • 何时应使用数据提取训练
  • 如何使用数据提取训练组件
  • 可用的提取程序训练器

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.