Document Understanding - 数据提取训练概述

document-understanding

2021.10

false

Document Understanding 用户指南

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

数据提取训练概述

数据提取训练是 Document Understanding 框架中的一个组件，可帮助关闭能够从人工反馈中学习的提取程序的反馈循环。这将有助于提取程序在后续文档中表现更好（取决于其自身的学习能力）。

您可以构建不包含任何训练组件的 Document Understanding 流程。发生这种情况的原因可能有很多，其中包括：

但是，在大多数情况下，作为常规流程使用的一部分对提取程序进行训练非常有用，这是因为提取程序可以通过提取人工验证信息来收集自己的训练数据并自行更新，而无需您以任何方式更新已有的工作流。可以说，它们会成为一种自学习算法，可以根据人类已经验证的正确数据，教自己在将来表现得更好。

您可以通过“训练提取程序作用域”活动完成数据提取训练。作用域活动具有一次配置和执行一个或多个提取程序训练算法的作用，因此您可以训练一个或多个提取程序。

数据提取训练通常在数据提取验证后运行：只有经人工确认的反馈才应发送回分类器进行训练，以确保算法接收的训练数据准确无误。

在自动提取的数据正确无误（无需更正）的情况下，以及在人工更正的情况下，均应运行数据提取训练。这是因为这两种情况都有助于算法学习。

您可以训练已在数据提取组件中使用的提取程序，以及未用于数据提取预测的提取程序。后一种方法用于收集训练数据和从头开始训练提取程序，目的是将其添加到 Document Understanding 工作流中，以备日后使用。

简而言之，以下是“训练提取程序作用域”执行的操作：

“训练提取程序作用域”使您能够使用“配置提取程序”向导对其进行配置。您可以自定义

“训练提取程序作用域”还使您能够通过在“数据提取作用域”和“训练作用域”中使用相同的框架别名字符串来唯一地标识活动的“提取程序 - 提取程序训练器”对。

在此页面上

前一个数据提取训练

下一个训练提取程序作用域的配置提取程序向导