- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 管道
- Document Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 深度学习
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding 用户指南
数据提取训练概述
数据提取训练是 Document Understanding 框架中的一个组件,可帮助关闭能够从人工反馈中学习的提取程序的反馈循环。这将有助于提取程序在后续文档中表现更好(取决于其自身的学习能力)。
您可以构建不包含任何训练组件的 Document Understanding 流程。发生这种情况的原因可能有很多,其中包括:
- 您使用的提取程序不支持重新训练
- 您不想执行重新训练,更希望流程始终使用相同的训练
- 您想离线更新提取程序训练,并在 DU 流程之外管理提取程序训练更新。
但是,在大多数情况下,作为常规流程使用的一部分对提取程序进行训练非常有用,这是因为提取程序可以通过提取人工验证信息来收集自己的训练数据并自行更新,而无需您以任何方式更新已有的工作流。可以说,它们会成为一种自学习算法,可以根据人类已经验证的正确数据,教自己在将来表现得更好。
您可以通过“训练提取程序作用域”活动完成数据提取训练。作用域活动具有一次配置和执行一个或多个提取程序训练算法的作用,因此您可以训练一个或多个提取程序。
数据提取训练通常在数据提取验证后运行:只有经人工确认的反馈才应发送回分类器进行训练,以确保算法接收的训练数据准确无误。
在自动提取的数据正确无误(无需更正)的情况下,以及在人工更正的情况下,均应运行数据提取训练。这是因为这两种情况都有助于算法学习。
您可以训练已在数据提取组件中使用的提取程序,以及未用于数据提取预测的提取程序。后一种方法用于收集训练数据和从头开始训练提取程序,目的是将其添加到 Document Understanding 工作流中,以备日后使用。
简而言之,以下是“训练提取程序作用域”执行的操作:
- 为所有提取程序训练器(训练算法)提供运行所需的必要配置。
- 接受一个或多个提取程序训练器。
- 允许在项目分类和任何内部提取程序分类之间进行文档类型级别和字段级别筛选以及分类映射。
“训练提取程序作用域”使您能够使用“配置提取程序”向导对其进行配置。您可以自定义
- 哪些文档类型和字段发送给哪个提取程序训练器进行训练,
- 项目分类和提取程序的内部分类(如果有)之间的文档类型级别和字段级别分类映射是什么。
“训练提取程序作用域”还使您能够通过在“数据提取作用域”和“训练作用域”中使用相同的框架别名字符串来唯一地标识活动的“提取程序 - 提取程序训练器”对。
目前,只有机器学习提取程序具有训练/重新训练功能。该活动位于 UiPath.DocumentUnderstanding.ML.Activities 包中,其训练活动称为机器学习提取程序训练器。