- 入门指南
- 框架组件
- 文档分类训练概述
- 训练分类器作用域的配置分类器向导
- 文档分类训练相关活动
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
Document Understanding 用户指南
文档分类训练概述
文档分类训练是 Document Understanding 中的一个组件,可帮助关闭能够从人工反馈中学习的分类器的反馈循环。
您可以构建不包含任何训练组件的 Document Understanding 流程。发生这种情况的原因可能有很多,其中包括:
- 您使用的分类器不支持重新训练
- 您不想执行重新训练,更希望流程始终使用相同的训练
- 您想离线更新分类器训练,并且在 DU 流程之外管理分类器训练更新。
但是,在大多数情况下,作为常规流程使用的一部分对分类器进行训练非常有用,这是因为分类器可以通过吸收人工验证信息来收集自己的训练数据并自行更新,而无需您以任何方式更新已有的工作流。可以说,它们会成为一种自学习算法,可以根据人类已经验证的正确数据,教自己在将来表现得更好。
分类训练通过“训练分类器作用域”活动来完成。作用域活动具有一次配置和执行一个或多个分类训练算法的作用,因此您可以训练一个或多个分类器。
分类训练通常在文档分类验证后运行:只有经人工确认的反馈才应发送回分类器进行训练,以确保算法接收的训练数据准确无误。
在分类失败的情况下(无自动分类或由知识工作者更正的自动分类),以及在分类成功的情况下(用户在验证阶段未做任何更正,所有自动结果均经确认),都应执行分类训练。这是因为这两种情况都有助于算法学习。
您可以训练已在文档分类阶段使用的分类器,以及尚未用于进行分类预测的分类器。后一种方法用于收集训练数据和从头开始训练分类器,目的是将其添加到 Document Understanding 工作流中,以备稍后使用。
简而言之,“训练分类器作用域”的执行内容如下:
- 为所有分类器训练器(训练算法)提供运行所需的必要配置。
- 接受一个或多个分类器训练器。
- 允许在项目分类和任何内部分类器分类之间进行文档类型筛选和分类映射。
“训练分类器作用域”允许您使用配置分类器向导对其进行配置。您可以自定义
- 将哪些文档类型发送至哪些分类器训练器进行训练,
- 项目分类和分类器的内部分类(如有)之间在文档类型级别的分类映射是什么。
分类器及其各自的训练器活动可以在 UiPath.IntelligentOCR.Activities 包中找到。
可用的分类器训练器包括:
- 基于关键字的分类器训练器,针对基于关键字的分类器的训练器活动
- 智能关键字分类器训练器,针对智能关键字分类器的训练器活动