- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
文档分类训练概述
文档分类训练是Document Understanding TM中的一个组件,可帮助关闭能够从人工反馈中学习的分类器的反馈循环。
您可以构建不包含任何训练组件的 Document Understanding 流程。发生这种情况的原因可能有很多,其中包括:
- 您使用的分类器不支持重新训练
- 您不想执行重新训练,更希望流程始终使用相同的训练
- 您想离线更新分类器训练,并且在 DU 流程之外管理分类器训练更新。
但是,在大多数情况下,作为常规流程使用的一部分对分类器进行训练非常有用,这是因为分类器可以通过吸收人工验证信息来收集自己的训练数据并自行更新,而无需您以任何方式更新已有的工作流。可以说,它们会成为一种自学习算法,可以根据人类已经验证的正确数据,教自己在将来表现得更好。
分类训练通过“训练分类器作用域”活动来完成。作用域活动具有一次配置和执行一个或多个分类训练算法的作用,因此您可以训练一个或多个分类器。
分类训练通常在文档分类验证后运行:只有经人工确认的反馈才应发送回分类器进行训练,以确保算法接收的训练数据准确无误。
在分类失败的情况下(无自动分类或由知识工作者更正的自动分类),以及在分类成功的情况下(用户在验证阶段未做任何更正,所有自动结果均经确认),都应执行分类训练。这是因为这两种情况都有助于算法学习。
您可以训练已在文档分类阶段使用的分类器,以及尚未用于进行分类预测的分类器。后一种方法用于收集训练数据和从头开始训练分类器,目的是将其添加到 Document Understanding 工作流中,以备稍后使用。
简而言之,“训练分类器作用域”的执行内容如下:
- 为所有分类器训练器(训练算法)提供运行所需的必要配置。
- 接受一个或多个分类器训练器。
- 允许在项目分类和任何内部分类器分类之间进行文档类型筛选和分类映射。
“训练分类器作用域”允许您使用配置分类器向导对其进行配置。您可以自定义
- 将哪些文档类型发送至哪些分类器训练器进行训练,
- 项目分类和分类器的内部分类(如有)之间在文档类型级别的分类映射是什么。
分类器及其各自的训练器活动可以在 UiPath.IntelligentOCR.Activities 包和 UiPath.DocumentUnderstanding.ML.Activities 中找到。
可用的分类器训练器包括:
- 基于关键字的分类器训练器:针对基于关键字的分类器的训练器活动
- 智能关键字分类器训练器:针对智能关键字分类器的训练器活动
- 机器学习分类训练器:针对机器学习分类器的训练器活动。