- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
数据提取训练概述
数据提取训练是Document Understanding TM框架中的一个组件,可帮助关闭能够从人工反馈中学习的提取程序的反馈循环。 这将有助于提取程序在后续文档中表现更好(取决于其自身的学习能力)。
您可以构建不包含任何训练组件的 Document Understanding 流程。发生这种情况的原因可能有很多,其中包括:
- 您使用的提取程序不支持重新训练
- 您不想执行重新训练,更希望流程始终使用相同的训练
- 您想离线更新提取程序训练,并在 DU 流程之外管理提取程序训练更新。
但是,在大多数情况下,作为常规流程使用的一部分对提取程序进行训练非常有用,这是因为提取程序可以通过提取人工验证信息来收集自己的训练数据并自行更新,而无需您以任何方式更新已有的工作流。可以说,它们会成为一种自学习算法,可以根据人类已经验证的正确数据,教自己在将来表现得更好。
您可以通过“训练提取程序作用域”活动完成数据提取训练。作用域活动具有一次配置和执行一个或多个提取程序训练算法的作用,因此您可以训练一个或多个提取程序。
数据提取训练通常在数据提取验证后运行:只有经人工确认的反馈才应发送回分类器进行训练,以确保算法接收的训练数据准确无误。
在自动提取的数据正确无误(无需更正)的情况下,以及在人工更正的情况下,均应运行数据提取训练。这是因为这两种情况都有助于算法学习。
您可以训练已在数据提取组件中使用的提取程序,以及未用于数据提取预测的提取程序。后一种方法用于收集训练数据和从头开始训练提取程序,目的是将其添加到 Document Understanding 工作流中,以备日后使用。
简而言之,以下是“训练提取程序作用域”执行的操作:
- 为所有提取程序训练器(训练算法)提供运行所需的必要配置。
- 接受一个或多个提取程序训练器。
- 允许在项目分类和任何内部提取程序分类之间进行文档类型级别和字段级别筛选以及分类映射。
“训练提取程序作用域”使您能够使用“配置提取程序”向导对其进行配置。您可以自定义
- 哪些文档类型和字段发送给哪个提取程序训练器进行训练,
- 项目分类和提取程序的内部分类(如果有)之间的文档类型级别和字段级别分类映射是什么。
“训练提取程序作用域”还使您能够通过在“数据提取作用域”和“训练作用域”中使用相同的框架别名字符串来唯一地标识活动的“提取程序 - 提取程序训练器”对。
目前,只有机器学习提取程序具有训练/重新训练功能。该活动位于 UiPath.DocumentUnderstanding.ML.Activities 包中,其训练活动称为机器学习提取程序训练器。