- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- FieldValue Class
- FieldValueResult Class
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- FieldValueDetails Class
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- 基本数据点类 - 预览
- 提取结果处理程序类 - 预览
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- 发行说明
- 关于“智能 OCR”活动包
- 项目兼容性
- 加载分类
- 将文档数字化
- 分类文档作用域
- 基于关键词的分类器
- Document Understanding 项目分类器
- 智能关键词分类器
- 创建文档分类操作
- 创建文档验证工件
- 检索文档验证工件
- 等待文档分类操作然后继续
- 训练分类器范围
- 基于关键词的分类训练器
- 智能关键词分类训练器
- 数据提取作用域
- Document Understanding 项目提取程序
- Document Understanding 项目提取程序训练器
- 基于正则表达式的提取程序
- 表单提取程序
- 智能表单提取程序
- 文档脱敏
- 创建文档验证操作
- 等待文档验证操作然后继续
- 训练提取程序范围
- 导出提取结果
- 机器学习提取程序
- 机器学习提取程序训练器
- 机器学习分类器
- 机器学习分类训练器
- 生成分类器
- 生成式提取程序
- 配置身份验证
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式

Document Understanding 活动
机器学习提取程序训练器
UiPath.DocumentUnderstanding.ML.Activities.MachineLearningExtractorTrainer
描述
用于收集已通过验证站点处理的数据,以便将其导入到Document Manager中。此活动只能在“训练提取程序范围”活动中使用。
项目兼容性
Windows - Legacy | Windows
配置
设计器面板
本地存储
- Output Folder - The directory where the collected data is stored. Once the data is stored, it can be imported into machine learning training tools.
选择项目的私有数据集
- 数据集- 可上传训练数据的数据集。如果机器人已连接到启用了 AI Center 的租户,您可以在下拉菜单中看到 AI Center 中的所有数据集,并使用下拉菜单选择用于上传已验证文档的文件夹。
- Project - The project where the training data can be uploaded.
备注:
仅当连接到 Orchestrator 时,才会启用项目和数据集选择。有关公共/私有数据集的更多信息,请访问管理数据集。
提供公共数据集端点
- Dataset ApiKey - The authentication key of the dataset.
- “数据集端点” - 可将训练数据上传到的数据集端点。数据集设为 “公开”后,即可在 UiPath™ 环境外部通过端点使用 API 密钥访问该数据集。如果您要将数据集上传到未连接的 AI Center 实例(例如,在混合部署中,AI Center 位于云端,并且机器人已连接到内部部署租户),请执行此操作。
属性面板
常见
- “显示名称”- 活动的显示名称。
本地存储
- Output Folder - The directory where the collected data is stored. Once the data is stored, it can be imported into machine learning training tools.
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
提供公共数据集端点
- Dataset ApiKey - The authentication key of the dataset.
- “数据集端点” - 可将训练数据上传到的数据集端点。数据集设为 “公开”后,即可在 UiPath™ 环境外部通过端点使用 API 密钥访问该数据集。如果您要将数据集上传到未连接的 AI Center 实例(例如,在混合部署中,AI Center 位于云端,并且机器人已连接到内部部署租户),请执行此操作。
选择项目的私有数据集
- 数据集- 可上传训练数据的数据集。如果机器人已连接到启用了 AI Center 的租户,您可以在下拉菜单中看到 AI Center 中的所有数据集,并使用下拉菜单选择用于上传已验证文档的文件夹。
- Project - The project where the training data can be uploaded.
备注:
仅当连接到 Orchestrator 时,才会启用项目和数据集选择。有关公共/私有数据集的更多信息,请访问管理数据集。
服务器
- RetryOnFailure - Retry on transient failure. This field only supports Boolean values (True, False). The default value is True.
- Timeout (milliseconds) - Specifies the amount of time (in milliseconds) to wait for a response from the server before an error is thrown. The default value is 100000 milliseconds (100 seconds).
使用机器学习提取程序训练向导
机器学习提取程序训练器会在所选目录中为您收集人工反馈。收集数据后,如果要重新训练 ML 模型,您只需压缩目录的内容,然后将其上传到Document Manager中来收集和筛选数据。
如何使用
要使用“机器学习提取程序训练器”活动,请执行以下步骤:
-
使用“分类管理器”向导定义文档类型和字段。
-
将机器学习提取程序训练器添加到“训练提取程序作用域”活动中。
-
在自动打开的“机器学习提取程序”向导中,在“端点”字段中输入信息。您可以选择其中一个公共端点。有关公共端点的更多信息,请访问公共端点。
-
如果您还希望使用输入的值作为活动(更确切地说是端点)的输入参数,请选中“更新活动参数”复选框。
-
选择“获取功能” 。完成此操作后,向导将关闭
-
输入输出文件夹的值。
-
Select the Configure Extractors option in the Train Extractors Scope. A wizard is displayed.
图 1. “配置提取程序”向导

-
现在即可配置机器学习提取程序训练器。展开要为哪种文档类型应用训练器,然后选择相应字段旁边的复选框,开始选择要训练的字段。
-
手动填写文本框,或从可用的下拉列表中选择要映射到每个字段的正确数据。下拉列表包含机器学习提取程序训练器(使用在机器学习提取程序向导中输入的端点)声明为提取功能的所有字段。
备注:如果您选中复选框但将文本框留空,则系统将自动使用本地分类中的文档类型 ID 填充文本框。保存后即将应用更改。如果您想避免对字段 ID 使用长字符串,我们建议您手动输入一个值,以防您无权访问提取程序的内部分类。
-
要检查您是否正在使用提取程序的最新功能,可以选择“获取或刷新提取程序功能” ,这将打开“机器学习提取程序”向导。
-
从下拉列表中选择一个选项会自动确认该字段。
-
要根据提取结果训练提取程序,您可以在先前用于提取程序的“框架别名”字段中设置确切的字母数字值。
-
正确配置所有字段后,选择“保存” 。
重要提示:您不能为两个不同的字段选择相同的选项。
Document Understanding 集成
机器学习提取程序训练器活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问Document Understanding 指南。