活动 - 机器学习提取程序训练器

activities

latest

false

Document Understanding 活动

重要 :

请注意，此内容已使用机器翻译进行了部分本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

机器学习提取程序训练器

通过收集验证站点数据来训练机器学习提取模型，以便使用“机器学习提取程序训练器”活动导入到 Document Understanding。

UiPath.DocumentUnderstanding.ML.Activities.MachineLearningExtractorTrainer

描述

用于收集已通过验证站点处理的数据，以便将其导入到Document Manager中。此活动只能在“训练提取程序范围”活动中使用。

项目兼容性

Windows - Legacy | Windows

配置

设计器面板

本地存储

Output Folder - The directory where the collected data is stored. Once the data is stored, it can be imported into machine learning training tools.

选择项目的私有数据集

数据集- 可上传训练数据的数据集。如果机器人已连接到启用了 AI Center 的租户，您可以在下拉菜单中看到 AI Center 中的所有数据集，并使用下拉菜单选择用于上传已验证文档的文件夹。
Project - The project where the training data can be uploaded.
备注：
仅当连接到 Orchestrator 时，才会启用项目和数据集选择。有关公共/私有数据集的更多信息，请访问管理数据集。

提供公共数据集端点

Dataset ApiKey - The authentication key of the dataset.
“数据集端点” - 可将训练数据上传到的数据集端点。数据集设为 “公开”后，即可在 UiPath™ 环境外部通过端点使用 API 密钥访问该数据集。如果您要将数据集上传到未连接的 AI Center 实例（例如，在混合部署中，AI Center 位于云端，并且机器人已连接到内部部署租户），请执行此操作。

属性面板

常见

“显示名称”- 活动的显示名称。

本地存储

Output Folder - The directory where the collected data is stored. Once the data is stored, it can be imported into machine learning training tools.

其他

“私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。

提供公共数据集端点

Dataset ApiKey - The authentication key of the dataset.
“数据集端点” - 可将训练数据上传到的数据集端点。数据集设为 “公开”后，即可在 UiPath™ 环境外部通过端点使用 API 密钥访问该数据集。如果您要将数据集上传到未连接的 AI Center 实例（例如，在混合部署中，AI Center 位于云端，并且机器人已连接到内部部署租户），请执行此操作。

选择项目的私有数据集

数据集- 可上传训练数据的数据集。如果机器人已连接到启用了 AI Center 的租户，您可以在下拉菜单中看到 AI Center 中的所有数据集，并使用下拉菜单选择用于上传已验证文档的文件夹。
Project - The project where the training data can be uploaded.
备注：
仅当连接到 Orchestrator 时，才会启用项目和数据集选择。有关公共/私有数据集的更多信息，请访问管理数据集。

服务器

RetryOnFailure - Retry on transient failure. This field only supports Boolean values (True, False). The default value is True.
Timeout (milliseconds) - Specifies the amount of time (in milliseconds) to wait for a response from the server before an error is thrown. The default value is 100000 milliseconds (100 seconds).

使用机器学习提取程序训练向导

机器学习提取程序训练器会在所选目录中为您收集人工反馈。收集数据后，如果要重新训练 ML 模型，您只需压缩目录的内容，然后将其上传到Document Manager中来收集和筛选数据。

如何使用

要使用“机器学习提取程序训练器”活动，请执行以下步骤：

使用“分类管理器”向导定义文档类型和字段。
将机器学习提取程序训练器添加到“训练提取程序作用域”活动中。
在自动打开的“机器学习提取程序”向导中，在“端点”字段中输入信息。您可以选择其中一个公共端点。有关公共端点的更多信息，请访问公共端点。
如果您还希望使用输入的值作为活动（更确切地说是端点）的输入参数，请选中“更新活动参数”复选框。
选择“获取功能” 。完成此操作后，向导将关闭
输入输出文件夹的值。
Select the Configure Extractors option in the Train Extractors Scope. A wizard is displayed.

图 1. “配置提取程序”向导
现在即可配置机器学习提取程序训练器。展开要为哪种文档类型应用训练器，然后选择相应字段旁边的复选框，开始选择要训练的字段。
手动填写文本框，或从可用的下拉列表中选择要映射到每个字段的正确数据。下拉列表包含机器学习提取程序训练器（使用在机器学习提取程序向导中输入的端点）声明为提取功能的所有字段。

备注：
如果您选中复选框但将文本框留空，则系统将自动使用本地分类中的文档类型 ID 填充文本框。保存后即将应用更改。如果您想避免对字段 ID 使用长字符串，我们建议您手动输入一个值，以防您无权访问提取程序的内部分类。
要检查您是否正在使用提取程序的最新功能，可以选择“获取或刷新提取程序功能” ，这将打开“机器学习提取程序”向导。
从下拉列表中选择一个选项会自动确认该字段。
要根据提取结果训练提取程序，您可以在先前用于提取程序的“框架别名”字段中设置确切的字母数字值。
正确配置所有字段后，选择“保存” 。

重要提示：
您不能为两个不同的字段选择相同的选项。

Document Understanding 集成

机器学习提取程序训练器活动是 Document Understanding 解决方案的一部分。如需了解详情，请访问Document Understanding 指南。

在此页面上

描述
项目兼容性
配置
设计器面板
属性面板
使用机器学习提取程序训练向导
如何使用
Document Understanding 集成

此页面有帮助吗？

前一个机器学习提取程序

下一个机器学习分类器

描述​

项目兼容性​

配置​

设计器面板​

本地存储​

选择项目的私有数据集​

提供公共数据集端点​

属性面板​

常见​

本地存储​

其他​

提供公共数据集端点​

选择项目的私有数据集​

服务器​

使用机器学习提取程序训练向导​

如何使用​

Document Understanding 集成​

此页面有帮助吗？

描述

项目兼容性

配置

设计器面板

本地存储

选择项目的私有数据集

提供公共数据集端点

属性面板

常见

本地存储

其他

提供公共数据集端点

选择项目的私有数据集

服务器

使用机器学习提取程序训练向导

如何使用

Document Understanding 集成