activities
latest
false
- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
Document Understanding 活动
Last updated 2024年10月29日
机器学习提取程序训练器
UiPath.DocumentUnderstanding.ML.Activities.MachineLearningExtractorTrainer
用于收集已通过验证站点处理的数据,以便将其导入到 Document Manager 中。此活动只能在“训练提取程序范围”活动中使用。
常见
- “显示名称”- 活动的显示名称。
本地存储
- “输出文件夹 ” - 存储收集的数据的目录。 存储数据后,即可将其导入到机器学习训练工具中。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
提供公共数据集端点
- “数据集 ApiKey ” - 数据集的身份验证密钥。
- 数据集端点- 可上传训练数据的数据集端点。 数据集设为“公开”后,即可通过端点并使用 API 密钥在UiPath™环境外部对其进行访问。 如果您要将数据集上传到未连接到的 AI Center 实例(例如,在混合部署中,AI Center 位于云上,并且机器人已连接到内部部署租户),请执行此操作。
选择项目的私有数据集
- “数据集 ” - 可上传训练数据的数据集。 如果机器人连接到启用了 AI Center 的租户,则您可以在下拉菜单中查看 AI Center 中的所有数据集,并使用下拉菜单选择要上传经过验证的文档的文件夹。
-
“项目” - 可以上传训练数据的项目。
注意:仅当连接到 Orchestrator 时,才会启用项目和数据集选择。有关公共/私有数据集的更多信息,请访问管理数据集。
服务器
- “失败时重试”- 出现暂时性失败时重试。该字段仅支持“布尔值”(True 和 False)。默认值为“True”。
- “超时 (以毫秒为单位)”- 指定等待时间 (以毫秒为单位),如果超出该时间服务器未响应,就会引发错误。默认值为 100000 毫秒 (100 秒)。
机器学习提取程序训练器会在所选目录中为您收集人工反馈。 收集数据后,如果要重新训练 ML 模型,您只需压缩目录的内容,然后将其上传到Document Manager中,即可收集和筛选数据。
要使用“机器学习提取程序训练器”活动,请执行以下步骤:
- 使用“分类管理器”向导定义文档类型和字段。
- 将机器学习提取程序训练器添加到“训练提取程序作用域”活动中。
- 在自动打开的“机器学习提取程序”向导中,在“端点”字段中输入信息。您可以选择其中一个公共端点。有关公共端点的更多信息,请访问公共端点。
- 如果您还希望使用输入的值作为活动(更确切地说是端点)的输入参数,请选中“更新活动参数”复选框。
- 选择“获取功能”。
完成此操作后,向导将关闭
- 输入输出文件夹的值。
- 选择“训练提取程序作用域”的“配置提取程序”选项。
系统将显示向导程序。
图 1. “配置提取程序”向导
- 现在即可配置机器学习提取程序训练器。展开要为哪种文档类型应用训练器,然后选择相应字段旁边的复选框,开始选择要训练的字段。
- 手动填写文本框,或从可用的下拉列表中选择要映射到每个字段的正确数据。下拉列表包含机器学习提取程序训练器(使用在机器学习提取程序向导中输入的端点)声明为提取功能的所有字段。
注意:如果您选择复选框但将文本框留空,则系统将自动使用本地分类中的文档类型 ID 填充文本框。保存后即将应用更改。如果您想避免对字段 ID 使用长字符串,我们建议您手动输入一个值,以防您无权访问提取程序的内部分类。
- 要检查您是否正在使用提取程序的最新功能,可以选择“获取或刷新提取程序功能”,这将打开“机器学习提取程序”向导。
- 从下拉列表中选择一个选项会自动确认该字段。
- 要根据提取结果训练提取程序,您可以在先前用于提取程序的“框架别名”字段中设置确切的字母数字值。
- 正确配置所有字段后,选择“保存”。
重要提示:您不能为两个不同的字段选择相同的选项。
Document Understanding 集成
机器学习提取程序训练器活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南。