document-understanding
2021.10
false
UiPath logo, featuring letters U and I in white
不在支持范围内

Document Understanding 用户指南

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
上次更新日期 2024年11月11日

机器学习提取程序

什么是机器学习提取程序

机器学习提取程序是一种数据提取工具,使用机器学习模型来识别和报告执行数据提取的目标数据。

此活动是 UiPath Document Understanding 模型的附带内容,可作为在工作流中使用此类模型的方法。

强烈建议对不同文档提供程序的布局有很大差异的结构化或半结构化文档使用 ML 方法。鉴于其机器学习方法,提取程序会使用经过训练的机器学习模型,该模型可学习并随后推断目标字段的值,甚至是根据从未见过的文档和布局推断值。换句话说,如果文档未遵循某一文本或布局模式,对您的用例而言,机器学习提取程序可能是很好的选择。

机器学习模型的使用方式有多种:

  • 如果您希望使用针对某些文档类型的通用模型,可使用 UiPath 的其中一个公共 Document Understanding 端点;或
  • 从 UiPath Document Understanding 的可用模型开始,使用经过训练的自定义机器学习模型。

您可以训练/重新训练此提取程序。有关详细信息,请参阅“如何训练”部分。

重要提示:无法处理分辨率低于 50 x 50 像素的图像,因而产生错误。

特殊要求

您需要使用

  • UiPath 的其中一个公共 Document Understanding 端点执行数据提取,或
  • 在 Automation Cloud 的 AI Center 中托管的计算机学习模型,或
  • 在内部部署版 AI Center 中托管但通过 Automation Cloud 许可的机器学习模型,您需要使用 Automation Cloud Document Understanding API 密钥。

要使用通过内部部署许可的机器学习提取程序,您需要在 AI Center 内部部署(气密安装)实例中托管 Document Understanding 模型。

如何配置

活动配置

如果您正在使用的端点是通过 Automation Cloud 获得许可,则需要提供 Cloud Document Understanding API 密钥

如果您在使用机器学习提取程序时用的是 UiPath Document Understanding 公共端点或 AI Center 中的公共 ML 技能,则需要使用相应的 URL 配置活动的“端点”参数。

如果您在使用机器学习提取程序时用的是已部署的 ML 技能,则需要使用从 AI Center 中托管的 ML 技能列表中选择的正确参数来配置活动的 ML 技能参数。

如果您尝试同时设置这两个选项,则系统将在“配置向导”或直接在工作流中显示错误:



配置 ML 提取程序功能

首次将机器学习提取程序放置在“数据提取作用域”中时,该提取程序将打开配置向导。如果打开“数据提取作用域”的“配置提取程序”向导,然后单击提取程序名称下的配置图标,则可以使用相同的向导。

该向导允许您输入端点或 ML 技能,并提供 API 密钥(如有必要)。如果输入端点和 API 密钥,输入时不可以使用引号,且值不能为变量。

如果愿意,您可以使用“更新活动参数”选项,使用在向导中添加的值来预先填充活动参数。

单击“获取功能”选项时,机器学习提取程序将使用其内部功能“读取并报告”(它知道的文档类型、字段及处理方法),目的是帮助您正确配置数据提取。

建议您在每次更改工作流中使用的 ML 技能或端点时,使用 ML 提取程序功能向导,以确保数据提取作用域中的配置和分类映射保持有效。

在数据提取作用域中配置 ML 提取程序

运行 ML 提取程序功能向导后,您会注意到,配置提取程序向导不再显示分类映射的文本框,而是会显示下拉列表。



展开要提取数据的目标文档类型,然后开始选择目标字段,方法是选中相应字段旁边的复选框,并从可用的下拉列表中选择您想要从 ML 模型映射到每个特定字段的正确字段。下拉列表包含机器学习提取程序(使用在机器学习提取程序向导中输入的端点)声明为提取功能的所有字段。

要检查您是否正在使用提取程序的最新功能,可以单击“获取或刷新提取程序功能”,这将打开“机器学习提取程序”向导。



重要提示:您不能为两个不同的字段选择相同的选项。

如果您也想使用提取程序的训练功能,强烈建议您在“框架别名”配置字段中输入唯一的字符串(即字母数字值),然后在训练提取程序作用域配置的相应“框架别名”字段中使用完全相同的字符串值,用于需要接收完整训练数据的训练程序。

所有数据配置正确后,选择“保存”按钮。

如何训练

在“训练提取程序范围”中使用“机器学习提取程序训练器”活动,以便为您的机器学习提取程序模型实例收集训练数据。如此收集的数据可在 AI Center 的实例(云端或本地部署)中用于数据收集处理,然后导入以进行训练。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。