活动
最新
False
横幅背景图像
Document Understanding 活动
上次更新日期 2024年3月20日

智能关键词分类器

UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier

此活动使任何用户都可以将文档包分类并拆分为单个文档类型。

它只能与“ 对 文档范围进行分类” 活动一起使用。

属性

常见
  • “显示名称”- 活动的显示名称。
输入
  • ApiKey - 指定帐户的 API 密钥。 如果在本地项目设置或 Document Understanding 框架中定义了“API 密钥”字段,则会自动预填充该字段。
  • “端点”- UiPath 服务器的 URL。默认情况下,端点为 https://du.uipath.com/svc/intelligentkeywords。有关更多信息,请参阅 Document Understanding 公共端点
  • 学习 数据” - 包含序列化分类器数据的字符串。 此字段仅支持字符串和字符串变量。
  • “学习文件路径”- 包含分类器数据的文件的完整路径。此字段仅支持字符串和 String 变量。
    备注:

    一次只能设置上述参数之一。 您可以使用 LearningData 字符串或 LearningFilePath 字符串。

    LearningFilePath 指定从中检索分类器数据的位置。

    LearningData 包含该分类器的实际信息。

  • 发送文档 - 发送文档以获得更好的支持、故障排除和性能改进。
其他
  • “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
    注意: 最佳做法是在该位置创建一个 .json 文件,然后在“ 学习 文件路径” 字段中使用其名称。

拆分

  • 执行文档拆分 - 如果取消选中,模型将不执行文档拆分,仅执行分类。
  • 使用页码 - 如果选中,则该模式将使用页码功能来决定拆分文档的位置。如果页码可能会改善拆分结果,请使用它。
注意:从版本 6.9.0 开始,“智能关键词分类器”活动的拆分性能已得到改进。为了优化拆分性能,请使用 6.9.0 或更高版本。

使用“管理学习”向导

访问“ 管理学习 ”向导以配置“ 智能关键字分类 器”活动。 通过打开具有更新的学习文件路径的同一向导,可以使用同一向导查看在文档分类训练阶段收集的数据。

此向导允许您配置和管理“智能关键词分类器”用于识别文档类型和对文档进行分类的训练数据。创建它是为了适应编辑文件路径的需要。如果改用带有变量的“学习数据”选项,则系统会询问您是否要编辑特定文件路径或中止此操作。

注意:管理学习”向导仅在活动配置了学习文件路径字符串时有效。它不适用于设置为变量输入的学习文件路径学习数据字符串输入。
  1. 向您的工作流中添加“智能关键字分类器”/“智能关键字分类器训练器”活动。
  2. 通过添加 .json 文件的路径来配置“智能关键字分类器”活动。
    • 如果未提供路径并且单击了“管理学习”选项,则会显示一个弹出窗口,要求输入学习文件路径。提供路径后,系统将打开向导。
    • 可以添加变量而不是 .json 文件,但是,由于向导无法将学习模式应用于学习数据变量,因此它会要求您提供可编辑的特定文件路径。
  3. 单击“管理学习”选项。

    • 系统将打开“向导”窗口。


  • 如果未提供路径并且单击了“管理学习”选项,则会显示一个弹出窗口,要求提供学习文件路径。提供路径后,系统将打开向导。


注意:即使没有可用的 .json 文件,您也可以直接将新的 .json 文件的名称添加到活动中,系统会在指定的文件夹中自动创建 .json 文件。

下面的屏幕截图显示了一种已接受训练的文档类型,一种尚未接受训练的文档类型,以及一种已接受训练且可访问以进行查看或删除的文档类型。



对于尚未接受训练的文档类型,可以使用“开始训练”选项执行设计时训练。对于已经过训练的文档类型,您可以使用此 选项将其删除以重新开始,或使用“编辑” 选项执行额外训练(累积到现有训练)。

注意:要使用的训练文件必须每个文件包含一个文档类型实例。不要对包含两种或两种以上文档类型的文件运行设计时训练,这是因为您的训练数据会有错误。

启动新训练后,系统将显示一个新屏幕,询问应使用的训练文件和 OCR 引擎。默认的 OCR 引擎是 UiPath 文档 OCR。



每个 OCR 引擎都有自己的自定义选项集。

备注:

以下 OCR 引擎不支持轮换文档,也不应用于处理此类文档:

  • Microsoft OCR
  • Tesseract OCR

对 PDF 应用 OCR” 选项用于确定是否应将 OCR 流程应用于 PDF 文档。 下拉列表中提供三个选项: TrueFalseAuto

如果设置为“True”,则 OCR 将应用于文档的所有 PDF 页面。如果设置为“False”,则仅提取数字输入的文本。默认值为“自动”,根据输入文档确定文档是否需要应用 OCR 算法。

备注:

如果 UiPath.IntelligentOCR.Activities 包已更新到 v5.1.0, 则 ForceApplyOCR 参数已替换为 ApplyOcrOnPDF。 以下是新旧参数之间的兼容性:

• ForceApplyOCR = True 正在替换为 ApplyOcrOnPDF = Yes

• “强制应用 OCR = False”正在替换为“将 OCR 应用于 PDF = Auto”

• “强制应用 OCR = Empty”正在替换为“将 OCR 应用于 PDF = Auto”

强制应用 OCR = <user-defined variable> 正在替换为将 OCR 应用于 PDF = 自动

只有来自已接受训练文档类型的训练数据才符合导出条件。无法选择未经训练的文档类型。



导出训练数据

您可以按照以下步骤导出训练数据:

  1. 选择已经过训练的文档类型。
  2. 单击“导出”按钮。
  3. 如果您有未保存的更改,则会显示以下消息。


  4. 单击“是”
  5. 使用所需名称保存训练数据存档。
  6. 系统将显示一条消息,说明已导出的文档类型训练数据集的数量。例如:


  7. 单击“确定”以返回到向导的主屏幕。
导入训练数据

您可以按照以下步骤导入训练数据:

  1. 单击“导入”按钮。
  2. 选择训练数据存档,然后单击“打开”
  3. 选择所需的文档类型。


  4. 单击“导入”按钮。
  5. 将导入训练数据。


下表说明了导入训练数据时显示的每条消息:

导入类型

显示的消息

新建文档类型和词向量

系统会将此文档类型添加至分类

新的词向量(之前未定义)

不适用

相同的文档类型和词向量

此文档类型的词向量将被覆盖

Document Understanding 集成

智能关键词分类器活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南

  • 属性
  • 使用“管理学习”向导

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.