Document Understanding
2021.10
False
横幅背景图像
Document Understanding 用户指南
上次更新日期 2024年2月28日

智能关键词分类器

什么是智能关键字分类器

智能关键字分类器是一种分类器,它使用从某些文档类型的文件中学习的字词向量执行文档分类。

该算法围绕对相同文档类型重复内容的概念构建而成,其前提是文档类型包含一系列通常会在这些文档类型中出现的词,从而可以计算向量相似度。

将文件归入某一文档类型时,“智能关键字分类器”

  • 会查找与文件更相似的最接近的字词向量,
  • 会报告得分最高的文档类型,以及基本的匹配主字词。

“智能关键字分类器”还具有文件拆分功能,这意味着它可以针对给定文件、单独的页面范围报告多个类。

何时使用

在下列情况下,您应考虑使用此分类器:

  • 您的文件在单个文件中包含一个或多个文档类型
  • 就内容而言,您的文档类型相对容易区分。

特殊要求

您需要使用 Automation Cloud Document Understanding API 密钥,或在 AI Center 内部部署版内托管自己的“智能关键字分类器”实例,才能使用此分类器。

如何在设计时进行配置

您只需访问活动的管理学习向导,即可在设计时配置“基于关键字的分类器”。通过使用具有更新后学习文件路径的同一向导,可以使用同一向导来审核在文档分类训练阶段收集的数据。

此向导允许您配置和管理此活动用于识别文档类型和对文档进行分类的训练数据。创建它是为了适应编辑文件路径的需要。如果改用带有变量的“学习数据”选项,则系统会询问您是否要编辑特定文件路径或中止此操作。

注意:“管理学习”向导仅在活动配置了学习文件路径字符串时有效。它不适用于设置为变量输入的学习文件路径或学习数据字符串输入。
  1. 向您的工作流中添加“智能关键字分类器”/“智能关键字分类器训练器”活动。
  2. 通过添加 .json 文件的路径来配置“智能关键字分类器”活动。
    • 如果未提供路径并且单击了“管理学习”选项,则会显示一个弹出窗口,要求输入学习文件路径。提供路径后,系统将打开向导。
    • 可以添加变量而不是 .json 文件,但是,由于向导无法将学习模式应用于学习数据变量,因此它会要求您提供可编辑的特定文件路径。
  3. 单击“管理学习”选项。
    • 系统将打开“向导”窗口。


  4. 如果未提供路径并且单击了“管理学习”选项,则会显示一个弹出窗口,要求提供学习文件路径。提供路径后,系统将打开向导。


    注意:即使没有可用的 .json 文件,您也可以直接将新的 .json 文件的名称添加到活动中,系统会在指定的文件夹中自动创建 .json 文件。

下面的屏幕截图显示了一种已接受训练的文档类型,一种尚未接受训练的文档类型,以及一种已接受训练且可访问以进行查看或删除的文档类型。



对于尚未接受训练的文档类型,可以使用“开始训练”选项执行设计时训练。对于已经过训练的文档类型,您可以使用此 选项将其删除以重新开始,或使用“编辑” 选项执行额外训练(累积到现有训练)。

注意:要使用的训练文件必须每个文件包含一个文档类型实例。不要对包含两种或两种以上文档类型的文件运行设计时训练,这是因为您的训练数据会有错误。

启动新训练后,系统将显示一个新屏幕,询问应使用的训练文件和 OCR 引擎。



每个 OCR 引擎都有自己的自定义选项集。您可以在此处找到有关每个 OCR 引擎可用的所有选项的更多详细信息。

备注:

以下 OCR 引擎不支持轮换文档,也不应用于处理此类文档:

  • Microsoft OCR
  • Tesseract OCR

只有来自已接受训练文档类型的训练数据才符合导出条件。无法选择未经训练的文档类型。



导出训练数据

您可以按照以下步骤导出训练数据:

  1. 选择已经过训练的文档类型。
  2. 单击“导出”按钮。
  3. 如果您有未保存的更改,则会显示以下消息。


  4. 单击“是”
  5. 使用所需名称保存训练数据存档。
  6. 系统将显示一条消息,说明已导出的文档类型训练数据集的数量。例如:


  7. 单击“确定”以返回到向导的主屏幕。

导入训练数据

您可以按照以下步骤导入训练数据:

  1. 单击“导入”按钮。
  2. 选择训练数据存档,然后单击“打开”
  3. 选择所需的文档类型。


  4. 单击“导入”按钮。
  5. 将导入训练数据。


下表说明了导入训练数据时显示的每条消息:

导入类型

显示的消息

新建文档类型和词向量

系统会将此文档类型添加至分类

新的词向量(之前未定义)

不适用

相同的文档类型和词向量

此文档类型的词向量将被覆盖

如何训练

将“智能关键字分类器训练器”活动放在“训练分类器作用域”中,并进行相应配置。

在活动级别,我们无法在并行训练之间强制保持训练文件一致性。Document Understanding 流程提供了可用于解决此问题的两种方法。两者都包含流量控制:

  1. 锁文件(在流程中默认实现):使用 .lock 扩展名重命名文件,修改并保存文件,然后再次重命名文件以删除 .lock 扩展名
  2. 手动设置特殊队列:在 Orchestrator 中创建一个空队列,并集成项目中的两个活动

有关如何训练分类器的更多信息,请参阅文档分类训练

  • 什么是智能关键字分类器
  • 何时使用
  • 特殊要求
  • 如何在设计时进行配置
  • 导出训练数据
  • 导入训练数据
  • 如何训练

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.