document-understanding
2021.10
false
UiPath logo, featuring letters U and I in white
不在支持范围内
Document Understanding 用户指南
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年11月11日

基于关键词的分类器

什么是基于关键字的分类器

基于关键字的分类器”是一个简单分类器,用于搜索给定文件中重复的字符串序列,以便执行文档分类。

该算法围绕文档标题的概念构建,前提是在带有标题的文档类型中,这些标题在文档中的显示方式变化较小。

将文件归入某一文档类型时,“基于关键字的分类器”

  • 会从学习数据中查找适用于分类文档类型的最佳匹配字符串或字符串集合。根据以下条件计算可信度:

    • 与文档开头的匹配程度,
    • 知识工作者确认匹配并在学习数据中强化匹配的次数。
  • 报告得分最高的文档类型,以及基础匹配配置。

基于关键字的分类器”可以处理单个字符串条目(一个被视为分类器正在使用的学习数据中一个条目的字符串),也可以处理包含多个字符串的条目(两个或多个字符串构成一个条目)。如果存在多个字符串,分类器将对每个字符串分别应用匹配算法,然后计算所识别匹配项可信度的简单平均值。

示例

下面我们举一个例子:

  • 如果条目包含单个字符串,例如“this is my Match”,则“基于关键字的分类器”会搜索此字符串并将其定为潜在文档类型匹配项(根据字符串所属的文档类型)。
  • 如果某个条目包含三个字符串,例如[“this is a Match”、“needs more evidence for filtering”、“yet another one”],则“基于关键字的分类器”会逐一搜索这三个字符串并进行评分,然后计算匹配可信度的简单平均值进行报告。

关键字集可以在一行中定义,也可以使用多行来定义。在一行中设置关键字集时,它会标识给定输入,例如,如果 x、y 和 z 列为关键字,则搜索将查找 x、y 和 z

定义多行意味着搜索将查找第一行、第二行或第三行中列出的关键字,直到其覆盖所有行并确定最佳匹配项,从而通过从更多可用关键字中确定更多匹配项来提高置信度分数。

何时使用

在下列情况下,您应考虑使用此分类器:

  • 您的文件包含一个文档类型,且每个文档仅包含一个文档类型(因此不需要拆分文件);
  • 您的文件在文件的前三页中包含与文档类型相关的证据。

特殊要求

使用“基于关键字的分类器”时,无特殊要求。

如何在设计时进行配置

您只需访问活动的“管理学习”向导,即可在设计时配置“基于关键字的分类器”。通过使用具有更新后学习文件路径的同一向导,可以使用同一向导来审核在文档分类训练阶段收集的数据。

此向导允许您配置和管理此活动用于标识文档类型的关键字。创建它是为了适应编辑文件路径的需要。如果改用带有变量的“学习数据”参数,则系统会询问您是否要编辑特定文件路径或中止此操作。

注意:“管理基于关键字的分类器学习”向导只能用于编辑和配置文件路径。
  1. 在工作流中添加“基于关键字的分类器”/“基于关键字的分类器训练器”活动。
  2. 通过添加 .json 文件的路径来配置基于关键字的分类器活动。
    • 如果未提供路径并且单击了“管理学习”选项,则会显示一个弹出窗口,要求输入学习文件路径。提供路径后,系统将打开向导。
    • 可以添加变量而不是 .json 文件,但是,由于向导无法将学习模式应用于学习数据变量,因此它会要求您提供可编辑的特定文件路径。
  3. 单击“管理学习”选项。
    • 系统将打开“向导”窗口。


  4. 如果未提供路径并且单击了“管理学习”选项,则会显示一个弹出窗口,要求提供学习文件路径。提供路径后,系统将打开向导。


    注意:即使没有可用的 .json 文件,您也可以直接将新的 .json 文件的名称添加到活动中,系统会在指定的文件夹中自动创建 .json 文件。

该向导包含您在分类法中定义的尽可能多的文档类型类别。您可以为每种文档类型添加单个或多个关键字。该活动学习特定文档的关键字,然后能够根据这些规则对特定类型的文档进行识别和分类。

所有条目都应作为字符串输入,并在 ""(引号)之间输入,并且您可以添加单个或多个值。
  • 单击“添加新关键字集”按钮会向该类别添加一个额外的字段。
  • 单击 docs image 按钮删除字段及其关键字。
  • 单击“保存”按钮以保存向导配置。您可以在项目的 .json 文件中找到所有添加的值。
    注意:根据 Visual Basic 约定(双引号),在“管理关键字”向导中作为关键字的一部分输入的双引号始终会转义,即使在 C# 风格的项目中也是如此。

如何训练

将“基于关键字的分类器训练器”活动放在“训练分类器作用域”中,并进行相应配置。

有关更多信息,请参阅文档分类训练

  • 什么是基于关键字的分类器
  • 示例
  • 何时使用
  • 特殊要求
  • 如何在设计时进行配置
  • 如何训练

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。