Document Understanding - 基于关键字的分类器

document-understanding

2022.4

true

Document Understanding 用户指南

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

基于关键词的分类器

“基于关键字的分类器”是一个简单分类器，用于搜索给定文件中重复的字符串序列，以便执行文档分类。

该算法围绕文档标题的概念构建，前提是在带有标题的文档类型中，这些标题在文档中的显示方式变化较小。

将文件归入某一文档类型时，“基于关键字的分类器”：

会从学习数据中查找适用于分类文档类型的最佳匹配字符串或字符串集合。根据以下条件计算可信度：
- 与文档开头的匹配程度，
- 知识工作者确认匹配并在学习数据中强化匹配的次数。
报告得分最高的文档类型，以及基础匹配配置。

“基于关键字的分类器”可以处理单个字符串条目（一个被视为分类器正在使用的学习数据中一个条目的字符串），也可以处理包含多个字符串的条目（两个或多个字符串构成一个条目）。如果存在多个字符串，分类器将对每个字符串分别应用匹配算法，然后计算所识别匹配项可信度的简单平均值。

下面我们举一个例子：

如果条目包含单个字符串，例如“this is my Match”，则“基于关键字的分类器”会搜索此字符串并将其定为潜在文档类型匹配项（根据字符串所属的文档类型）。
如果某个条目包含三个字符串，例如[“this is a Match”、“needs more evidence for filtering”、“yet another one”]，则“基于关键字的分类器”会逐一搜索这三个字符串并进行评分，然后计算匹配可信度的简单平均值进行报告。

关键字集可以在一行中定义，也可以使用多行来定义。在行内设置时，它会标识给定的输入。例如，如果 x、y 和 z 被列为关键字，则搜索将查找 x、y 和 z。

定义多行意味着搜索将查找第一行、第二行或第三行中列出的关键字，直到其覆盖所有行并确定最佳匹配项，从而通过从更多可用关键字中确定更多匹配项来提高置信度分数。

在下列情况下，您应考虑使用此分类器：

点击此链接，了解有关基于关键字的分类器的更多信息。

在此页面上

前一个对文档作用域进行分类的配置分类器向导

下一个特殊要求