document-understanding
2020.10
false
- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
基于关键词的分类器
已弃用
Document Understanding 用户指南
基于关键词的分类器
“基于关键字的分类器”是一个简单分类器,用于搜索给定文件中重复的字符串序列,以便执行文档分类。
该算法围绕文档标题的概念构建,前提是在带有标题的文档类型中,这些标题在文档中的显示方式变化较小。
将文件归入某一文档类型时,“基于关键字的分类器”:
- 会从学习数据中查找适用于分类文档类型的最佳匹配字符串或字符串集合。根据以下条件计算可信度:
- 与文档开头的匹配程度,
- 知识工作者确认匹配并在学习数据中强化匹配的次数。
- 报告得分最高的文档类型,以及基础匹配配置。
“基于关键字的分类器”可以处理单个字符串条目(一个被视为分类器正在使用的学习数据中一个条目的字符串),也可以处理包含多个字符串的条目(两个或多个字符串构成一个条目)。如果存在多个字符串,分类器将对每个字符串分别应用匹配算法,然后计算所识别匹配项可信度的简单平均值。
您只需访问活动的“管理学习”向导,即可在设计时配置“基于关键字的分类器”。通过使用具有更新后学习文件路径的同一向导,可以使用同一向导来审核在文档分类训练阶段收集的数据。
此向导允许您配置和管理此活动用于标识文档类型的关键字。创建它是为了适应编辑文件路径的需要。如果改用带有变量的“学习数据”参数,则系统会询问您是否要编辑特定文件路径或中止此操作。
备注: “管理基于关键字的分类器学习”向导只能用于编辑和配置文件路径。
该向导包含您在分类法中定义的尽可能多的文档类型类别。您可以为每种文档类型添加单个或多个关键字。该活动学习特定文档的关键字,然后能够根据这些规则对特定类型的文档进行识别和分类。
所有条目都应作为字符串输入,并在
""
(引号)之间输入,并且您可以添加单个或多个值。
- 单击“添加新关键字集”按钮会向该类别添加一个额外的字段。
- 单击 按钮删除字段及其关键字。
-
单击“保存”按钮以保存向导配置。您可以在项目的
.json
文件中找到所有添加的值。注意:根据 Visual Basic 约定(双引号),在“管理关键字”向导中作为关键字的一部分输入的双引号始终会转义,即使在 C# 风格的项目中也是如此。
将“基于关键字的分类器训练器”活动放在“训练分类器作用域”中,并进行相应配置。
有关更多信息,请参阅文档分类训练。