document-understanding
latest
false
- 概述
- 入门指南
- Activities (活动)
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- 模型详细信息
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 数据与安全性
- 许可和计费逻辑
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding classic user guide
上次更新日期 2026年4月23日
基于关键词的分类器
什么是基于关键字的分类器
The Keyword Based Classifier is a simple classifier that searches for repeating string sequences within a given file, in order to perform document classification.
该算法围绕文档标题的概念构建,前提是在带有标题的文档类型中,这些标题在文档中的显示方式变化较小。
将文件归入某一文档类型时,“基于关键字的分类器”:
- 会从学习数据中查找适用于分类文档类型的最佳匹配字符串或字符串集合。根据以下条件计算可信度:
- 与文档开头的匹配程度,
- 知识工作者确认匹配并在学习数据中强化匹配的次数。
- 报告得分最高的文档类型,以及基础匹配配置。
“基于关键字的分类器”可以处理单个字符串条目(一个被视为分类器正在使用的学习数据中一个条目的字符串),也可以处理包含多个字符串的条目(两个或多个字符串构成一个条目)。如果存在多个字符串,分类器将对每个字符串分别应用匹配算法,然后计算所识别匹配项可信度的简单平均值。
示例
让我们看以下示例:
- if an entry contains a single string, for instance, "this is my match", then the Keyword Based Classifier searches and rates this string as a potential document type match (according to which document type the string is attributed to).
- if an entry contains three strings, for instance, ["this is a match", "needs more evidence for filtering", "yet another one"], then the Keyword Based Classifier searches and rates each one of the three strings, and then computes a simple average of the matching confidences for reporting.
关键字集可以在一行中定义,也可以使用多行来定义。在一行中设置关键字集时,它会标识给定输入,例如,如果 x、y 和 z 列为关键字,则搜索将查找 x、y 和 z。
定义多行意味着搜索将查找第一行、第二行或第三行中列出的关键字,直到其覆盖所有行并确定最佳匹配项,从而通过从更多可用关键字中确定更多匹配项来提高置信度分数。
何时使用
在下列情况下,您应考虑使用此分类器:
- 您的文件包含一个文档类型,且每个文档仅包含一个文档类型(因此不需要拆分文件);
- 您的文件在文件的前三页中包含与文档类型相关的证据。
特殊要求
使用“基于关键字的分类器”时,无特殊要求。
For more information on how to train a Classifier, check this page that describes the process of using the Manage Learning wizard.