- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
Document Understanding 用户指南
智能关键词分类器
智能关键字分类器是一种分类器,它使用从某些文档类型的文件中学习的字词向量执行文档分类。
该算法围绕对相同文档类型重复内容的概念构建而成,其前提是文档类型包含一系列通常会在这些文档类型中出现的词,从而可以计算向量相似度。
将文件归入某一文档类型时,“智能关键字分类器”:
- 会查找与文件更相似的最接近的字词向量,
- 会报告得分最高的文档类型,以及基本的匹配主字词。
“智能关键字分类器”还具有文件拆分功能,这意味着它可以针对给定文件、单独的页面范围报告多个类。
您需要使用 Automation Cloud Document Understanding API 密钥,或在 AI Center 本地部署版内托管自己的“智能关键字分类器”实例,才能使用此分类器。
您只需访问活动的管理学习向导,即可在设计时配置“基于关键字的分类器”。通过使用具有更新后学习文件路径的同一向导,可以使用同一向导来审核在文档分类训练阶段收集的数据。
此向导允许您配置和管理此活动用于识别文档类型和对文档进行分类的训练数据。创建它是为了适应编辑文件路径的需要。如果改用带有变量的“学习数据”选项,则系统会询问您是否要编辑特定文件路径或中止此操作。
下面的屏幕截图显示了一种已接受训练的文档类型,一种尚未接受训练的文档类型,以及一种已接受训练且可访问以进行查看或删除的文档类型。
对于尚未接受训练的文档类型,可以使用“开始训练”选项执行设计时训练。对于已经过训练的文档类型,您可以使用此 选项将其删除以重新开始,或使用“编辑” 选项执行额外训练(累积到现有训练)。
馈入设计时训练的训练文件应包含单一文档类型
要使用的训练文件必须每个文件包含一个文档类型实例。不要对包含两种或两种以上文档类型的文件运行设计时训练,这是因为您的训练数据会有错误。
启动新训练后,系统将显示一个新屏幕,询问应使用的训练文件和 OCR 引擎。
每个 OCR 引擎都有自己的自定义选项集。您可以在此处找到有关每个 OCR 引擎可用的所有选项的更多详细信息。
以下 OCR 引擎不支持轮换文档,也不应用于处理此类文档:
- Microsoft OCR
- Tesseract OCR
只有来自已接受训练文档类型的训练数据才符合导出条件。无法选择未经训练的文档类型。
您可以按照以下步骤导出训练数据:
- 选择已经过训练的文档类型。
- 单击“导出”按钮。
-
如果您有未保存的更改,则会显示以下消息。
- 单击“是”。
- 使用所需名称保存训练数据存档。
- 系统将显示一条消息,说明已导出的文档类型训练数据集的数量。例如:
- 单击“确定”。系统将关闭向导。
将“智能关键字分类器训练器”活动放在“训练分类器作用域”中,并进行相应配置。
有关更多信息,请参阅文档分类训练。