Document Understanding 用户指南

适用平台：

上次更新日期 2025年2月4日

智能关键词分类器

智能关键字分类器是一种分类器，它使用从某些文档类型的文件中学习的字词向量执行文档分类。

该算法围绕对相同文档类型重复内容的概念构建而成，其前提是文档类型包含一系列通常会在这些文档类型中出现的词，从而可以计算向量相似度。

将文件归入某一文档类型时，“智能关键字分类器”：

“智能关键字分类器”还具有文件拆分功能，这意味着它可以针对给定文件、单独的页面范围报告多个类。

在下列情况下，您应考虑使用此分类器：

您需要使用 Automation Cloud Document Understanding API 密钥，或在 AI Center 本地部署版内托管自己的“智能关键字分类器”实例，才能使用此分类器。

您只需访问活动的管理学习向导，即可在设计时配置“基于关键字的分类器”。通过使用具有更新后学习文件路径的同一向导，可以使用同一向导来审核在文档分类训练阶段收集的数据。

此向导允许您配置和管理此活动用于识别文档类型和对文档进行分类的训练数据。创建它是为了适应编辑文件路径的需要。如果改用带有变量的“学习数据”选项，则系统会询问您是否要编辑特定文件路径或中止此操作。

注意：“管理学习”向导仅在活动配置了学习文件路径字符串时有效。它不适用于设置为变量输入的学习文件路径或学习数据字符串输入。

向您的工作流中添加“智能关键字分类器”/“智能关键字分类器训练器”活动。
通过添加 .json 文件的路径来配置“智能关键字分类器”活动。
- 如果未提供路径并且单击了“管理学习”选项，则会显示一个弹出窗口，要求输入学习文件路径。提供路径后，系统将打开向导。
- 可以添加变量而不是 .json 文件，但是，由于向导无法将学习模式应用于学习数据变量，因此它会要求您提供可编辑的特定文件路径。
单击“管理学习”选项。
- 系统将打开“向导”窗口。
如果未提供路径并且单击了“管理学习”选项，则会显示一个弹出窗口，要求提供学习文件路径。提供路径后，系统将打开向导。

注意：即使没有可用的 .json 文件，您也可以直接将新的 .json 文件的名称添加到活动中，系统会在指定的文件夹中自动创建 .json 文件。

下面的屏幕截图显示了一种已接受训练的文档类型，一种尚未接受训练的文档类型，以及一种已接受训练且可访问以进行查看或删除的文档类型。

对于尚未接受训练的文档类型，可以使用“开始训练”选项执行设计时训练。对于已经过训练的文档类型，您可以使用此选项将其删除以重新开始，或使用“编辑” 选项执行额外训练（累积到现有训练）。

备注：

馈入设计时训练的训练文件应包含单一文档类型

要使用的训练文件必须每个文件包含一个文档类型实例。不要对包含两种或两种以上文档类型的文件运行设计时训练，这是因为您的训练数据会有错误。

启动新训练后，系统将显示一个新屏幕，询问应使用的训练文件和 OCR 引擎。

每个 OCR 引擎都有自己的自定义选项集。您可以在此处找到有关每个 OCR 引擎可用的所有选项的更多详细信息。

备注：

以下 OCR 引擎不支持轮换文档，也不应用于处理此类文档：

只有来自已接受训练文档类型的训练数据才符合导出条件。无法选择未经训练的文档类型。

您可以按照以下步骤导出训练数据：

您可以按照以下步骤导入训练数据：

下表说明了导入训练数据时显示的每条消息：