UiPath Documentation
activities
latest
false
重要 :
请注意,此内容已使用机器翻译进行了部分本地化。 新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 活动

智能关键词分类器

UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier

描述

此活动使任何用户都可以对文档包进行分类并将其拆分为单独的文档类型。该活动只能与“分类文档作用域”活动一起使用。

项目兼容性

Windows - Legacy | Windows

配置

设计器面板

  • LearningFilePath - The full path to the file containing the classifier data. This field supports only strings and String variables.

    备注:

    Only one of the above parameters can be set at a time. You can use either the LearningData string or the LearningFilePath string.

    The LearningFilePath specifies the locations from where to retrieve the classifier data.

    The LearningData contains the actual information of that classifier.

  • 端点- UiPath™ 服务器的 URL。默认情况下,端点为https://du.uipath.com/svc/intelligentkeywords 。有关端点的更多信息,请参阅Document Understanding 公共端点

  • ApiKey - Specifies the API key of the account. The API Key field is automatically pre-populated if defined in local project settings or in the Document Understanding framework.

属性面板

常见
  • “显示名称”- 活动的显示名称。
输入
  • ApiKey - Specifies the API key of the account. The API Key field is automatically pre-populated if defined in local project settings or in the Document Understanding framework.

  • 端点- UiPath™ 服务器的 URL。默认情况下,端点为https://du.uipath.com/svc/intelligentkeywords 。有关端点的更多信息,请参阅Document Understanding 公共端点

  • LearningData - The string containing the serialized classifier data. This field supports only strings and String variables.

  • LearningFilePath - The full path to the file containing the classifier data. This field supports only strings and String variables.

    备注:

    Only one of the above parameters can be set at a time. You can use either the LearningData string or the LearningFilePath string.

    The LearningFilePath specifies the locations from where to retrieve the classifier data.

    The LearningData contains the actual information of that classifier.

  • 发送文档- 启用后,允许 UiPath™ 保存引用的文档以提高算法性能。禁用此功能可阻止 UiPath™ 存储文档。无论此设置如何,算法的操作都不会受到影响。

其他
  • “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
    备注:

    The best practice is to create an empty .json file at that location, then use its name in the LearningFilePath field.

拆分
  • 执行文档拆分 - 如果取消选中,模型将不执行文档拆分,仅执行分类。
  • 使用页码 - 如果选中,则该模式将使用页码功能来决定拆分文档的位置。如果页码可能会改善拆分结果,请使用它。
备注:

为了优化拆分性能,请使用 6.9.0 或更高版本。

使用“管理学习”向导

Access the Manage Learning wizard to configure the Intelligent Keyword Classifier activity. The same wizard can be used for reviewing data collected during the document classification training phase, by opening the same wizard with an updated learning file path.

This wizard allows you to configure and manage the training data used by the Intelligent Keyword Classifier activity for identifying the document type and classifying the documents. It was created to suit the need for editing a file path. If a Learning Data option with a variable is used instead, then you are asked if you either want to edit a specific file path or to abort this operation.

备注:

“管理学习”向导仅在活动配置了学习文件路径字符串时有效。它不适用于设置为变量输入的学习文件路径学习数据字符串输入。

  1. 向您的工作流中添加“智能关键字分类器”“智能关键字分类器训练器”活动。

  2. 通过添加.json文件的路径来配置“智能关键字分类器”活动。配置分类器时,请考虑以下信息:

    • 如果系统未提供路径并且您单击了“管理学习”选项,则系统会显示一个弹出窗口,要求提供学习文件路径输入。提供路径后,系统将打开向导。
    • 可以添加变量而不是 .json 文件,但是,由于向导无法将学习模式应用于学习数据变量,因此它会要求您提供可编辑的特定文件路径。
  3. 选择“管理学习”

    系统将打开“智能关键词分类器”向导窗口。

    图 1. “智能关键词分类器”向导的“管理学习”部分概览

  4. 如果系统未提供路径并且您单击了“管理学习”选项,则系统会显示一个弹出窗口,要求提供学习文件路径 。提供路径后,系统将打开向导。

    图 2. 如果未提供路径而选择了“管理学习”选项,则会显示“警告”弹出窗口

    备注:

    即使没有可用的 .json 文件,您也可以直接将新的 .json 文件的名称添加到活动中,系统会在指定的文件夹中自动创建 .json 文件。

“管理学习”向导中,您可以通过旁边显示的以下标签查看某种文档类型是否已接受训练: “已针对 X 个文件进行训练”“开始训练” 。以下屏幕截图显示了已接受训练的文档类型、尚未接受训练的文档类型以及已接受训练并被选择的文档类型,以便查看或删除文档类型。

图 3. 智能关键词分类器的“管理学习”部分中的文档类型及其训练状态

训练数据

对于尚未接受训练的文档类型,可以使用“开始训练”选项执行设计时训练。对于已经过训练的文档类型,您可以使用 删除该文档类型以重新开始remove“删除”选项,或使用编辑执行额外训练(累积到现有训练)编辑选项。

备注:

要使用的训练文件必须每个文件包含一个文档类型实例。不要对包含两种或两种以上文档类型的文件运行设计时训练,这是因为您的训练数据会有错误。

启动新训练后,系统将显示一个新屏幕,询问应使用的训练文件和 OCR 引擎。默认的 OCR 引擎是UiPath™ 文档 OCR 。每个 OCR 引擎都有自己的自定义选项集。

图 4. 选择“开始训练”选项后显示的向导

备注:

以下 OCR 引擎不支持轮换文档,也不应用于处理此类文档:

  • Microsoft OCR
  • Tesseract OCR

“将 OCR 应用于 PDF”选项确定是否应将 OCR 流程应用于 PDF 文档。下拉列表中提供三个选项:

  • True : 如果设置为True ,则 OCR 将应用于文档的所有 PDF 页面。
  • False : 如果设置为False ,则仅提取以数字化方式输入的文本。
  • “自动” :默认值为“自动” ,根据输入文档确定文档是否需要应用 OCR 算法。
备注:

如果 UiPath.IntelligentOCR.Activities 程序包已更新到 v5.1.0,则强制应用 OCR 参数已替换为将 OCR 应用于 PDF 参数。以下是新旧参数之间的兼容性:

  • 强制应用 OCR = True”替换为“将 OCR 应用于 PDF =
  • 强制应用 OCR = False”替换为“将 OCR 应用于 PDF = 自动
  • 强制应用 OCR = 空白”替换为“将 OCR 应用于 PDF = 自动
  • 强制应用 OCR = 您定义的变量”替换为“将 OCR 应用于 PDF = 自动

导出训练数据

只有来自已接受训练文档类型的训练数据才符合导出条件。无法选择未经训练的文档类型。

图 5. 智能关键词分类器中的文档类型尚未经过训练,因此“导出”选项不可用

您可以按照以下步骤导出训练数据:

  1. 选择已经过训练的文档类型。

  2. 选择“导出”

    如果您有未保存的更改,则会显示以下消息:“有未保存的更改时无法导出。是否要在导出前自动保存?”。选择“是”以继续导出过程。

    图 6. 在导出训练数据之前,系统会显示“保存更改”消息,显示是否有任何未保存的更改

  3. 使用所需名称保存训练数据存档。

    系统将显示一条消息,说明已导出的文档类型训练数据集的数量。例如:“已导出 4 个词向量”。

    图 7. 显示已导出的文档类型训练数据集数量的消息示例

  4. 选择“确定”以返回到向导的主屏幕。

导入训练数据

您可以按照以下步骤导入训练数据:

  1. 选择“导入”

  2. 选择训练数据存档,然后选择“打开”

  3. 选择所需的文档类型。

    图 8.“导入词向量”部分中选定的文档类型

  4. 选择“导入”

    将导入训练数据。

    图 9.先前选择的要导入的文档类型将显示在“管理学习”部分中

下表显示了根据导入类型,导入训练数据时会显示的消息:

表格 1. 针对各种导入类型显示的消息

显示的消息
新建文档类型和词向量系统会将此文档类型添加至分类。
新的词向量(之前未定义)不显示任何消息。
相同的文档类型和词向量此文档类型的词向量将被覆盖。

Document Understanding 集成

智能关键词分类器活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问Document Understanding 指南

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新