activities
latest
false
UiPath logo, featuring letters U and I in white

Document Understanding 活动

上次更新日期 2024年12月5日

分类文档

UiPath.IntelligentOCR.StudioWeb.Activities.ClassifyDocument

描述

您可以通过选择所需的分类器和一个要分类的文档,使用此活动对多个文档进行分类。

注意:“分类文档”活动使用公共端点

生成式模型支持的语言与所使用的 OCR 引擎相同。 有关更多信息,请查看OCR 支持的语言页面。

除非此活动是属于 Studio 工作流的第一个 Document Understanding 活动,否则输入应为文档数据。只有当活动是属于 Studio 工作流的第一个 Document Understanding 活动时,才应将文件用作输入。

项目兼容性

Windows | 跨平台

配置

设计器面板
  • 输入 - 提供输入文件或文档数据对象。
    重要提示:一个文件最多可包含 500 页。超出此限制的文件将无法分类。
    提示:如果您的文件未存储为 IResource 类型变量,则可以选择执行转换。为此,请在“输入”属性字段中使用 LocalResource.FromPath(<reference_to_the_file>)
    考虑您使用“遍历循环”活动遍历文件列表的场景。假设 currentItem 是您的迭代变量。要将 currentItem 转换为 IResource,请将 LocalResource.FromPath(currentItem) 粘贴到“输入”字段中。
  • Document Understanding 项目- 要求您从下拉菜单中选择 Document Understanding 项目。 可用选项包括:
    • 预定义- 使用建议用于标准场景的预训练专用模型的项目。
    • 您连接到的租户和文件夹中的存在项目
    • 您可以通过选择 “ + ” 图标来创建新项目。
    注意:如果您在租户上创建的项目超过 500 个,并使用“分类文档”活动,则 UiPath Studio 或 Studio Web 将不会显示最初 500 个项目之后的任何项目。因此,您不能使用超出的这些项目。
  • 分类器 - 如果您使用的是预定义项目,则可以从下拉菜单中选择所需的 Document Understanding 分类器。
    注意:系统会将发送到生成式分类器的数据发送到未公开可用的 LLM 模型实例,不会离开该实例,并且一旦处理完毕,系统不会存储该数据或将该数据用于训练。
    • 对于预定义项目,您有两个选择:
      • ML 分类– 基于 ML 的分类器。
      • 生成式分类器 – 生成式分类器类型。
        重要提示:

        此功能当前是审核流程的一部分,在审核完成之前不应视为 FedRAMP 授权的一部分。 请在此处查看当前正在审核的功能的完整列表。

        • 提示- 识别文档类型的说明,以键值对形式提供,其中键表示文档类型的名称,值表示对文档类型的描述,以帮助分类器识别此类文档。
          • 文档类型 - 提供要用作分类结果的文档类型的名称(不得超过 30 个字符)。
          • 生成性提示- 要求您为生成式分类器提供有关如何识别文档类型的说明。 允许的最大字符数为 1000。
  • 版本(预览版)- 在使用现有的 Document Understanding 新式项目时使用此属性。 选择与要从中处理数据的项目版本相对应的标签。 例如,如果您选择分配给版本 3 的“生产”标签,则该活动将在生产环境中处理来自项目版本 3 的数据。

    版本的默认值为Staging 。 如果所选项目中不存在临时标签,则默认值为Production

    选择标签后,该活动会显示该版本支持的文档类型列表。

属性面板

高级选项

  • 最低可信度 - 指定在分类期间分配文档类型所基于的最低可信度阈值。如果文档的置信度分数低于此阈值,则系统会将其文档类型报告为“未知”。
    提示:大多数文档类型都会生成具有置信度的预测。设置此属性后,可通过仅考虑置信度高于阈值的预测来防止误报。例如,您可以通过测试工作流中的各种文档来确定最佳置信度,并将结果记录在 Excel 电子表格中,然后分析哪个阈值最准确。

输入

  • 超时(秒) ” - 生成模型调用的最长执行时间(以秒为单位)。 如果操作超过此超时时间,系统会自动终止操作,以防止延迟或挂起。 仅当选择生成分类器作为分类器时,才显示此属性。

输出

  • 文档数据 - 从文件中提取的所有经过验证的字段数据。

使用生成式分类器

要快速开始使用“分类文档”活动的生成式功能,请执行以下步骤:

  1. 添加“分类文档”活动
  2. 从“项目”下拉列表中,选择“预定义” 。
  3. 对于“分类器”,选择“生成式分类器”

    提示”属性出现在活动的主体中。

  4. 在“提示” 字段中,以“字典键值对”的形式提供说明,其中:
    • 表示文档类型(例如:CV)。
    • 表示生成提示:生成分类器用于标识文档类型的说明。

      例如,请查看下表中的键值对示例:

      表 1.用作生成分类器提示的键值对
      Document type生成式提示
      计算机视觉“查找常见的简历关键字,例如“教育背景”、“技能”和“经验”。”
      发票“查找常见字段名称,例如“发票编号”、“收款人”或“总金额”。”
    图 1. 用作生成式分类器提示词的键值对

  • 描述
  • 项目兼容性
  • 配置
  • 使用生成式分类器

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。