activities
latest
false
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
Document Understanding 活动
Last updated 2024年8月30日

提取文档数据

UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>

描述

从输入文件或文档数据对象中提取数据,并将结果存储到文档数据对象中。

在开始之前

先决条件

“提取文档数据”活动之前需要一个可提供文档数据对象的活动(由其他 Document Understanding 活动生成,例如“分类文档”)。

输入选项
“提取文档数据”活动接收以下选项之一作为输入:
  • 文档数据 - 来自“分类文档”活动
  • 文件 - 来自“获取文件/文件夹”或“获取最新的电子邮件”活动
生成式模型支持的语言

生成式模型支持的语言与所使用的 OCR 引擎相同,这取决于项目。对于预定义项目,使用的 OCR 引擎为 UiPath Document OCR。有关更多信息,请访问“OCR 支持的语言”页面。

活动使用的模型
“提取文档数据”活动使用以下内容:
  • 用于开箱即用模型的公共端点
  • 在 Document Understanding 应用程序项目中部署的自定义 ML 模型。
  • 生成提取模型。

项目兼容性

跨平台

配置

设计器面板
  • 项目 - 要求您从下拉菜单中选择 Document Understanding 项目。可用选项包括:
    • 预定义 - 默认项目
    • 您可以转到 Document Understanding 来创建自定义项目。
  • 提取程序 - 要求您从所选项目中选择提取程序。对于“预定义项目”,可用选项包括:
    • 在此处找到的任一 ML 包
      注意: “提取文档数据”活动会使用选定的提取程序覆盖文档类型。 这不适用于生成式模型。
    • 生成式
      注意:系统会将发送到生成式提取程序的数据发送到未公开可用的 LLM 模型实例,不会离开该实例,并且一旦处理完毕,系统不会存储该数据或将该数据用于训练。
  • 提示” - 如果您选择选项“生成”,则会显示此字段。 提示您识别要提取的字段,以键值对形式提供,其中键表示字段的名称,而值表示字段的说明,以帮助提取程序识别相应的值。 单击该字段,系统会提示您以下选项(以对形式提供):
    • “字段名称”- 要求您输入要提取的字段名称,例如到期日期(最多 30 个字符)
    • 生成提示- 要求您提供提示作为生成提取程序的输入。 允许的最大字符数为 1000。 响应、提取结果(也称为全 )的字数限制为 700。 不得超过 700 字。 这意味着您无法从单个提示中提取超过 700 个单词。 如果提取要求超过此限制,您可以将文档拆分为多个页面,单独处理,然后合并结果。
    提示:有关如何使用生成式提示的良好做法,请查看生成提取程序 - 良好做法页面。
  • “输入”- 如果您以前在工作流中使用过其他 Document Understanding 活动,则需要指定文件本身或文档数据(例如,“分类文档”)。
    重要提示:一个文件最多可包含 500 页。超过此限制的文件将无法提取。
属性面板

输入

  • 超时(秒) ” - 生成模型调用的最长执行时间(以秒为单位)。 如果操作超过此超时时间,系统会自动终止操作,以防止延迟或挂起。 仅当选择生成提取程序作为提取程序时,才会显示此属性。
  • “自动验证” - 使用此选项启用自动验证,此功能可帮助验证根据生成模型提取数据所获得的结果。 自动验证字段的默认值为False
    • “置信度阈值” - 启用“自动验证”后,此字段将可见。 系统会将低于阈值的提取结果与生成式提取模型进行比较。 如果匹配,则系统会调整提取可信度以满足阈值。 可能的阈值范围是从 0 到 100。

      如果将该值设置为 0,则不应用任何验证。 但是,如果设置特定值(从 0 到 100),系统会检查低于此值的所有提取结果。 例如,如果您将置信度阈值设置为 80%,则系统将对置信度低于 80% 的字段应用生成式验证。

      注意:自动验证仅适用于专用提取模型。
  • 生成数据类型(预览版)- 如果设置为True ,则表示应根据所选提取程序生成输出,从而生成IDocumentData<ExtractorType>对象。 或者,如果设置为False ,则表示应跳过数据生成,从而生成通用IDocumentData<DictionaryData>对象。

    请访问文档数据,了解适用于这两种对象类型的其他详细信息和限制。

输出
  • 文档数据- 从文件中提取的所有字段数据。 还可从“分类文档”接收信息。

    访问文档数据,了解文档数据的工作原理,以及如何使用从单值和多值字段提取的结果。

使用生成提取程序

要快速开始使用“提取文档数据”活动的生成式功能,请执行以下步骤:

  1. 添加提取文档数据活动。
  2. 从“项目”下拉列表中,选择“预定义” 。
  3. 对于“提取程序”,选择“生成提取程序”

    提示”属性出现在活动的主体中。

  4. 在“提示” 字段中,以“字典键值对”的形式提供说明,其中:
    • 表示字段名称(例如:电子邮件地址)。
    • 表示生成提示:生成提取程序用于标识相应值的说明。

      例如,请查看下表中的键值对示例:

    表 1.生成提取程序的键值对提示
    字段名称生成式提示
    名称“候选人叫什么名字?”
    当前作业“候选人当前的工作是什么?”
    雇主“候选人当前的雇主是什么?”
    图 1. 生成式提取程序的键值对提示词

    生成式提取程序的键值对提示词
  • 描述
  • 在开始之前
  • 项目兼容性
  • 配置
  • 使用生成提取程序

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。