活动 - 提取文档数据

activities

latest

false

Document Understanding 活动

重要 :

请注意，此内容已使用机器翻译进行了部分本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

提取文档数据

使用“提取文档数据”活动从文档文件或文档数据对象中提取数据，并将结果存储在文档数据对象中。

UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>

描述

从输入文件或文档数据对象中提取数据，并将结果存储到文档数据对象中。

在开始之前

先决条件

“提取文档数据”活动需要“文档数据”或“文件”类型的输入对象。使用此活动的一个可能用例是在该活动之前使用“分类文档”活动，后者会生成类型为文档数据的对象。

输入选项

“提取文档数据”活动接收以下选项之一作为输入：

文档数据 - 来自“分类文档”活动
文件 - 来自“获取文件/文件夹”或“获取最新的电子邮件”活动

生成式模型支持的语言

生成式模型支持的语言与所使用的 OCR 引擎相同，这取决于项目。对于预定义项目和生成式预定义项目，使用的 OCR 引擎为UiPath Document OCR 。有关更多信息，请访问“OCR 支持的语言”页面。

活动使用的模型

“提取文档数据”活动使用以下内容：

开箱即用的预训练专用模型，基于Helix Extractor。
部署在 Document Understanding 新式和传统项目中的自定义预训练模型。
生成式提取模型。

已知限制

“生成式预定义”项目类型和相应的提取程序在 Automation Suite 中不可用。

使用“提取文档数据”活动时，分类字段支持新式项目提取程序和开箱即用的模型，但不支持传统项目提取程序。

向“提取文档数据”活动提供带有子文档的文档数据将触发运行时错误。此行为是设计使然。要从拆分文档中提取数据，请遍历每个子文档。

项目兼容性

Windows | 跨平台

配置

设计器面板

“输入”- 如果您以前在工作流中使用过其他 Document Understanding 活动，则需要指定文件本身或文档数据（例如，“分类文档”）。

重要提示：
一个文件最多可包含 500 页。超出此限制的文件将无法提取。
项目 - 要求您从下拉列表中选择 Document Understanding 项目。可用选项包括：
- 预定义– 传统项目类型，使用建议用于标准场景的预训练专用模型。有关传统项目计费逻辑的更多信息，请访问“计量和计费逻辑” 。
- 生成式预定义– 新式项目类型，使用预训练的生成式模型，接受指令作为提取文档数据的输入。有关新式项目计费逻辑的更多信息，请访问“计量和计费逻辑” 。
- 预定义的非拉丁语言– 新式项目类型，将预训练模型用于非拉丁语文档处理场景。有关新式项目计费逻辑的更多信息，请访问“计量和计费逻辑” 。
- 您连接到的租户和文件夹中的现有项目。
- 您可以转到 Document Understanding 来创建自定义项目。有关更多信息，请访问模型构建简介。
  备注：
  如果您在租户上创建的项目超过 500 个，并使用“提取文档数据”活动，则 UiPath Studio 或 Studio Web 将不会显示最初 500 个项目之后的任何项目。因此，您不能使用这些项目。
提取程序 - 选择项目后，您还可以选择要使用的提取程序。
- 对于预定义项目，您有两个选择：- 选择预训练模型。访问开箱即用模型，获取可以使用的预训练模型列表。
  备注：
  “提取文档数据”活动提取所选提取程序（无论文档的实际类型为何）文档类型中的可用字段信息。这不适用于生成式模型。
  - 选择“生成式提取程序”。
    备注：
    发送到生成式提取程序的信息将发送到 LLM 模型实例。此实例为非公开可用，不会存储发送的数据，也不会将其用于训练目的。
- 对于“生成式预定义”项目，您可以根据特定文档布局，从三种提取中选择：
  - 长文档简单版式提取程序 – 推荐用于主要包含文本和标题的长表单文档。例如，您可以在租赁协议、主服务协议或其他类似文档上使用“长文档简单布局提取程序”。
  - 长文档复杂布局提取程序（预览版）– 建议用于包含图像、手写内容、表单控件、浮动标注框或其他复杂布局类型等元素的长表单文档。例如，您可以在保险单等文档或其他类似文档上使用“长文档复杂布局提取程序”。
  - 短文档复杂布局提取程序（预览版）– 建议用于包含图像、手写、表单控件、浮动标注框或其他复杂布局类型等元素的短文档。例如，您可以在由政府签发的身份证、医疗保健登记表或其他类似文档上使用“短文档复杂布局提取程序”。
- 对于预定义的非拉丁语言项目，您可以根据特定的非拉丁语文档布局，从三种提取中选择：
  - 日本发票– 建议用于日本发票文档。提取程序可以处理常见的日语发票布局，并且可以识别和提取关键发票字段，例如供应商信息、发票编号和币种。
  - 中国发票- 建议用于中国发票单据。提取程序可以处理常见的中国发票布局，并可以识别和提取关键发票字段，例如供应商信息、发票编号和币种。
  - 日本收据- 建议用于日语收据文档。您可以使用提取程序从日语收据中识别和提取商户名称、交易日期、总金额、税和币种等字段。
- 使用分类结果：如果将生成数据类型属性设置为 False，则可以选择使用分类结果选项。此选项根据“分类文档”活动生成的文档类型自动使用推荐的提取程序。如果多个提取程序可以处理该文档类型，则该活动将返回错误。在这种情况下，您必须手动选择首选提取程序。
文档类型详细信息- 如果选择选项“生成式”，则会显示此字段。用于识别您要提取的字段的提示，以键值对形式提供，其中键表示字段的名称，而值表示字段的说明，以帮助提取程序识别相应的值。选择该字段，系统会提示您以下选项（以成对形式提供）：
- “字段名称” - 要求您输入要提取的字段名称，例如到期日期）（上限 30 个字符）
- 说明- 要求您提供有关应从相应字段提取哪些信息的说明。允许的最大字符数为 1000。响应（即提取结果，也称为完成）字数限制为 700。也就是不得超过 700 个单词。这意味着您无法从单个提示词中提取超过 700 个单词。如果您的提取要求超过此限制，您可以将文档拆分为多个页面，单独处理，然后合并结果。
  提示：
  有关如何使用生成式提示词的良好实践，请查看“生成式提取程序 - 良好实践”页面。
版本- 在使用现有的 Document Understanding 新式项目时使用此属性。选择与要从中处理数据的项目版本对应的版本名称或标签。例如，如果您选择分配给版本 3 的“生产”标签，则该活动将在生产环境中处理来自项目版本 3 的数据。如果您不想使用暂存和生产标签，也可以从下拉列表中选择特定版本。有关版本的更多信息，请访问发布模型。
文档类型（预览版）- 从“版本”字段选择标签时，活动会自动从所选项目的相关版本中选择第一个部署的文档类型。此外，该活动会显示与您选择的文档类型相关的提取字段。
Use Solution Resource - Enable this toggle to select an IXP model as a solution resource. This option is available only when your workflow is part of a solution. The selected IXP model is added to the solution, appears in the Resource Explorer in Studio Web, and is packaged and deployed together with the rest of the solution's resources.
- IXP Model - Select the IXP model that you want to use for data extraction. This field appears only when you enable the Use Solution Resource toggle.

属性面板

输入

超时（秒） - 调用生成式模型的最长执行时间（以秒为单位）。如果操作用时超过该上限，操作将自动终止，以防止延迟或挂起。仅当选择生成式提取程序作为提取程序时，才会显示此属性。
自动验证- 使用此选项启用自动验证，此功能可帮助验证根据生成模型获得的数据提取结果。“自动验证” 字段的默认值为False 。
- 置信度阈值- 启用“自动验证”后，此字段将可见。将低于阈值的提取结果与生成提取模型进行比较。如果匹配，则系统会调整提取的置信度以满足阈值。可能的阈值范围是从 0 到 100。如果将该值设置为 0，则不应用任何验证。但是，如果设置特定值（0 到 100 之间），系统将检查低于该值的所有提取结果。例如，如果您将置信度阈值设置为 80%，则系统将对置信度低于 80% 的字段应用生成式验证。
  备注：
  自动验证仅可用于专用提取模型。
Generate Data Type - If set to True, indicates that the output should be generated based on the selected extractor, resulting in an IDocumentData<ExtractorType> object. Alternatively, if set to False, indicates that the data generation should be skipped, resulting in a generic IDocumentData<DictionaryData> object. When set to False, you can consume the results either through the Get/Set methods or through the strongly-typed ExtractionResultHandler navigator, available on the output as DocumentData.Data.Handler. Visit Document Data for additional details and limitations available for the two object types.

输出

Document Data - All the extracted field data from the file. Information can also be received from Classify Document. To learn how Document Data works and how to consume the extracted results for single and multi-value fields, visit Document data. When Generate Data Type is off, the DictionaryData output can also be navigated and edited with the strongly-typed ExtractionResultHandler navigator, via DocumentData.Data.Handler.

当您将智能提取处理 (IXP) 非结构化文档项目与“提取文档数据”活动一起使用时，文档数据输出对象支持以下对象：
- 结果以字段组的形式报告，而非以表格的形式报告。
- 字段会返回项目中定义的特定字段类型，包括货币数量。
- 文档验证任务将结果显示为字段组，而非表格。
依赖此输出的任何下游处理或数据操作逻辑都必须考虑字段组值。有关受支持字段类型的完整列表，请查看字段类型枚举。

外部连接

凭据资产- 用于对 Document Understanding 租户进行身份验证的 Orchestrator 凭据资产路径。输入应使用<orchestratorFolder>/<assetName>格式。
租户 URL - 用于对 Document Understanding 服务进行身份验证的租户 URL。输入应使用https://<base_url>/<organization>/<tenant>格式。

备注：

您必须使用访问作用域 → 自动化和 API配置凭据资产。对其他租户或组织的身份验证仅适用于支持此凭据资产配置的环境。

支持的型号

生成预定义项目下可用的生成式提取程序可用于下表中描述的文档：

备注：

长文档复杂布局和短文档复杂布局提取程序当前在适用于公共部门环境的 Automation Cloud ^TM (FedRamp) 中不可用。

表格 1. 生成式提取程序支持的场景

提取程序	推荐场景	提供程序	区域支持情况	多模态支持¹
长文档简单布局提取程序	建议用于主要包含文本和标题的长文档。例如，您可以在租赁协议、主服务协议或其他类似文档上使用“长文档简单布局提取程序”。	Azure OpenAI	澳大利亚、欧盟、印度、日本、新加坡、英国、美国、加拿大	❌
长文档复杂布局提取程序（预览版）	建议用于包含复杂布局（例如图像、手写文字、表单元素）或独特布局（例如浮动标注框）的长文档。您可以将此提取程序用于保单等布局复杂的长文档。	Azure OpenAI	美国、欧盟、日本、新加坡	✅
短文档复杂布局提取程序（预览版）	建议用于包含图像、手写文字、表单元素或复杂布局（例如浮动标注框）的较短文档（最多 20 页）。您可以将此提取程序用于政府身份证件或医疗接诊表等通常内容较短但布局更复杂的文档。	Azure OpenAI	美国、欧盟、日本、新加坡	✅

¹ 多模式支持是指提取不同类型的数据输入，例如文本、图像、手写文本等的功能。

使用生成提取程序

要快速开始使用“提取文档数据”活动的生成式功能，请执行以下步骤：

添加“提取文档数据”活动。
从“项目”下拉列表中，选择“生成式预定义” 。
对于提取程序，请选择以下提取程序之一： “长文档简单布局提取程序” 、 “长文档复杂布局提取程序”或“短文档复杂布局提取程序” 。“文档类型详细信息”属性将显示在活动的主体中。
对于“字典”，请以字典键值对的形式提供说明，其中：
- “字段名称”表示要从文档中提取的字段的名称。例如email address 。
- “说明”表示提供给提取程序，用于提取字段的信息的说明。这是生成式提取程序用于识别相应值的说明。例如，请查看下表中的键值对示例：
  
  表 2. 生成式提取程序提示的键值对示例
  
  字段名称 说明
  名称 “候选人叫什么名字？”
  当前作业 “候选人当前的工作是什么？”
  雇主 “候选人当前的雇主是什么？”
  
  图 1. 生成式提取程序的键值对详细信息

字段名称	说明
名称	“候选人叫什么名字？”
当前作业	“候选人当前的工作是什么？”
雇主	“候选人当前的雇主是什么？”

此页面有帮助吗？

前一个提取 PDF 页面范围

下一个创建验证任务并等待

描述​

在开始之前​

先决条件​

输入选项​

生成式模型支持的语言​

活动使用的模型​

已知限制​

项目兼容性​

配置​

设计器面板​

属性面板​

输入​

输出​

外部连接​

支持的型号​

使用生成提取程序​