Document Understanding 活动

上次更新日期 2025年10月2日

提取文档数据

UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>

描述

从输入文件或文档数据对象中提取数据，并将结果存储到文档数据对象中。

在开始之前

先决条件

“提取文档数据”活动需要“文档数据”或“文件”类型的输入对象。使用此活动的一个可能用例是在该活动之前使用“分类文档”活动，后者会生成类型为文档数据的对象。

输入选项

“提取文档数据”活动接收以下选项之一作为输入：

文档数据 - 来自“分类文档”活动
文件 - 来自“获取文件/文件夹”或“获取最新的电子邮件”活动

生成式模型支持的语言

生成式模型支持的语言与所使用的 OCR 引擎相同，这取决于项目。对于预定义项目和生成式预定义项目，使用的 OCR 引擎为UiPath Document OCR 。有关更多信息，请访问“OCR 支持的语言”页面。

活动使用的模型

“提取文档数据”活动使用以下内容：

基于DocPath ，开箱即用的预训练专用模型。
部署在 Document Understanding 新式和传统项目中的自定义预训练模型。
生成式提取模型。

已知限制

“生成式预定义”项目类型和相应的提取程序在 Automation Suite 中不可用。

使用“提取文档数据”活动时，分类字段支持新式项目提取程序和开箱即用的模型，但不支持传统项目提取程序。

项目兼容性

Windows | 跨平台

配置

设计器面板

“输入”- 如果您以前在工作流中使用过其他 Document Understanding 活动，则需要指定文件本身或文档数据（例如，“分类文档”）。
重要提示：一个文件最多可包含 500 页。超过此限制的文件将无法提取。
项目 - 要求您从下拉列表中选择 Document Understanding 项目。可用选项包括：
- 预定义 – 传统项目类型，使用建议用于标准场景的预训练专用模型。
  有关传统项目计费逻辑的更多信息，请访问计量和计费逻辑。
- 生成式预定义– 新式项目类型，使用预训练的生成式模型，接受指令作为提取文档数据的输入。
  有关新式项目计费逻辑的更多信息，请访问计量和计费逻辑。
- 您连接到的租户和文件夹中的现有项目。
- 您可以转到 Document Understanding 来创建自定义项目。
  有关更多信息，请访问模型构建简介。
注意：如果您在租户上创建的项目超过 500 个，并使用“提取文档数据”活动，则 UiPath Studio 或 Studio Web 将不会显示最初 500 个项目之后的任何项目。因此，您不能使用超出的这些项目。

提取程序 - 选择项目后，您还可以选择要使用的提取程序。
- 对于“预定义”项目，您有两个选择：
  - 选择一个预训练模型。访问开箱即用模型，获取可以使用的预训练模型列表。
    注意：“提取文档数据”活动为所选提取程序提取文档类型中的可用字段信息（无论文档的实际类型如何）。这不适用于生成式模型。
  - 选择“生成式提取程序”。
    注意：发送到生成式提取程序的信息将发送到 LLM 模型实例。此实例为非公开可用，不会存储发送的数据，也不会将其用于训练目的。
    
    重要提示：
    此功能当前是审核流程的一部分，在审核完成之前不应视为 FedRAMP 授权的一部分。请在此处查看当前正在审核的功能的完整列表。
- 对于“生成式预定义”项目，您可以根据特定文档布局，从三种提取中选择：
  - 长文档简单版式提取程序 – 推荐用于主要包含文本和标题的长表单文档。例如，您可以在租赁协议、主服务协议或其他类似文档上使用“长文档简单布局提取程序”。
  - 长文档复杂布局提取程序（预览版）– 推荐用于包含图像、手写、表单控件、浮动标注框或其他复杂布局类型等元素的长表单文档。例如，您可以在保险单等文档或其他类似文档上使用“长文档复杂布局提取程序”。
  - 短文档复杂布局提取程序（预览版）– 推荐用于包含图像、手写、表单控件、浮动标注框或其他复杂布局类型等元素的短文档。例如，您可以在由政府签发的身份证、医疗保健登记表或其他类似文档上使用“短文档复杂布局提取程序”。
- 使用分类结果：如果生成数据类型属性设置为 False，则可以选择使用分类结果选项。此选项根据“分类文档”活动得出的文档类型自动使用推荐的提取程序。
  如果多个提取程序可以处理该文档类型，则该活动将返回错误。在这种情况下，您必须手动选择首选提取程序。
文档类型详细信息 - 如果选择“生成式”选项，则会显示此字段。用于识别您要提取的字段的提示词，以键值对形式提供，其中键表示字段的名称，而值表示字段的说明，这可帮助提取程序识别相应的值。选择该字段，系统会提示您以下选项（以成对形式提供）：
- “字段名称”- 要求您输入要提取的字段名称，例如到期日期（最多 30 个字符）
- 说明 - 要求您提供有关应从相应字段提取哪些信息的说明。允许的最大字符数为 1000。响应（即提取结果，也称为完成）字数限制为 700。也就是不得超过 700 个单词。这意味着您无法从单个提示词中提取超过 700 个单词。如果您的提取要求超过此限制，您可以将文档拆分为多个页面，单独处理，然后合并结果。
提示：有关如何使用生成式提示的良好做法，请查看生成提取程序 - 良好做法页面。
版本或标签 - 在使用现有的 Document Understanding 新式项目时使用此属性。选择与要从中处理数据的项目版本相对应的标签。例如，如果您选择分配给版本 3 的“生产”标签，则该活动将在生产环境中处理来自项目版本 3 的数据。
“版本”的默认值为“暂存”。如果所选项目中不存在“暂存”标签，则默认值为“生产”。

有关版本的更多信息，请访问发布模型。
文档类型 - 从“版本”字段选择标签时，活动会自动从所选项目的相关版本中选择第一个部署的文档类型。此外，该活动会显示与您选择的文档类型相关的提取字段。

属性面板

输入

“超时（秒） ” - 生成模型调用的最长执行时间（以秒为单位）。如果操作超过此超时时间，系统会自动终止操作，以防止延迟或挂起。仅当选择生成提取程序作为提取程序时，才会显示此属性。
“自动验证” - 使用此选项启用自动验证，此功能可帮助验证根据生成模型提取数据所获得的结果。自动验证字段的默认值为False 。
- “置信度阈值” - 启用“自动验证”后，此字段将可见。系统会将低于阈值的提取结果与生成式提取模型进行比较。如果匹配，则系统会调整提取可信度以满足阈值。可能的阈值范围是从 0 到 100。
  如果将该值设置为 0，则不应用任何验证。但是，如果设置特定值（从 0 到 100），系统会检查低于此值的所有提取结果。例如，如果您将置信度阈值设置为 80%，则系统将对置信度低于 80% 的字段应用生成式验证。
  
  注意：自动验证仅适用于专用提取模型。
生成数据类型 - 如果设置为 True，这表示应根据所选提取程序生成输出，从而生成 IDocumentData<ExtractorType> 对象。或者，如果设置为 False，则表示应跳过数据生成，从而生成通用的 IDocumentData<DictionaryData> 对象。
请访问文档数据，了解适用于这两种对象类型的其他详细信息和限制。

输出

文档数据- 从文件中提取的所有字段数据。还可从“分类文档”接收信息。
访问文档数据，了解文档数据的工作原理，以及如何使用从单值和多值字段提取的结果。

设计时外部连接

设计时外部连接允许您使用来自其他项目或租户的 Document Understanding 资源来利用该活动。在配置这些属性之前，请确保满足“配置运行时外部连接”页面中提到的先决条件。完成这些步骤后，您可以继续配置运行时外部连接。

“应用程序 ID” ：输入您先前创建的外部应用程序的应用程序 ID。
应用程序密码: 输入您先前创建的外部应用程序的应用程序密码。
“租户 URL” ：输入您在其中创建了外部应用程序的租户的 URL。您在设计时将使用此租户的资源。
URL 应采用以下格式： https://<baseURL>/<OrganizationName>/<TenantName> 。

运行时外部连接

运行时外部连接允许您通过本地部署机器人执行活动。在配置这些属性之前，请确保满足“配置运行时外部连接”页面中提到的先决条件。完成这些步骤后，您可以继续配置运行时外部连接。

“运行时凭据资产” - 在机器人连接到本地 Orchestrator 或来自其他租户时需要访问 Document Understanding 资源时，请使用此字段。您可以通过以下方式之一选择输入凭据资产以进行身份验证：
- 从下拉列表中，从 Orchestrator 中选择UiPath™机器人连接的所需凭据资产。
- 如果您在 Orchestrator 凭据资产中存储了用于访问项目的外部应用程序凭据，请手动输入 Orchestrator 凭据资产的路径。
  路径的格式应为： <OrchestratorFolderName>/<AssetName> 。
运行时租户 URL - 使用此字段与“运行时凭据资产”字段。输入机器人将为执行提取而连接的租户的 URL。URL 应采用以下格式：https://<baseURL>/<OrganizationName>/<TenantName>。

支持的型号

生成预定义项目下可用的生成式提取程序可用于下表中描述的文档：

注意：长文档复杂布局和短文档复杂布局提取程序目前在 Automation Cloud^TM for Public Sector 环境 (FedRamp) 中不可用。

表格 1. 生成式提取程序支持的场景
提取程序	推荐场景	提供程序	区域支持情况
长文档简单布局提取程序	建议用于主要包含文本和标题的长文档。例如，您可以在租赁协议、主服务协议或其他类似文档上使用“长文档简单布局提取程序”。	Azure OpenAI	澳大利亚、欧盟、印度、日本、新加坡、英国、美国、加拿大
长文档复杂布局提取程序（预览版）	建议用于包含复杂布局（例如图像、手写文字、表单元素）或独特布局（例如浮动标注框）的长文档。您可以将此提取程序用于保单等布局复杂的长文档。	Azure OpenAI	美国、欧盟、日本、新加坡
短文档复杂布局提取程序（预览版）	建议用于包含图像、手写文字、表单元素或复杂布局（例如浮动标注框）的较短文档（最多 20 页）。您可以将此提取程序用于政府身份证件或医疗接诊表等通常内容较短但布局更复杂的文档。	Azure OpenAI	美国、欧盟、日本、新加坡