- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- FieldValue Class
- FieldValueResult Class
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- FieldValueDetails Class
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式

Document Understanding 活动
UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>
先决条件
“提取文档数据”活动需要“文档数据”或“文件”类型的输入对象。使用此活动的一个可能用例是在该活动之前使用“分类文档”活动,后者会生成类型为文档数据的对象。
输入选项
- 文档数据 - 来自“分类文档”活动
- 文件 - 来自“获取文件/文件夹”或“获取最新的电子邮件”活动
生成式模型支持的语言
生成式模型支持的语言与所使用的 OCR 引擎相同,这取决于项目。对于预定义项目和生成式预定义项目,使用的 OCR 引擎为UiPath Document OCR 。有关更多信息,请访问“OCR 支持的语言”页面。
活动使用的模型
“提取文档数据”活动使用以下内容:- 基于DocPath ,开箱即用的预训练专用模型。
- 部署在 Document Understanding 新式和传统项目中的自定义预训练模型。
- 生成式提取模型。
“生成式预定义”项目类型和相应的提取程序在 Automation Suite 中不可用。
使用“提取文档数据”活动时,分类字段支持新式项目提取程序和开箱即用的模型,但不支持传统项目提取程序。
设计器面板
- “输入”- 如果您以前在工作流中使用过其他 Document Understanding 活动,则需要指定文件本身或文档数据(例如,“分类文档”)。
重要提示:一个文件最多可包含 500 页。超过此限制的文件将无法提取。
- 项目 - 要求您从下拉列表中选择 Document Understanding 项目。可用选项包括:
- 预定义 – 传统项目类型,使用建议用于标准场景的预训练专用模型。
有关传统项目计费逻辑的更多信息,请访问计量和计费逻辑。
- 生成式预定义– 新式项目类型,使用预训练的生成式模型,接受指令作为提取文档数据的输入。
有关新式项目计费逻辑的更多信息,请访问计量和计费逻辑。
- 您连接到的租户和文件夹中的现有项目。
- 您可以转到 Document Understanding 来创建自定义项目。
有关更多信息,请访问模型构建简介。
注意:如果您在租户上创建的项目超过 500 个,并使用“提取文档数据”活动,则 UiPath Studio 或 Studio Web 将不会显示最初 500 个项目之后的任何项目。因此,您不能使用超出的这些项目。 - 预定义 – 传统项目类型,使用建议用于标准场景的预训练专用模型。
- 提取程序 - 选择项目后,您还可以选择要使用的提取程序。
- 对于“预定义”项目,您有两个选择:
- 对于“生成式预定义”项目,您可以根据特定文档布局,从三种提取中选择:
- 长文档简单版式提取程序 – 推荐用于主要包含文本和标题的长表单文档。例如,您可以在租赁协议、主服务协议或其他类似文档上使用“长文档简单布局提取程序”。
- 长文档复杂布局提取程序(预览版)– 推荐用于包含图像、手写、表单控件、浮动标注框或其他复杂布局类型等元素的长表单文档。例如,您可以在保险单等文档或其他类似文档上使用“长文档复杂布局提取程序”。
- 短文档复杂布局提取程序(预览版)– 推荐用于包含图像、手写、表单控件、浮动标注框或其他复杂布局类型等元素的短文档。例如,您可以在由政府签发的身份证、医疗保健登记表或其他类似文档上使用“短文档复杂布局提取程序”。
- 使用分类结果:如果生成数据类型属性设置为 False,则可以选择使用分类结果选项。此选项根据“分类文档”活动得出的文档类型自动使用推荐的提取程序。
如果多个提取程序可以处理该文档类型,则该活动将返回错误。在这种情况下,您必须手动选择首选提取程序。
- 文档类型详细信息 - 如果选择“生成式”选项,则会显示此字段。用于识别您要提取的字段的提示词,以键值对形式提供,其中键表示字段的名称,而值表示字段的说明,这可帮助提取程序识别相应的值。选择该字段,系统会提示您以下选项(以成对形式提供):
- “字段名称”- 要求您输入要提取的字段名称,例如到期日期(最多 30 个字符)
- 说明 - 要求您提供有关应从相应字段提取哪些信息的说明。允许的最大字符数为 1000。响应(即提取结果,也称为完成)字数限制为 700。也就是不得超过 700 个单词。这意味着您无法从单个提示词中提取超过 700 个单词。如果您的提取要求超过此限制,您可以将文档拆分为多个页面,单独处理,然后合并结果。
提示:有关如何使用生成式提示的良好做法,请查看生成提取程序 - 良好做法页面。 - 版本或标签 - 在使用现有的 Document Understanding 新式项目时使用此属性。选择与要从中处理数据的项目版本相对应的标签。例如,如果您选择分配给版本 3 的“生产”标签,则该活动将在生产环境中处理来自项目版本 3 的数据。
“版本”的默认值为“暂存”。如果所选项目中不存在“暂存”标签,则默认值为“生产”。
有关版本的更多信息,请访问发布模型。
- 文档类型 - 从“版本”字段选择标签时,活动会自动从所选项目的相关版本中选择第一个部署的文档类型。此外,该活动会显示与您选择的文档类型相关的提取字段。
属性面板
输入
- “超时(秒) ” - 生成模型调用的最长执行时间(以秒为单位)。 如果操作超过此超时时间,系统会自动终止操作,以防止延迟或挂起。 仅当选择生成提取程序作为提取程序时,才会显示此属性。
- “自动验证” - 使用此选项启用自动验证,此功能可帮助验证根据生成模型提取数据所获得的结果。 自动验证字段的默认值为
False
。- “置信度阈值” - 启用“自动验证”后,此字段将可见。 系统会将低于阈值的提取结果与生成式提取模型进行比较。 如果匹配,则系统会调整提取可信度以满足阈值。 可能的阈值范围是从 0 到 100。
如果将该值设置为 0,则不应用任何验证。 但是,如果设置特定值(从 0 到 100),系统会检查低于此值的所有提取结果。 例如,如果您将置信度阈值设置为 80%,则系统将对置信度低于 80% 的字段应用生成式验证。
注意:自动验证仅适用于专用提取模型。
- “置信度阈值” - 启用“自动验证”后,此字段将可见。 系统会将低于阈值的提取结果与生成式提取模型进行比较。 如果匹配,则系统会调整提取可信度以满足阈值。 可能的阈值范围是从 0 到 100。
- 生成数据类型 - 如果设置为
True
,这表示应根据所选提取程序生成输出,从而生成IDocumentData<ExtractorType>
对象。或者,如果设置为False
,则表示应跳过数据生成,从而生成通用的IDocumentData<DictionaryData>
对象。请访问文档数据,了解适用于这两种对象类型的其他详细信息和限制。
输出
- 文档数据- 从文件中提取的所有字段数据。 还可从“分类文档”接收信息。
访问文档数据,了解文档数据的工作原理,以及如何使用从单值和多值字段提取的结果。
设计时外部连接
设计时外部连接允许您使用来自其他项目或租户的 Document Understanding 资源来利用该活动。在配置这些属性之前,请确保满足“配置运行时外部连接”页面中提到的先决条件。完成这些步骤后,您可以继续配置运行时外部连接。
- “应用程序 ID” :输入您先前创建的外部应用程序的应用程序 ID。
- 应用程序密码: 输入您先前创建的外部应用程序的应用程序密码。
- “租户 URL” :输入您在其中创建了外部应用程序的租户的 URL。您在设计时将使用此租户的资源。
URL 应采用以下格式:
https://<baseURL>/<OrganizationName>/<TenantName>
。
运行时外部连接
运行时外部连接允许您通过本地部署机器人执行活动。在配置这些属性之前,请确保满足“配置运行时外部连接”页面中提到的先决条件。完成这些步骤后,您可以继续配置运行时外部连接。
- “运行时凭据资产” - 在机器人连接到本地 Orchestrator 或来自其他租户时需要访问 Document Understanding 资源时,请使用此字段。您可以通过以下方式之一选择输入凭据资产以进行身份验证:
- 从下拉列表中,从 Orchestrator 中选择UiPath™机器人连接的所需凭据资产。
- 如果您在 Orchestrator 凭据资产中存储了用于访问项目的外部应用程序凭据,请手动输入 Orchestrator 凭据资产的路径。
路径的格式应为:
<OrchestratorFolderName>/<AssetName>
。
- 运行时租户 URL - 使用此字段与“运行时凭据资产”字段。输入机器人将为执行提取而连接的租户的 URL。URL 应采用以下格式:
https://<baseURL>/<OrganizationName>/<TenantName>
。
提取程序 | 推荐场景 | 提供程序 | 区域支持情况 | 多模态支持1 |
---|---|---|---|---|
长文档简单布局提取程序 | 建议用于主要包含文本和标题的长文档。 例如,您可以在租赁协议、主服务协议或其他类似文档上使用“长文档简单布局提取程序”。 | Azure OpenAI | 英国、澳大利亚、印度、加拿大 | |
长文档复杂布局提取程序 | 建议用于包含复杂布局(例如图像、手写文字、表单元素)或独特布局(例如浮动标注框)的长文档。您可以将此提取程序用于保单等布局复杂的长文档。 | Azure OpenAI | 美国、欧盟、日本、新加坡 | |
短文档复杂布局提取程序 | 建议用于包含图像、手写文字、表单元素或复杂布局(例如浮动标注框)的较短文档(最多 20 页)。您可以将此提取程序用于政府身份证件或医疗接诊表等通常内容较短但布局更复杂的文档。 | Azure OpenAI | 美国、欧盟、日本、新加坡 |
1 多模式支持是指提取不同类型的数据输入,例如文本、图像、手写文本等的功能。
要快速开始使用“提取文档数据”活动的生成式功能,请执行以下步骤:
- 添加提取文档数据活动。
- 从“项目”下拉列表中,选择“生成式预定义”。
- 对于“提取程序”,请选择以下提取程序之一:“长文档简单布局提取程序”、“长文档复杂布局提取程序”或“短文档复杂布局提取程序”。
“文档类型详细信息”属性将显示在活动的主体中。
- 对于“字典”,请以字典键值对的形式提供说明,其中:
- “字段名称”表示要从文档中提取的字段的名称。例如
email address
。 - “说明”表示提供给提取程序,用于提取字段的信息的说明。这是生成式提取程序用于识别相应值的说明。
例如,请查看下表中的键值对示例:
表 2.生成式提取程序提示的键值对示例 字段名称 说明 名称 “候选人叫什么名字?” 当前作业 “候选人当前的工作是什么?” 雇主 “候选人当前的雇主是什么?” 图 1. 生成式提取程序的键值对详细信息
- “字段名称”表示要从文档中提取的字段的名称。例如