- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- FieldValue Class
- FieldValueResult Class
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- FieldValueDetails Class
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- 基本数据点类 - 预览
- 提取结果处理程序类 - 预览
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- 发行说明
- 关于“智能 OCR”活动包
- 项目兼容性
- 加载分类
- 将文档数字化
- 分类文档作用域
- 基于关键词的分类器
- Document Understanding 项目分类器
- 智能关键词分类器
- 创建文档分类操作
- 创建文档验证工件
- 检索文档验证工件
- 等待文档分类操作然后继续
- 训练分类器范围
- 基于关键词的分类训练器
- 智能关键词分类训练器
- 数据提取作用域
- Document Understanding 项目提取程序
- Document Understanding 项目提取程序训练器
- 基于正则表达式的提取程序
- 表单提取程序
- 智能表单提取程序
- 文档脱敏
- 创建文档验证操作
- 等待文档验证操作然后继续
- 训练提取程序范围
- 导出提取结果
- 机器学习提取程序
- 机器学习提取程序训练器
- 机器学习分类器
- 机器学习分类训练器
- 生成分类器
- 生成式提取程序
- 配置身份验证
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
Document Understanding 活动
UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope
描述
为提取程序活动提供作用域,用于根据“分类”中定义的文档类型配置这些活动。活动输出存储在“ExtractionResult”变量中,其中包含所有自动提取的数据,并可作为输入用于“导出提取结果”活动。该活动还具有“配置提取程序”向导,可用于准确指定要从“分类”属性内定义的文档类型中提取那些字段。
项目兼容性
Windows - Legacy | Windows
配置
设计器面板
输入
- “文档路径”- 要验证的文档的路径。该字段仅支持字符串和字符串变量。
备注:
该属性字段支持的文件类型包括“
.png”、“.gif”、“.jpe”、“.jpg”、“.jpeg”、“.tiff”、“.tif”、“.bmp”和“.pdf”。 - “文档文本” - 文档本身的文本,存储在字符串变量中。可以从“数字化文档”活动中检索此值。有关如何实现此目的的更多信息,请访问数字化文档。此字段仅支持字符串和
String变量。 - “文档对象模型” - 要用于验证文档的文档对象模型。此模型存储在
Document变量中,可以从“数字化文档”活动中检索。有关如何实现此目的的更多信息,请访问数字化文档。此字段仅支持Document变量。 - “分类” - 要处理的文档的分类,存储在
DocumentTaxonomy变量中。您可使用加载分类活动获取此对象。此字段仅支持DocumentTaxonomy变量。 - “分类结果”- 对指定文档运行分类器活动后所得的结果,存储在“
ClassificationResult”对象中。若转而指定“文档类型 ID”,则该字段为可选字段。该字段仅支持“ClassificationResult”变量。 - 文档类型 ID - 在“分类管理器”中找到的“文档类型 ID”。如果在分类结果字段中指定了文件,则该字段为可选字段。此字段仅支持字符串和
String变量。
输出
- “提取结果”- 数据提取流程所生成的提取结果,存储在“
ExtractionResult”变量中。备注:If the page range for data extraction indicates that only a part of the original file is targeted, the Data Extraction Scope generates a file in the
TEMPproject folder that is then passed to the extractors. The temporary file contains only the page range that extractors should receive for document processing.
属性面板
身份验证
此活动的身份验证属性允许您通过本地部署的机器人执行自动验证。在配置这些属性之前,请确保您已满足“配置身份验证”页面中提到的先决条件。完成这些步骤后,您可以继续填写活动的“身份验证”属性。
- 运行时凭据资产 - 在机器人连接到本地 Orchestrator 或来自其他租户的情况下需要访问 Document Understanding 自动验证功能时,请使用此字段。您可以选择通过以下方式之一输入凭据资产,以进行身份验证:
-
从下拉列表中,从 UiPath™ Robot 连接到的 Orchestrator 中选择所需的凭据资产。
-
如果您在 Orchestrator 凭据资产中存储了用于访问自动验证功能的外部应用程序凭据,请手动输入 Orchestrator 凭据资产的路径。
路径的格式应为:
<OrchestratorFolderName>/<AssetName>。
-
- 运行时租户 URL - 使用此字段与“运行时凭据资产”字段。输入机器人将为执行自动验证而连接的租户的 URL。URL 应采用以下格式:
https://<baseURL>/<OrganizationName>/<TenantName>。
常见
- “显示名称”- 活动的显示名称。
输入
- 应用自动验证- 使用生成式提取核查调整置信度。如果值是自动验证的,则这些值的置信度将设置为置信度阈值。启用此功能会消耗额外的 AI Unit。
- “分类结果”- 对指定文档运行分类器活动后所得的结果,存储在“
ClassificationResult”对象中。若转而指定“文档类型 ID”,则该字段为可选字段。该字段仅支持“ClassificationResult”变量。 - “文档对象模型” - 要用于验证文档的文档对象模型。此模型存储在
Document变量中,可以从“数字化文档”活动中检索。有关如何实现此目的的更多信息,请访问数字化文档。此字段仅支持Document变量。 - “文档路径”- 要验证的文档的路径。该字段仅支持字符串和字符串变量。
备注:
该属性字段支持的文件类型包括“
.png”、“.gif”、“.jpe”、“.jpg”、“.jpeg”、“.tiff”、“.tif”、“.bmp”和“.pdf”。 - “文档文本” - 文档本身的文本,存储在字符串变量中。可以从“数字化文档”活动中检索此值。有关如何实现此目的的更多信息,请访问数字化文档。此字段仅支持字符串和
String变量。 - 文档类型 ID - 在“分类管理器”中找到的“文档类型 ID”。如果在分类结果字段中指定了文件,则该字段为可选字段。此字段仅支持字符串和
String变量。 - “如果可能,则格式化值” - 指定如果一个值已报告派生部分,则数据提取作用域不会覆盖该值,但如果该值没有派生部分,则数据提取作用域会尝试计算该值。如果该选项设置为“False” ,则不会设置值的格式。
- 自动验证置信度阈值- 生成式验证的置信度阈值。只有置信度低于此阈值的字段值才会经过验证。如果值已经过确认,则这些值的置信度将被设置为此阈值。
- “分类” - 要处理的文档的分类,存储在
DocumentTaxonomy变量中。您可使用加载分类活动获取此对象。此字段仅支持DocumentTaxonomy变量。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
输出
- “提取结果”- 数据提取流程所生成的提取结果,存储在“
ExtractionResult”变量中。备注:If the page range for data extraction indicates that only a part of the original file is targeted, the Data Extraction Scope generates a file in the
TEMPproject folder that is then passed to the extractors. The temporary file contains only the page range that extractors should receive for document processing.
使用“配置提取程序向导”
The Configure Extractors Wizard can be accessed via the Data Extraction Scope and allows you to choose which extractors are applied to each document type and field.
从活动主体中选择“配置提取程序” 。将至少一个提取程序活动拖动到“数据提取作用域”活动的主体中后,此向导按钮将变为可用。此向导会显示分类中定义的所有文档类型及其相应的字段,并且您可以选择要为每个文档使用的提取程序。
图 1.“配置提取程序”向导概览

您可在该向导中展开每个文档类型,查看其字段并选择要提取的相应字段。
图 2. 在“配置提取程序”向导中为文档类型选择提取程序

“框架别名”字段可用于将提取程序映射到一个或多个训练器。例如,您可以为机器学习提取程序指定别名R2D2 ,然后可以对机器学习提取程序训练器使用相同的别名。这将在提取程序和训练器之间创建链接,并且可以用于训练提取程序。每个提取程序都有唯一的别名,而多个训练器可以共享相同的别名。
您可以配置“最低可信度”字段,以允许使用 0 到 100 之间的可信度阈值。仅当预测的置信度分数等于或高于配置的“最低置信度”时,才考虑字段的预测值。如果预测的置信度分数小于“最低置信度”阈值,则预测值不会存储在“数据提取作用域”活动的输出中。
例如,您可以通过测试工作流中的各种文档来确定最佳置信度,并将结果记录在 Excel 电子表格中,然后分析哪个阈值最准确。
对于支持此功能的提取程序,选择“获取刷新提取程序功能” ,以便轻松地将您的分类字段映射到可用的提取程序字段,或者在提取程序字段发生更改时刷新这些字段。
如果选中任何列中各相应字段旁的复选框,则数据提取程序作用域将从提取程序请求该特定字段。如果取消选中该复选框,则数据提取程序作用域不会从提取程序请求该字段的值。
若使用每个字段旁的文本输入,您便可将“分类”中定义的字段映射到提取程序内部分类中定义的字段(如有)。对于常规字段,请在文本输入中添加提取程序内部分类中目标字段的标识符。对于表格字段,在表格级别映射父表字段,并单独映射相应的列。
在具有已定义列字段的设置中使用机器学习提取程序时,可以将这些字段映射到分类中的表格字段。它们将显示在名为“项目”的集合下。
向导中的列数会因作用域活动中显示的提取程序数量而异。每列的名称由每个提取程序活动的显示名称指定。
图 3. “配置提取程序”向导中显示的多个提取程序

如果活动中使用了多个提取程序,则这些提取程序在作用域中的排序将定义其优先级。例如,我们假设有三个提取程序。如果“提取程序 1”为特定的请求字段返回了可接受的值(该值高于“最低置信度”级别),则在执行“提取程序 2”和“提取程序 3”时,系统不会请求该字段。如果“提取程序 1”和“提取程序 2”返回的值低于该特定字段的最低置信度级别,或者根本不返回任何值,则在满足置信度可接受性条件的情况下,系统将考虑“提取程序 3”的结果。
Document Understanding 集成
数据提取作用域活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问Document Understanding 指南。