- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
Document Understanding 活动
数据提取作用域
UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope
ExtractionResult
变量中,其中包含所有自动提取的数据,并可作为输入用于导出提取结果活动。该活动还具有配置提取程序向导,可用于准确指定要从“分类”属性内定义的文档类型中提取那些字段。
设计器面板
输入
- “文档路径”- 要验证的文档的路径。此字段仅支持字符串和字符串变量。
注意:该属性字段支持的文件类型包括“
.png
”、“.gif
”、“.jpe
”、“.jpg
”、“.jpeg
”、“.tiff
”、“.tif
”、“.bmp
”和“.pdf
”。 - 文档文本 - 文档本身的文本,存储在字符串变量中。可以从“数字化文档”活动中检索此值。有关如何实现此目的的更多信息,请访问数字化文档。此字段仅支持字符串和
String
变量。 - 文档对象模型 - 要用于验证文档的文档对象模型。此模型存储在
Document
变量中,可以从“数字化文档”活动中检索。有关如何实现此目的的更多信息,请访问数字化文档。此字段仅支持Document
变量。 - 分类 - 处理文档要依据的分类,存储在
DocumentTaxonomy
变量中。您可使用加载分类活动获取此对象。此字段仅支持DocumentTaxonomy
变量。 - 分类结果 - 对指定文档运行分类器活动后所得的结果,存储在
ClassificationResult
对象中。若转而指定文档类型 ID,则该字段为可选字段。此字段仅支持ClassificationResult
变量。 - 文档类型 ID - 在“分类管理器”中找到的“文档类型 ID”。如果在分类结果字段中指定了文件,则该字段为可选字段。此字段仅支持
String
变量。
输出
- 提取结果 - 数据提取流程所生成的提取结果,存储在
ExtractionResult
变量中。注意: 如果数据提取的页面范围指示仅定位原始文件的一部分,则 数据提取作用域 会在TEMP
项目文件夹中生成一个文件,然后将其传递给提取程序。 临时文件仅包含提取程序应接收以进行文档处理的页面范围。
属性面板
身份验证
此活动的身份验证属性允许您通过本地部署的机器人执行自动验证。在配置这些属性之前,请确保您已满足“配置身份验证”页面中提到的先决条件。完成这些步骤后,您可以继续填写活动的“身份验证”属性。
- 运行时凭据资产 - 在机器人连接到本地 Orchestrator 或来自其他租户的情况下需要访问 Document Understanding 自动验证功能时,请使用此字段。您可以通过以下方式之一选择输入凭据资产以进行身份验证:
- 从下拉列表中,从 Orchestrator 中选择UiPath™机器人连接的所需凭据资产。
- 如果您在 Orchestrator 凭据资产中存储了用于访问自动验证功能的外部应用程序凭据,请手动输入 Orchestrator 凭据资产的路径。
路径的格式应为:
<OrchestratorFolderName>/<AssetName>
。
- 运行时租户 URL - 使用此字段与“运行时凭据资产”字段。输入机器人将为执行自动验证而连接的租户的 URL。URL 应采用以下格式:
https://<baseURL>/<OrganizationName>/<TenantName>
。
常见
- “显示名称”- 活动的显示名称。
输入
- 应用自动验证 - 使用生成式提取核查调整置信度。经生成式 AI 确认的报告值的置信度将增加到 99%。启用此功能需要消耗额外的 AI Unit。
重要提示:
此功能当前是审核流程的一部分,在审核完成之前不应视为 FedRAMP 授权的一部分。 请在此处查看当前正在审核的功能的完整列表。
- 分类结果 - 对指定文档运行分类器活动后所得的结果,存储在
ClassificationResult
对象中。若转而指定文档类型 ID,则该字段为可选字段。此字段仅支持ClassificationResult
变量。 - 文档对象模型 - 要用于验证文档的文档对象模型。此模型存储在
Document
变量中,可以从“数字化文档”活动中检索。有关如何实现此目的的更多信息,请访问数字化文档。此字段仅支持Document
变量。 - “文档路径”- 要验证的文档的路径。此字段仅支持字符串和字符串变量。
注意:该属性字段支持的文件类型包括“
.png
”、“.gif
”、“.jpe
”、“.jpg
”、“.jpeg
”、“.tiff
”、“.tif
”、“.bmp
”和“.pdf
”。 - 文档文本 - 文档本身的文本,存储在字符串变量中。可以从“数字化文档”活动中检索此值。有关如何实现此目的的更多信息,请访问数字化文档。此字段仅支持字符串和
String
变量。 - 文档类型 ID - 在“分类管理器”中找到的“文档类型 ID”。如果在分类结果字段中指定了文件,则该字段为可选字段。此字段仅支持
String
变量。 - -指定如果某个值包含已报告的派生部分,则数据提取作用域不会覆盖该值;但如果该值没有派生部分,则数据提取作用域会尝试计算该值。 如果该选项设置为False ,则不设置值的格式。
- 自动验证置信度阈值 - 生成式验证的置信度阈值。 只有置信度低于此阈值的字段值才会通过验证。 如果值已确认,则系统会将这些值的可信度设置为此阈值。
重要提示:
此功能当前是审核流程的一部分,在审核完成之前不应视为 FedRAMP 授权的一部分。 请在此处查看当前正在审核的功能的完整列表。
- 分类 - 处理文档要依据的分类,存储在
DocumentTaxonomy
变量中。您可使用加载分类活动获取此对象。此字段仅支持DocumentTaxonomy
变量。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
输出
- 提取结果 - 数据提取流程所生成的提取结果,存储在
ExtractionResult
变量中。注意: 如果数据提取的页面范围指示仅定位原始文件的一部分,则 数据提取作用域 会在TEMP
项目文件夹中生成一个文件,然后将其传递给提取程序。 临时文件仅包含提取程序应接收以进行文档处理的页面范围。
通过数据提取作用域访问的配置提取程序向导让您可以选择要应用于每个文档类型和字段的提取程序。
从活动主体中选择“配置提取程序”。将至少一个提取程序活动拖动到“数据提取作用域”活动的主体中后,此向导按钮将变为可用。此向导会显示分类中定义的所有文档类型及其相应的字段,并且您可以选择要为每个文档使用的提取程序。
您可在该向导中展开每个文档类型,查看其字段并选择要提取的相应字段。
R2D2
,然后可以对机器学习提取程序训练器使用相同的别名。这将在提取程序和训练器之间创建链接,并且可以用于训练提取程序。每个提取程序都有唯一的别名,而多个不同的训练器可以共享相同的别名。
对于支持此功能的提取程序,选择“获取刷新提取程序功能”,以便轻松地将您的分类字段映射到可用的提取程序字段,或者在提取程序字段发生更改时刷新这些字段。
如果选中任何列中各相应字段旁的复选框,则数据提取程序作用域将从提取程序请求该特定字段。如果取消选中该复选框,则数据提取程序作用域不会从提取程序请求该字段的值。
若使用每个字段旁的文本输入,您便可将“分类”中定义的字段映射到提取程序内部分类中定义的字段(如有)。对于常规字段,请在文本输入中添加提取程序内部分类中目标字段的标识符。对于表格字段,在表格级别映射父表字段,并单独映射相应的列。
向导中的列数会因作用域活动中显示的提取程序数量而异。每列的名称由每个提取程序活动的显示名称指定。
如果活动中使用了多个提取程序,则这些提取程序在作用域中的排序将定义其优先级。例如,让我们考虑三个提取程序。如果“提取程序 1”为特定的请求字段返回了可接受的值(高于“最低可信度”级别),则在执行“提取程序 2”和“提取程序 3”时,系统不会请求该字段。如果“提取程序 1”和“提取程序 2”返回的值低于该特定字段的“最低置信度”级别,或者根本不返回任何值,则在满足置信度可接受性条件的情况下,系统将考虑“提取程序 3”的结果。
数据提取作用域活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南。