- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding 流程:Studio 模板
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
数据提取作用域
UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope
ExtractionResult
变量中,其中包含所有自动提取的数据,并可作为输入用于导出提取结果活动。该活动还具有配置提取程序向导,可用于准确指定要从“分类”属性内定义的文档类型中提取那些字段。
常见
- “显示名称”- 活动的显示名称。
输入
- ApplyAutoValidation - Adjust confidence using Generative Extraction cross-checking. Confidences for reported values that are confirmed by Generative AI will be increased to 99%. Enabling this feature while in public preview has no extra AI Unit consumption. Additional consumption may apply once the feature is in general availability. Follow our release notes for the latest information.
- 分类结果 - 对指定文档运行分类器活动后所得的结果,存储在
ClassificationResult
对象中。若转而指定文档类型 ID,则该字段为可选字段。此字段仅支持ClassificationResult
变量。 - 文档对象模型 - 要用于验证文档的文档对象模型。此模型存储在
Document
变量中,可以从数字化文档活动中检索。有关如何执行此操作的更多信息,请参阅活动的文档。此字段仅支持Document
变量。 -
“文档路径”- 要验证的文档的路径。此字段仅支持字符串和字符串变量。
注意:该属性字段支持的文件类型包括“.png
”、“.gif
”、“.jpe
”、“.jpg
”、“.jpeg
”、“.tiff
”、“.tif
”、“.bmp
”和“.pdf
”。 - “文档 文本”- 文档本身的文本,存储在字符串变量中。 可以从“ 数字化文档” 活动中检索此值。 有关如何执行此操作的更多信息,请参阅活动的文档。 此字段仅支持字符串和字符串变量。
- 文档类型 ID - 在“分类管理器”中找到的“文档类型 ID”。如果在分类结果字段中指定了文件,则该字段为可选字段。此字段仅支持字符串和字符串变量。
- -指定如果某个值包含已报告的派生部分,则数据提取作用域不会覆盖该值;但如果该值没有派生部分,则数据提取作用域会尝试计算该值。 如果该选项设置为False ,则不设置值的格式。
- AutoValidationConfidenceThreshold - Confidence threshold for generative validation. Only field values with confidence below this threshold will be validated. If values are confirmed, the confidence of those values will be set to this threshold.
- 分类 - 处理文档要依据的分类,存储在
DocumentTaxonomy
变量中。您可使用加载分类活动获取此对象。此字段仅支持DocumentTaxonomy
变量。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
输出
-
提取结果 - 数据提取流程所生成的提取结果,存储在
ExtractionResult
变量中。注意: 如果数据提取的页面范围指示仅定位原始文件的一部分,则 数据提取作用域 会在TEMP
项目文件夹中生成一个文件,然后将其传递给提取程序。 临时文件仅包含提取程序应接收以进行文档处理的页面范围。
通过数据提取作用域访问的配置提取程序向导让您可以选择要应用于每个文档类型和字段的提取程序。
单击配置提取程序按钮,即可从活动主体中打开该文件。将至少一个提取程序活动拖动到数据提取作用域活动的主体中后,此向导按钮将变为可用。此向导会显示分类中定义的所有文档类型及其相应的字段,并且您可以选择要为每个文档使用的提取程序。
您可在该向导中展开每个文档类型,查看其字段并选择要提取的相应字段。
“框架别名”字段可用于将提取程序映射到一个或多个训练器。例如,您可以为机器学习提取程序指定别名 R2D2,然后可以对机器学习提取程序训练器使用相同的别名。这将在提取程序和训练器之间创建链接,并且可以用于训练提取程序。每个提取程序都有唯一的别名,而多个不同的训练器可以共享相同的别名。
“最低可信度”字段可配置为 0 到 100 之间的值,该值表示用于界定合格提取数据的可信度阈值。如果选定字段所得结果的可信度级别低于可信度阈值,系统便不会在最终结果中报告该结果。
对于支持此功能的提取程序,可以使用“获取刷新提取程序功能”按钮,以轻松地将分类字段映射到可用的提取程序字段,或者在提取程序字段发生更改时刷新这些字段。
任何列中每个字段旁边的复选框如果选中,则会导致数据提取程序作用域从提取程序请求该特定字段。 如果取消选中该复选框,则数据提取程序作用域不会从提取程序请求该字段的值。
每个字段旁边的文本输入可用于将“分类”中定义的字段映射到提取程序内部分类中定义的字段(如有)。 对于常规字段,请在文本输入中添加提取程序内部分类中目标字段的标识符。 对于表格字段,在表格级别映射父表字段,并单独映射相应的列。
向导中的列数会因作用域活动中显示的提取程序数量而异。每列的名称由每个提取程序活动的显示名称指定。
如果活动中使用了多个提取程序,则这些提取程序在作用域中的排序将定义其优先级。例如,在上图中,如果“提取程序 1”为特定的请求字段返回了可接受的值(高于“最低可信度”级别),则在执行“提取程序 2”和“提取程序 3”时,系统不会请求该字段。如果“提取程序 1”和“提取程序 2”返回的值低于该特定字段的最低置信度级别,或者根本不返回任何值,则在满足置信度可接受性条件的情况下,系统将考虑“提取程序 3”的结果。
Document Understanding 集成
数据提取作用域活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南。