活动
最新
False
横幅背景图像
Document Understanding 活动
上次更新日期 2024 年 4 月 10 日

数据提取作用域

UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope

为提取程序活动提供作用域,用于根据“分类”中定义的文档类型配置这些活动。活动输出存储在 ExtractionResult 变量中,其中包含所有自动提取的数据,并可作为输入用于导出提取结果活动。该活动还具有配置提取程序向导,可用于准确指定要从“分类”属性内定义的文档类型中提取那些字段。

属性

常见
  • “显示名称”- 活动的显示名称。
输入
  • “应用生成式验证”(预览版)- 使用生成式提取核查调整置信度。经生成式 AI 确认的报告值的置信度将增加到 99%。在公开预览中启用此功能不会消耗额外的 AI Unit。此功能正式发布后,可能需要消耗额外的 AI Unit。请关注我们的发行说明,以获取最新信息。
  • 分类结果 - 对指定文档运行分类器活动后所得的结果,存储在 ClassificationResult 对象中。若转而指定文档类型 ID,则该字段为可选字段。此字段仅支持 ClassificationResult 变量。
  • 文档对象模型 - 要用于验证文档的文档对象模型。此模型存储在 Document 变量中,可以从数字化文档活动中检索。有关如何执行此操作的更多信息,请参阅活动的文档。此字段仅支持 Document 变量。
  • “文档路径”- 要验证的文档的路径。此字段仅支持字符串和字符串变量。

    注意:该属性字段支持的文件类型包括“.png”、“.gif”、“.jpe”、“.jpg”、“.jpeg”、“.tiff”、“.tif”、“.bmp”和“.pdf”。
  • “文档 文本”- 文档本身的文本,存储在字符串变量中。 可以从“ 数字化文档” 活动中检索此值。 有关如何执行此操作的更多信息,请参阅活动的文档。 此字段仅支持字符串和字符串变量。
  • 文档类型 ID - 在“分类管理器”中找到的“文档类型 ID”。如果在分类结果字段中指定了文件,则该字段为可选字段。此字段仅支持字符串和字符串变量。
  • -指定如果某个值包含已报告的派生部分,则数据提取作用域不会覆盖该值;但如果该值没有派生部分,则数据提取作用域会尝试计算该值。 如果该选项设置为False ,则不设置值的格式。
  • “生成式验证置信度阈值(预览版)” - 生成式验证的置信度阈值。 只有置信度低于此阈值的字段值才会通过验证。 如果值已确认,则系统会将这些值的可信度设置为此阈值。
  • 分类 - 处理文档要依据的分类,存储在 DocumentTaxonomy 变量中。您可使用加载分类活动获取此对象。此字段仅支持 DocumentTaxonomy 变量。
其他
  • “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
输出
  • 提取结果 - 数据提取流程所生成的提取结果,存储在 ExtractionResult 变量中。
    注意: 如果数据提取的页面范围指示仅定位原始文件的一部分,则 数据提取作用域 会在 TEMP 项目文件夹中生成一个文件,然后将其传递给提取程序。 临时文件仅包含提取程序应接收以进行文档处理的页面范围。

使用“配置提取程序向导”

通过数据提取作用域访问的配置提取程序向导让您可以选择要应用于每个文档类型和字段的提取程序。

单击配置提取程序按钮,即可从活动主体中打开该文件。将至少一个提取程序活动拖动到数据提取作用域活动的主体中后,此向导按钮将变为可用。此向导会显示分类中定义的所有文档类型及其相应的字段,并且您可以选择要为每个文档使用的提取程序。



您可在该向导中展开每个文档类型,查看其字段并选择要提取的相应字段。



“框架别名”字段可用于将提取程序映射到一个或多个训练器。例如,您可以为机器学习提取程序指定别名 R2D2,然后可以对机器学习提取程序训练器使用相同的别名。这将在提取程序和训练器之间创建链接,并且可以用于训练提取程序。每个提取程序都有唯一的别名,而多个不同的训练器可以共享相同的别名。

“最低可信度”字段可配置为 0 到 100 之间的值,该值表示用于界定合格提取数据的可信度阈值。如果选定字段所得结果的可信度级别低于可信度阈值,系统便不会在最终结果中报告该结果。

对于支持此功能的提取程序,可以使用“获取刷新提取程序功能”按钮,以轻松地将分类字段映射到可用的提取程序字段,或者在提取程序字段发生更改时刷新这些字段。



任何列中每个字段旁边的复选框如果选中,则会导致数据提取程序作用域从提取程序请求该特定字段。 如果取消选中该复选框,则数据提取程序作用域不会从提取程序请求该字段的值。

每个字段旁边的文本输入可用于将“分类”中定义的字段映射到提取程序内部分类中定义的字段(如有)。 对于常规字段,请在文本输入中添加提取程序内部分类中目标字段的标识符。 对于表格字段,在表格级别映射父表字段,并单独映射相应的列。

注意:在具有已定义列字段的设置中使用机器学习提取程序时,这些内容可以映射到分类中的表格字段。 它们将显示在名为“项目”的集合下。

向导中的列数会因作用域活动中显示的提取程序数量而异。每列的名称由每个提取程序活动的显示名称指定。



如果活动中使用了多个提取程序,则这些提取程序在作用域中的排序将定义其优先级。例如,在上图中,如果“提取程序 1”为特定的请求字段返回了可接受的值(高于“最低可信度”级别),则在执行“提取程序 2”和“提取程序 3”时,系统不会请求该字段。如果“提取程序 1”和“提取程序 2”返回的值低于该特定字段的最低置信度级别,或者根本不返回任何值,则在满足置信度可接受性条件的情况下,系统将考虑“提取程序 3”的结果。

Document Understanding 集成

数据提取作用域活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南

  • 属性
  • 使用“配置提取程序向导”

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.