activities
latest
false
重要 :
请注意此内容已使用机器翻译进行了部分本地化。 新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 活动

上次更新日期 2024年12月5日

文档数据

文档数据是在 Document Understanding 工作流中充当输入变量和输出变量的资源。 文档数据对象保存有关单个文档的所有必要信息。 如果您对文档进行分类,则对象包括文档类型。 如果提取数据,则对象将包含相应的提取字段。 无论何种活动,文档数据都会一致地包含文档的文本和 DOM(文档对象模型)。

使用文档数据,您可以:在一个变量中收集有关文档的所有必要信息,将数据保存到对象的每个属性,并将其重用于工作流中的其他活动。

文档数据保存有关以下属性的信息:

  • “文档类型” : 提供有关已识别文档类型的数据,并由“文档分类” 或“创建分类验证任务” 等活动填充。
  • 数据:包含提取的字段值。 它由生成数据属性按需生成,该属性会生成IDocumentData<ExtractorType>输出类型。 当生成数据属性设置为False时,您只能通过Get类型的方法访问提取的字段值。
  • 文件详细信息:包含有关IResource的详细信息。
  • 子文档:包括文档数据集合,由“创建分类验证任务”等活动填充。
  • “文档元数据”:包含有关处理文档的信息,例如:
    • 检测到的文本语言
    • 作为数据表提取的字段
    • 文档对象模型 (DOM) :保存所有活动都使用的文档对象模型。
    文档元数据由首先处理文档的活动更新。 填充后,系统将与接收文档数据对象的所有后续活动共享并使用元数据。
    提示:除非某个活动是属于 Studio 工作流一部分的第一个 Document Understanding 活动,否则请使用“文档数据”作为输入。仅当活动是属于 Studio 工作流一部分的第一个 Document Understanding 活动时,才可使用“文件”变量作为输入。

了解和访问数据

文档数据”包含有关提取结果的详细信息。 数据可以有两种类型,具体取决于您是否选择按需生成数据,以便您可以在工作流中进一步使用它,或者不生成数据,以便可以对其执行getset方法,对于高级实现,以增加灵活性。

使用“提取文档数据”活动中的“生成数据类型”属性,您可以选择是否按需生成数据。 请参考以下场景:

  • 当您将“生成数据类型”设置为True (默认设置)时:“文档数据”输出为IDocumentData<ExtractorType> 。 此数据根据需要生成,并会根据在“提取文档数据”活动中进行的修改而更改。 使用此设置,您无法更改“验证站点”中的文档类型,并且默认选择 JIT(实时)。
  • 当您将“生成数据类型”设置为False时:文档数据输出为IDocumentData<DictionaryData> 。 使用此设置,将不再生成“文档数据”属性,并且您将无法浏览它。

    您可以根据字段 ID,使用特定方法访问其数据。 在配置文档类型或使用 API 检索信息时,这些 ID 可用。 有关更多信息,请访问编辑或添加新字段获取提取请求 API

    • 当您将“生成数据类型”设置为False进行生成提取时,检索到的字段与提示中提供的名称相对应。 例如,如果提示中的字段名称定义为a b c (包括空格),则在使用特定方法时,应使用与字段 ID 相同的名称。

将文档数据传递给活动

使用文档数据时,系统将根据输入文件创建第一个输出对象。 创建此对象后,建议您将其传递到下一个活动中。 通过将其传递给下一个活动,您可以重用原始文件中的文本和 DOM。 此方法可避免每次都将文件重新数字化。

使用单值和多值字段的提取结果

如果您将文档类型字段配置为多值,则系统需要多个值。 例如,表单上的多项选择题。 结果显示在字段的多值属性中,并作为列表返回。 如果将文档类型字段配置为单个值,则系统默认在该字段的值属性中返回结果。

下表显示了文档数据如何返回单值字段和多值字段:

表 1. 文档数据为单值字段和多值字段返回的值
 没有价值拥有一个值具有两个或多个值DocumentData.Data.FieldName.ValueDocumentData.Data.FieldName.MultiValues
单一值 不适用""null
单一值不适用<value that was identified>null
多值""[](空数组)
多值<value that was identified>[<其中一个值与.Value相同的数组>]
多值<first value that was identified>[< 包含n值的数组,第一个值与.Value的值相同>]

以数据表形式返回提取的字段

您可以使用文档数据对象将从文档中提取的字段作为数据表返回。 然后,您可以在Excel 活动中使用数据表变量。

要将提取的字段作为数据表返回,请为“ 提取文档数据” 活动选择“ 结果 为数据表”输出。

属性

“文档数据”变量的属性可由一个或多个活动填充和使用。根据填充变量的活动,属性可能有所不同。检查以下列表:

  • “文档类型” - “分类文档”活动填充以下值:
    • 显示名称(用于自定义模型):文档类型的名称。
    • ID (用于开箱即用模型):文档类型的名称。
    • 可信度:分类可信度。
    • URL :可访问文档类型的 URL;这可以是自定义,也可以是预定义的,可通过 Document Understanding 中心中的相应项目引用。
  • 字段-提取文档数据创建验证任务创建验证任务并等待等待验证任务和继续活动填充以下值:
    • 字段值”:字段的提取值。
    • 提取可信度分数:由模型提供的提取的可信度分数。
    • OCR 置信度分数: OCR 引擎提供的置信度分数。
  • 文件详细信息- 创建文档数据对象、接收文件作为输入的活动,填充以下值:
    • “全名”:文件的全名。
    • Extension : 文件的扩展名。
    • 页面范围:文件的页面范围。
  • 子文档: 文档数据的集合,由“分类文档”活动填充。
    注意:当前未填充此属性,预计将在未来与分类验证和拆分功能一起添加。
  • DocumentMetaData:
    • DOM :文档对象模型,由所有活动使用。 (由创建文档数据对象并接收文件作为输入的活动填充。)
    • 文本:提取的所有文本。 (由创建文档数据对象并接收文件作为输入的活动填充。)
    • 语言”:在文档中检测到的语言。 (由创建文档数据对象并接收文件作为输入的活动填充。)
    • 拆分置信度: 如果文档已拆分,则拆分模型将返回文档。 (由“分类文档”活动填充)
      注意:当前未填充此属性,预计将在未来与分类验证和拆分功能一起添加。
    • 作为数据表的结果:作为数据表导出的字段。 (由“提取文档数据”活动填充)。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。