Document Understanding
2022.4
False
横幅背景图像
Document Understanding 用户指南
上次更新日期 2024年3月13日

分类概述

什么是分类

“分类”是 Document Understanding 框架在每个步骤中都会考虑的元数据。

  • 分类是文档类型的集合。

    • 文档类型”指的是对文档逻辑类型的定义,必须由不同的业务流程处理。例如,发票、医疗记录、IRS W-2 表、合同等都是文档类型。除了名称、组和类别(为了便于处理)外,文档类型通常包含字段的集合。

      • 字段指的是可以从特定文档类型中找到并捕获的一条信息。

如上所示,分类是一种层次结构,其中包含 Document Understanding 框架要使用的全部信息架构。分类中的每个实体定义(用于文档类型或字段)都有唯一的 ID。

它在文档分类方面起什么作用?

如果要将传入的文件划归不同的文档类型,则分类应包含要专门处理的文档类型。这样,您就可以根据统一的数据架构(分类的结构)配置 Document Understanding 流程。

它在数据提取方面起什么作用?

如果您要从某些文档类型中提取数据,则分类将包含您针对自动提取数据而指定的字段列表。这样,您可以再次根据单一的真实数据架构来源(文档类型的结构)配置各种不同的提取方法和规则。

字段类型和详细信息

一个字段可能具有派生的部分:从文档中的基础文本值中提取或编辑的格式化信息。

字段类型

允许多值

用途

用于格式化的派生部分

附加信息

文本

文本信息

不适用

不适用

数字

数值

不适用

日期

日期

日期字段允许定义预期格式,该格式必须是符合 MSDN 的日期格式字符串(例如 dd-MM-yyyyMM, dd, yyyy)。

“数据提取作用域”活动可能会在尝试将日期解析为日、月和年等组成部分时使用此格式。

名称

人名

  • 名字
  • 中间名
  • 姓氏

不适用

地址

地址

  • 地址行 1
  • 地址行 2
  • 地址行 3
  • 城市
  • 州/县/省
  • 国家/地区
  • 邮政编码

不适用

集合

定义预定义集中的可能值列表

不适用

“集合”字段必须将允许的选项定义为值。这些值会反映在“验证站点”中。

布尔值

是/否值

不适用

“布尔值”字段仅使用“”或“”作为可能的值,并会反映在“验证站点”中。

表格

表格数据

不适用

“表格”字段包含列的定义。

表格列

表格中的每个单元格。

不适用

“表格”字段中的“表格列”定义为“组件”列表中的其中一个常规字段。

它们不能是“表格”类型。

分类中捕获的其他信息

“分类”还包含组和类别列表,以及与所处理文档相关的支持语言的集合。例如,如要处理日语和英语文档,则“支持语言”标签必须包含其各自的显示名称和语言代码。建议添加“未确定语言”(代码“und”),以支持异常情况。

分类扩展方法

Serialize()

对“DocumentTaxonomy”对象调用“Serialize()”方法后,该方法将为此对象返回“JSON”表示,便于用户存储和检索以供日后使用。

Deserialize(String)

在与作为参数传递的 JSON 编码数据结合使用后,“DocumentTaxonomy.Deserialize(jsonString)”静态扩展方法将返回“DocumentTaxonomy”对象。

GetFields(String)

DocumentTaxonomy 对象执行调用后,使用 DocumentTypeId 字符串调用的 GetFields() 方法将返回在该文档类型中定义的字段列表。

如何创建和编辑项目的分类

在 UiPath Studio 的项目中安装 UiPath.IntelligentOCR.Activities 包后,Studio 的“设计”选项卡的主要功能区中将显示“分类管理器”按钮。使用分类管理器向导编辑项目分类。

“分类”存储在 UiPath Studio 项目的一个文件(位于 DocumentProcessing 文件夹中)中,以及 taxonomy.json 文件中。

首次打开分类管理器向导时,系统会自动创建文件。将鼠标悬停在 按钮上,您可以看到该文件在分类管理器中的确切位置。或者,每次打开分类管理器时,屏幕右上角也会显示一条弹出消息,告知您文件的位置。从 Studio 发布项目时,系统将发布分类以及项目的工件。

taxonomy.json 文件对于每个项目都具有唯一性,但若您手动将其复制到新项目,则可以重复使用该文件。为此,您只需创建一个新项目,然后转到项目文件夹,并使用您选择的分类将文件复制到正确的位置(在 DocumentProcessing 文件夹中)。
重要提示:出于对数据完整性的考虑,我们建议您始终使用分类管理器来编辑分类。

如何在项目中使用分类

您需要将 Document Understanding 分类作为整个 Document Understanding 框架中的“对象”。

加载对象时,最简便的方法是使用“加载分类”活动。加载分类对象后,您可以在需要该对象的所有后续框架组件中使用它。

高级用例

  • 如果您选择将分类存储在其他位置,仍可以使用简单的“分配”活动将其加载到项目中(一旦获得分类文件的字符串内容,比如说,在 myTaxonomyContentString 变量中),如下所示:

    myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)

  • 如果您的用例需要,请记住分类是一个 POCO(普通旧类对象),如有需要,您甚至可以在运行时编辑它。

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.