document-understanding
2024.10
false
Document Understanding 用户指南
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年11月11日

分类概述

什么是分类

The Taxonomy is the metadata that the Document UnderstandingTM framework considers in each of its steps.

  • 分类是文档类型的集合。
  • 文档类型”指的是对文档逻辑类型的定义,必须由不同的业务流程处理。例如,发票、医疗记录、IRS W-2 表、合同等都是文档类型。除了名称、组和类别(为了便于处理)外,文档类型通常包含字段的集合。
  • 字段指的是可以从特定文档类型中找到并捕获的一条信息。

如上所示,分类是一种层次结构,其中包含 Document Understanding 框架要使用的全部信息架构。分类中的每个实体定义(用于文档类型或字段)都有唯一的 ID。

它在文档分类方面起什么作用?

如果要将传入的文件划归不同的文档类型,则分类应包含要专门处理的文档类型。这样,您就可以根据统一的数据架构(分类的结构)配置 Document Understanding 流程。

它在数据提取方面起什么作用?

如果您要从某些文档类型中提取数据,则分类将包含您针对自动提取数据而指定的字段列表。这样,您可以再次根据单一的真实数据架构来源(文档类型的结构)配置各种不同的提取方法和规则。

字段类型和详细信息

一个字段可能具有派生的部分:从文档中的基础文本值中提取或编辑的格式化信息。

字段类型

允许多值

用途

用于格式化的派生部分

附加信息

文本

文本信息

不适用

不适用

数字

数值

  • 值(最多八位小数)

不适用

日期

日期

日期字段允许定义预期格式,该格式必须是符合 MSDN 的日期格式字符串(例如 dd-MM-yyyyMM, dd, yyyy)。

“数据提取作用域”活动可能会在尝试将日期解析为日、月和年等组成部分时使用此格式。

名称

人名

  • 名字
  • 中间名
  • 姓氏

不适用

Address

地址

  • 地址行 1
  • 地址行 2
  • 地址行 3
  • 城市
  • 州/县/省
  • 国家/地区
  • 邮政编码

不适用

集合

定义预定义集中的可能值列表

不适用

“集合”字段必须将允许的选项定义为值。这些值会反映在“验证站点”中。

布尔值

是/否值

不适用

“布尔值”字段仅使用“”或“”作为可能的值,并会反映在“验证站点”中。

表格

表格数据

不适用

“表格”字段包含列的定义。

表格列

表格中的每个单元格。

不适用

“表格”字段中的“表格列”定义为“组件”列表中的其中一个常规字段。

它们不能是“表格”类型。

分类中捕获的其他信息

“分类”还包含组和类别列表,以及与所处理文档相关的支持语言的集合。例如,如要处理日语和英语文档,则“支持语言”标签必须包含其各自的显示名称和语言代码。建议添加“未确定语言”(代码“und”),以支持异常情况。

分类扩展方法

Serialize()

对“DocumentTaxonomy”对象调用“Serialize()”方法后,该方法将为此对象返回“JSON”表示,便于用户存储和检索以供日后使用。

Deserialize(String)

在与作为参数传递的 JSON 编码数据结合使用后,“DocumentTaxonomy.Deserialize(jsonString)”静态扩展方法将返回“DocumentTaxonomy”对象。

GetFields(String)

DocumentTaxonomy 对象执行调用后,使用 DocumentTypeId 字符串调用的 GetFields() 方法将返回在该文档类型中定义的字段列表。

如何创建和编辑项目的分类

Once the UiPath.IntelligentOCR.Activities package is installed in your project in UiPath® Studio, a Taxonomy Manager button appears in the main ribbon of Studio's Design tab. Use the Taxonomy Manager wizard to edit your project taxonomy.

“分类”存储在 UiPath Studio 项目的一个文件(位于 DocumentProcessing 文件夹中)中,以及 taxonomy.json 文件中。

首次打开分类管理器向导时,系统会自动创建文件。将鼠标悬停在 按钮上,您可以看到该文件在分类管理器中的确切位置。或者,每次打开分类管理器时,屏幕右上角也会显示一条弹出消息,告知您文件的位置。从 Studio 发布项目时,系统将发布分类以及项目的工件。

taxonomy.json 文件对于每个项目都具有唯一性,但若您手动将其复制到新项目,则可以重复使用该文件。为此,您只需创建一个新项目,然后转到项目文件夹,并使用您选择的分类将文件复制到正确的位置(在 DocumentProcessing 文件夹中)。
重要提示:出于对数据完整性的考虑,我们建议您始终使用分类管理器来编辑分类。

如何在项目中使用分类

您需要将 Document Understanding 分类作为整个 Document Understanding 框架中的“对象”。

加载对象时,最简便的方法是使用“加载分类”活动。加载分类对象后,您可以在需要该对象的所有后续框架组件中使用它。

高级用例

  • 如果您选择将分类存储在其他位置,仍可以使用简单的“分配”活动将其加载到项目中(一旦获得分类文件的字符串内容,比如说,在 myTaxonomyContentString 变量中),如下所示:

    myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)

  • 如果您的用例需要,请记住分类是一个 POCO(普通旧类对象),如有需要,您甚至可以在运行时编辑它。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。