UiPath Documentation
document-understanding
latest
false

Document Understanding 传统用户指南

上次更新日期 2026年4月30日

分类概述

什么是分类

“分类”是 Document UnderstandingTM 框架在每个步骤中都会考虑的元数据。

  • 分类是文档类型的集合。
  • 文档类型指的是对文档逻辑类型的定义,必须由不同的业务流程处理。例如,发票、医疗记录、IRS W-2 表、合同等都是文档类型。除了名称、组和类别(为了便于处理)外,文档类型通常包含字段的集合。
  • 字段指的是可以从特定文档类型中找到并捕获的一条信息。

分类是一种层次结构,其中包含 Document Understanding 框架要使用的全部信息架构。分类中的每个实体定义(用于文档类型或字段)都有唯一的 ID。

它在文档分类方面起什么作用?

如果要将传入的文件划归不同的文档类型,则分类应包含要专门处理的文档类型。这样,您就可以根据统一的数据架构(分类的结构)配置 Document Understanding 流程。

它在数据提取方面起什么作用?

如果您要从某些文档类型中提取数据,则分类将包含您针对自动提取数据而指定的字段列表。这样,您可以再次根据单一的真实数据架构来源(文档类型的结构)配置各种不同的提取方法和规则。

字段类型和详细信息

一个字段可能具有派生的部分:从文档中的基础文本值中提取或编辑的格式化信息。

字段类型

允许多值

用途

用于格式化的派生部分

附加信息

数字

数值

  • 值(最多八位小数)

不适用

货币量 金额和货币值
  • 币种
不适用

日期

日期

日期字段允许定义预期格式,该格式必须是符合 MSDN 的日期格式字符串(例如dd-MM-yyyyMM, dd, yyyy )。

“数据提取作用域”活动可能会在尝试将日期解析为日、月和年等组成部分时使用此格式。

名称

人名

  • 名字
  • 中间名
  • 姓氏

不适用

Address

地址

  • 地址行 1
  • 地址行 2
  • 地址行 3
  • 城市
  • 州/县/省
  • 国家/地区
  • 邮政编码

不适用

集合

定义预定义集中的可能值列表

不适用

“集合”字段必须将允许的选项定义为值。这些值会反映在“验证站点”中。

布尔值

是/否值

不适用

“布尔值”字段仅使用“是”或“否”作为可能的值,并会反映在“验证站点”中。

表格

表格数据

不适用

“表格”字段包含列的定义。

表格列

表格中的每个单元格。

不适用

“表格”字段中的“表格列”定义为“组件”列表中的其中一个常规字段。

它们不能是“表格”类型。

字段组 将相关字段整理在一起。 子字段或字段组。 字段组可在“验证站点”中显示分层字段结构,从而对提取的数据进行逻辑组织。组可以是单值组、多值组或混合值组,由字段、字段组和表格组成。没有子字段的字段组将从发送到 Action Center 的分类和提取结果中排除。所有子字段值为空的字段组实例也从提取结果中排除。

异常

您可以在分类级别定义默认的“报告为异常”原因。当业务用户将文档报告为异常时,这些预定义原因会显示在“验证站点”中。

这允许业务用户根据预定义的原因(在分类管理器中定义的异常原因)将文档标记为异常。

例如,用户可能期望收到发票,但收到医疗记录;用户可能期望收到韩语文档,但收到俄语文档;用户可能期望收到可读文档,但收到的文档质量非常差。

您定义的原因将显示在下拉列表中,用户可以从中选择最合适的选项。根据选定的原因,可以配置恢复自动化,以确定下一步采取哪种处理路径。

分类中捕获的其他信息

“分类”还包含组和类别列表,以及与所处理文档相关的支持语言的集合。例如,如要处理日语和英语文档,则“支持语言”标签必须包含其各自的显示名称和语言代码。建议添加“未确定语言”(代码“und”),以支持异常情况。

分类扩展方法

Serialize()

对“DocumentTaxonomy”对象调用“Serialize()”方法后,该方法将为此对象返回“JSON”表示,便于用户存储和检索以供日后使用。

Deserialize(String)

在与作为参数传递的 JSON 编码数据结合使用后,“DocumentTaxonomy.Deserialize(jsonString)”静态扩展方法将返回“DocumentTaxonomy”对象。

GetFields(String)

DocumentTaxonomy 对象执行调用后,使用 DocumentTypeId 字符串调用的 GetFields() 方法将返回在该文档类型中定义的字段列表。

如何创建和编辑项目的分类

UiPath™ Studio 的项目中安装 UiPath.IntelligentOCR.Activities 包后,Studio 的“设计”选项卡的主要功能区中将显示“分类管理器”按钮。使用分类管理器向导编辑项目分类。

“分类”存储在 UiPath Studio 项目的一个文件(位于 DocumentProcessing 文件夹中)中,以及 taxonomy.json 文件中。

首次打开分类管理器向导时,系统会自动创建文件。您可以通过将鼠标悬停在分类管理器上来查看文件的确切位置docs image按钮。或者,每次打开分类管理器时,右上角都会显示一条弹出消息,通知您文件的位置。从 Studio 发布项目时,系统将发布分类以及项目的工件。

taxonomy.json 文件对于每个项目都具有唯一性,但若您手动将其复制到新项目,则可以重复使用该文件。为此,您只需创建一个新项目,然后转到项目文件夹,并使用您选择的分类将文件复制到正确的位置(在 DocumentProcessing 文件夹中)。

重要提示:

出于对数据完整性的考虑,我们建议您始终使用分类管理器来编辑分类。

如何在项目中使用分类

您需要将 Document Understanding 分类作为整个 Document Understanding 框架中的“对象”。

加载对象时,最简便的方法是使用“加载分类”活动。加载分类对象后,您可以在需要该对象的所有后续框架组件中使用它。

高级用例

  • 如果您选择将分类存储在其他位置,仍可以使用简单的“分配”活动将其加载到项目中(一旦获得分类文件的字符串内容,比如说,在 myTaxonomyContentString 变量中),如下所示:

myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)

  • 如果您的用例需要,请记住分类是一个 POCO(普通旧类对象),如有需要,您甚至可以在运行时编辑它。

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新