document-understanding

latest

false

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 传统用户指南

分类概述

什么是分类

“分类”是 Document Understanding^TM 框架在每个步骤中都会考虑的元数据。

分类是文档类型的集合。
文档类型指的是对文档逻辑类型的定义，必须由不同的业务流程处理。例如，发票、医疗记录、IRS W-2 表、合同等都是文档类型。除了名称、组和类别（为了便于处理）外，文档类型通常包含字段的集合。
字段指的是可以从特定文档类型中找到并捕获的一条信息。

分类是一种层次结构，其中包含 Document Understanding 框架要使用的全部信息架构。分类中的每个实体定义（用于文档类型或字段）都有唯一的 ID。

它在文档分类方面起什么作用？

如果要将传入的文件划归不同的文档类型，则分类应包含要专门处理的文档类型。这样，您就可以根据统一的数据架构（分类的结构）配置 Document Understanding 流程。

它在数据提取方面起什么作用？

如果您要从某些文档类型中提取数据，则分类将包含您针对自动提取数据而指定的字段列表。这样，您可以再次根据单一的真实数据架构来源（文档类型的结构）配置各种不同的提取方法和规则。

字段类型和详细信息

一个字段可能具有派生的部分：从文档中的基础文本值中提取或编辑的格式化信息。

字段类型	允许多值	用途	用于格式化的派生部分	附加信息
数字	是	数值	值（最多八位小数）	不适用
货币量	是	金额和货币值	值币种	不适用
日期	是	日期	日月年	日期字段允许定义预期格式，该格式必须是符合 MSDN 的日期格式字符串（例如`dd-MM-yyyy`或`MM, dd, yyyy` ）。 “数据提取作用域”活动可能会在尝试将日期解析为日、月和年等组成部分时使用此格式。
名称	是	人名	名字中间名姓氏	不适用
Address	是	地址	地址行 1 地址行 2 地址行 3 城市州/县/省国家/地区邮政编码	不适用
集合	是	定义预定义集中的可能值列表	不适用	“集合”字段必须将允许的选项定义为值。这些值会反映在“验证站点”中。
布尔值	是	是/否值	不适用	“布尔值”字段仅使用“是”或“否”作为可能的值，并会反映在“验证站点”中。
表格	否	表格数据	不适用	“表格”字段包含列的定义。
表格列	否	表格中的每个单元格。	不适用	“表格”字段中的“表格列”定义为“组件”列表中的其中一个常规字段。它们不能是“表格”类型。
字段组	是	对关联字段进行归类整理。	子字段或字段组。	字段组支持在验证站点中显示分层字段结构，从而对提取的数据进行逻辑组织。组可以是单值、多值或混合类型，由字段、字段组和表格组成。发送至 Action Center 的分类（+后缀词）和提取结果中不包含不含子字段的字段组。所有子字段值均为空的字段组实例，同样不会纳入提取结果中。

异常

您可以在分类级别定义默认的“报告为异常”原因。当业务用户将文档报告为异常时，这些预定义原因会显示在“验证站点”中。

这允许业务用户根据预定义的原因（在分类管理器中定义的异常原因）将文档标记为异常。

例如，用户可能期望收到发票，但收到医疗记录；用户可能期望收到韩语文档，但收到俄语文档；用户可能期望收到可读文档，但收到的文档质量非常差。

您定义的原因将显示在下拉列表中，用户可以从中选择最合适的选项。根据选定的原因，可以配置恢复自动化，以确定下一步采取哪种处理路径。

分类中捕获的其他信息

“分类”还包含组和类别列表，以及与所处理文档相关的支持语言的集合。例如，如要处理日语和英语文档，则“支持语言”标签必须包含其各自的显示名称和语言代码。建议添加“未确定语言”（代码“und”），以支持异常情况。

分类扩展方法

Serialize()

对“DocumentTaxonomy”对象调用“Serialize()”方法后，该方法将为此对象返回“JSON”表示，便于用户存储和检索以供日后使用。

Deserialize(String)

在与作为参数传递的 JSON 编码数据结合使用后，“DocumentTaxonomy.Deserialize(jsonString)”静态扩展方法将返回“DocumentTaxonomy”对象。

GetFields(String)

对 DocumentTaxonomy 对象执行调用后，使用 DocumentTypeId 字符串调用的 GetFields() 方法将返回在该文档类型中定义的字段列表。

如何创建和编辑项目的分类

在 UiPath™ Studio 的项目中安装 UiPath.IntelligentOCR.Activities 包后，Studio 的“设计”选项卡的主要功能区中将显示“分类管理器”按钮。使用分类管理器向导编辑项目分类。

“分类”存储在 UiPath Studio 项目的一个文件（位于 DocumentProcessing 文件夹中）中，以及 taxonomy.json 文件中。

首次打开分类管理器向导时，系统会自动创建文件。您可以将鼠标悬停在分类管理器的分类管理器中，查看文件的确切位置按钮。或者，每次打开分类管理器时，屏幕右上角也会显示一条弹出消息，告知您文件的位置。从 Studio 发布项目时，系统将发布分类以及项目的工件。

taxonomy.json 文件对于每个项目都具有唯一性，但若您手动将其复制到新项目，则可以重复使用该文件。为此，您只需创建一个新项目，然后转到项目文件夹，并使用您选择的分类将文件复制到正确的位置（在 DocumentProcessing 文件夹中）。

重要提示：

出于对数据完整性的考虑，我们建议您始终使用分类管理器来编辑分类。

如何在项目中使用分类

您需要将 Document Understanding 分类作为整个 Document Understanding 框架中的“对象”。

加载对象时，最简便的方法是使用“加载分类”活动。加载分类对象后，您可以在需要该对象的所有后续框架组件中使用它。

高级用例

如果您选择将分类存储在其他位置，仍可以使用简单的“分配”活动将其加载到项目中（一旦获得分类文件的字符串内容，比如说，在 myTaxonomyContentString 变量中），如下所示：

myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)

如果您的用例需要，请记住分类是一个 POCO（普通旧类对象），如有需要，您甚至可以在运行时编辑它。

此页面有帮助吗？

前一个分类

下一个分类管理器

Document Understanding 传统用户指南

什么是分类​

它在文档分类方面起什么作用？​

它在数据提取方面起什么作用？​

字段类型和详细信息​

异常​

分类中捕获的其他信息​

分类扩展方法​

Serialize()​

Deserialize(String)​

GetFields(String)​

如何创建和编辑项目的分类​

如何在项目中使用分类​

高级用例​