- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
分类概述
“分类”是 Document Understanding 框架在每个步骤中都会考虑的元数据。
分类是文档类型的集合。
- 文档类型指的是对文档逻辑类型的定义,不同的业务流程必须将其处理。例如,发票、医疗记录、IRS W-2 表、合同等都是文档类型。除了名称、组和类别(为了便于处理)外,文档类型通常包含字段的集合。
- 字段指的是可以从特定文档类型中找到并捕获的一条信息。
如上所示,分类是一种层次结构,其中包含 Document Understanding 框架要使用的全部信息架构。分类中的每个实体定义(用于文档类型或字段)都有唯一的 ID。
如果要将传入的文件划归不同的文档类型,则分类应包含要专门处理的文档类型。这样,您就可以根据统一的数据架构(分类的结构)配置 Document Understanding 流程。
如果您要从某些文档类型中提取数据,则分类将包含您针对自动提取数据而指定的字段列表。这样,您可以再次根据单一的真实数据架构来源(文档类型的结构)配置各种不同的提取方法和规则。
一个字段可能具有派生的部分:从文档中的基础文本值中提取或编辑的格式化信息。
字段类型 |
允许多值 |
用途 |
用于格式化的派生部分 |
附加信息 |
---|---|---|---|---|
文本 |
是 |
文本信息 |
不适用 |
不适用 |
数字 |
是 |
数值 |
|
不适用 |
日期 |
是 |
日期 |
|
不适用 |
名称 |
是 |
人名 |
|
不适用 |
Address |
是 |
地址 |
|
不适用 |
集合 |
是 |
适用于包含预定义集合中精确报告值的信息 |
不适用 |
“集合”字段必须将允许的选项定义为值。这些值会反映在“验证站点”中。 |
布尔值 |
是 |
是/否值 |
不适用 |
“布尔值”字段仅使用“是”或“否”作为可能的值,并会反映在“验证站点”中。 |
表格 |
否 |
表格数据 |
不适用 |
“表格”字段包含列的定义。 |
表格列 |
否 |
表格中的每个单元格。 |
不适用 |
“表格”字段中的“表格列”定义为“组件”列表中的其中一个常规字段。 它们不能是“表格”类型。 |
DocumentTaxonomy.Deserialize(jsonString)
”静态扩展方法将返回“DocumentTaxonomy
”对象。
在 UiPath Studio 的项目中安装 UiPath.IntelligentOCR.Activities 包后,Studio 的“设计”选项卡的主要功能区中将显示“分类管理器”按钮。使用分类管理器向导编辑项目分类。
taxonomy.json
文件中。
首次打开分类管理器向导时,系统会自动创建文件。将鼠标悬停在 按钮上,您可以看到该文件在分类管理器中的确切位置。或者,每次打开分类管理器时,屏幕右上角也会显示一条弹出消息,告知您文件的位置。从 Studio 发布项目时,系统将发布分类以及项目的工件。
taxonomy.json
文件对于每个项目都具有唯一性,但若您手动将其复制到新项目,则可以重复使用该文件。为此,您只需创建一个新项目,然后转到项目文件夹,并使用您选择的分类将文件复制到正确的位置(在 DocumentProcessing 文件夹中)。
您需要将 Document Understanding 分类作为整个 Document Understanding 框架中的“对象”。
加载对象时,最简便的方法是使用“加载分类”活动。加载分类对象后,您可以在需要该对象的所有后续框架组件中使用它。