- 概述
- 入门指南
- Activities (活动)
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- 模型详细信息
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 数据与安全性
- 许可和计费逻辑
Document Understanding 传统用户指南
什么是分类
“分类”是 Document UnderstandingTM 框架在每个步骤中都会考虑的元数据。
- 分类是文档类型的集合。
- 文档类型指的是对文档逻辑类型的定义,必须由不同的业务流程处理。例如,发票、医疗记录、IRS W-2 表、合同等都是文档类型。除了名称、组和类别(为了便于处理)外,文档类型通常包含字段的集合。
- 字段指的是可以从特定文档类型中找到并捕获的一条信息。
分类是一种层次结构,其中包含 Document Understanding 框架要使用的全部信息架构。分类中的每个实体定义(用于文档类型或字段)都有唯一的 ID。
它在文档分类方面起什么作用?
如果要将传入的文件划归不同的文档类型,则分类应包含要专门处理的文档类型。这样,您就可以根据统一的数据架构(分类的结构)配置 Document Understanding 流程。
它在数据提取方面起什么作用?
如果您要从某些文档类型中提取数据,则分类将包含您针对自动提取数据而指定的字段列表。这样,您可以再次根据单一的真实数据架构来源(文档类型的结构)配置各种不同的提取方法和规则。
字段类型和详细信息
一个字段可能具有派生的部分:从文档中的基础文本值中提取或编辑的格式化信息。
| 字段类型 | 允许多值 | 用途 | 用于格式化的派生部分 | 附加信息 |
|---|---|---|---|---|
| 数字 | 是 | 数值 |
| 不适用 |
| 货币量 | 是 | 金额和货币值 |
| 不适用 |
| 日期 | 是 | 日期 |
| 日期字段允许定义预期格式,该格式必须是符合 MSDN 的日期格式字符串(例如dd-MM-yyyy或MM, dd, yyyy )。 “数据提取作用域”活动可能会在尝试将日期解析为日、月和年等组成部分时使用此格式。 |
| 名称 | 是 | 人名 |
| 不适用 |
| Address | 是 | 地址 |
| 不适用 |
| 集合 | 是 | 定义预定义集中的可能值列表 | 不适用 | “集合”字段必须将允许的选项定义为值。这些值会反映在“验证站点”中。 |
| 布尔值 | 是 | 是/否值 | 不适用 | “布尔值”字段仅使用“是”或“否”作为可能的值,并会反映在“验证站点”中。 |
| 表格 | 否 | 表格数据 | 不适用 | “表格”字段包含列的定义。 |
| 表格列 | 否 | 表格中的每个单元格。 | 不适用 | “表格”字段中的“表格列”定义为“组件”列表中的其中一个常规字段。 它们不能是“表格”类型。 |
| 字段组 | 是 | 将相关字段整理在一起。 | 子字段或字段组。 | 字段组可在“验证站点”中显示分层字段结构,从而对提取的数据进行逻辑组织。组可以是单值组、多值组或混合值组,由字段、字段组和表格组成。没有子字段的字段组将从发送到 Action Center 的分类和提取结果中排除。所有子字段值为空的字段组实例也从提取结果中排除。 |
异常
您可以在分类级别定义默认的“报告为异常”原因。当业务用户将文档报告为异常时,这些预定义原因会显示在“验证站点”中。
这允许业务用户根据预定义的原因(在分类管理器中定义的异常原因)将文档标记为异常。
例如,用户可能期望收到发票,但收到医疗记录;用户可能期望收到韩语文档,但收到俄语文档;用户可能期望收到可读文档,但收到的文档质量非常差。
您定义的原因将显示在下拉列表中,用户可以从中选择最合适的选项。根据选定的原因,可以配置恢复自动化,以确定下一步采取哪种处理路径。
分类中捕获的其他信息
“分类”还包含组和类别列表,以及与所处理文档相关的支持语言的集合。例如,如要处理日语和英语文档,则“支持语言”标签必须包含其各自的显示名称和语言代码。建议添加“未确定语言”(代码“und”),以支持异常情况。
分类扩展方法
Serialize()
对“DocumentTaxonomy”对象调用“Serialize()”方法后,该方法将为此对象返回“JSON”表示,便于用户存储和检索以供日后使用。
Deserialize(String)
在与作为参数传递的 JSON 编码数据结合使用后,“DocumentTaxonomy.Deserialize(jsonString)”静态扩展方法将返回“DocumentTaxonomy”对象。
GetFields(String)
对 DocumentTaxonomy 对象执行调用后,使用 DocumentTypeId 字符串调用的 GetFields() 方法将返回在该文档类型中定义的字段列表。
如何创建和编辑项目的分类
在 UiPath™ Studio 的项目中安装 UiPath.IntelligentOCR.Activities 包后,Studio 的“设计”选项卡的主要功能区中将显示“分类管理器”按钮。使用分类管理器向导编辑项目分类。
“分类”存储在 UiPath Studio 项目的一个文件(位于 DocumentProcessing 文件夹中)中,以及 taxonomy.json 文件中。
首次打开分类管理器向导时,系统会自动创建文件。您可以通过将鼠标悬停在分类管理器上来查看文件的确切位置
按钮。或者,每次打开分类管理器时,右上角都会显示一条弹出消息,通知您文件的位置。从 Studio 发布项目时,系统将发布分类以及项目的工件。
taxonomy.json 文件对于每个项目都具有唯一性,但若您手动将其复制到新项目,则可以重复使用该文件。为此,您只需创建一个新项目,然后转到项目文件夹,并使用您选择的分类将文件复制到正确的位置(在 DocumentProcessing 文件夹中)。
出于对数据完整性的考虑,我们建议您始终使用分类管理器来编辑分类。
如何在项目中使用分类
您需要将 Document Understanding 分类作为整个 Document Understanding 框架中的“对象”。
加载对象时,最简便的方法是使用“加载分类”活动。加载分类对象后,您可以在需要该对象的所有后续框架组件中使用它。
高级用例
- 如果您选择将分类存储在其他位置,仍可以使用简单的“分配”活动将其加载到项目中(一旦获得分类文件的字符串内容,比如说,在
myTaxonomyContentString变量中),如下所示:
myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)
- 如果您的用例需要,请记住分类是一个 POCO(普通旧类对象),如有需要,您甚至可以在运行时编辑它。