- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 护照 - ML 包
- 工资单 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 硬件要求
- 管道
- Document Manager
- OCR 服务
- 深度学习
- Insights 仪表板
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 活动
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
分类概述
分类是Document Understanding TM框架在每个步骤中都会考虑的元数据。
- 分类是文档类型的集合。
- “文档类型”指的是对文档逻辑类型的定义,必须由不同的业务流程处理。例如,发票、医疗记录、IRS W-2 表、合同等都是文档类型。除了名称、组和类别(为了便于处理)外,文档类型通常包含字段的集合。
- 字段指的是可以从特定文档类型中找到并捕获的一条信息。
如上所示,分类是一种层次结构,其中包含 Document Understanding 框架要使用的全部信息架构。分类中的每个实体定义(用于文档类型或字段)都有唯一的 ID。
如果要将传入的文件划归不同的文档类型,则分类应包含要专门处理的文档类型。这样,您就可以根据统一的数据架构(分类的结构)配置 Document Understanding 流程。
如果您要从某些文档类型中提取数据,则分类将包含您针对自动提取数据而指定的字段列表。这样,您可以再次根据单一的真实数据架构来源(文档类型的结构)配置各种不同的提取方法和规则。
一个字段可能具有派生的部分:从文档中的基础文本值中提取或编辑的格式化信息。
字段类型 |
允许多值 |
用途 |
用于格式化的派生部分 |
附加信息 |
---|---|---|---|---|
文本 |
是 |
文本信息 |
不适用 |
不适用 |
数字 |
是 |
数值 |
|
不适用 |
日期 |
是 |
日期 |
|
日期字段允许定义预期格式,该格式必须是符合 MSDN 的日期格式字符串(例如
dd-MM-yyyy 或 MM, dd, yyyy )。
“数据提取作用域”活动可能会在尝试将日期解析为日、月和年等组成部分时使用此格式。 |
名称 |
是 |
人名 |
|
不适用 |
Address |
是 |
地址 |
|
不适用 |
集合 |
是 |
定义预定义集中的可能值列表 |
不适用 |
“集合”字段必须将允许的选项定义为值。这些值会反映在“验证站点”中。 |
布尔值 |
是 |
是/否值 |
不适用 |
“布尔值”字段仅使用“是”或“否”作为可能的值,并会反映在“验证站点”中。 |
表格 |
否 |
表格数据 |
不适用 |
“表格”字段包含列的定义。 |
表格列 |
否 |
表格中的每个单元格。 |
不适用 |
“表格”字段中的“表格列”定义为“组件”列表中的其中一个常规字段。 它们不能是“表格”类型。 |
DocumentTaxonomy.Deserialize(jsonString)
”静态扩展方法将返回“DocumentTaxonomy
”对象。
在UiPath ™ Studio 的项目中安装 包后,Studio 的“设计”选项卡的主要功能区中将显示“UiPath 分类管理器” 按钮。使用分类管理器向导编辑项目分类。
taxonomy.json
文件中。
首次打开分类管理器向导时,系统会自动创建文件。将鼠标悬停在 按钮上,您可以看到该文件在分类管理器中的确切位置。或者,每次打开分类管理器时,屏幕右上角也会显示一条弹出消息,告知您文件的位置。从 Studio 发布项目时,系统将发布分类以及项目的工件。
taxonomy.json
文件对于每个项目都具有唯一性,但若您手动将其复制到新项目,则可以重复使用该文件。为此,您只需创建一个新项目,然后转到项目文件夹,并使用您选择的分类将文件复制到正确的位置(在 DocumentProcessing 文件夹中)。
您需要将 Document Understanding 分类作为整个 Document Understanding 框架中的“对象”。
加载对象时,最简便的方法是使用“加载分类”活动。加载分类对象后,您可以在需要该对象的所有后续框架组件中使用它。