- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
Document Understanding 用户指南
简介
Document Understanding TM是创建新项目的主要起点。 您可以将其用于结构化或半结构化文档,也可以与预训练模型一起使用。 您始终可以从头开始训练,验证文档并根据需要自定义项目。
在这里,您可以找到所有已创建项目的列表,以及特定的详细信息。您可以按字母顺序或日期对项目进行排序,创建新项目并自定义页面视图。
显示所有已创建项目的列表。项目的排序分为三种类型:
- 按字母顺序升序排列
- 按字母顺序降序排列
- 按创建日期
(默认排序顺序是按创建日期)
创建项目后,您可以选择文档类型。有两个选项:
- 使用 Forms AI(固定布局格式) - 适用于 Forms AI
- 使用半结构化 AI - 适用于 Document Manager
如果要删除文档类型,请打开项目,选择要删除的文档类型,打开“操作”菜单,然后单击“删除”选项。
使用此功能可自定义“项目”列表的可用详细信息数量。以下是可以为每个已创建项目显示的详细信息的完整列表。
- 名称 - 显示项目的名称。
- 文档类型 - 显示用于每个项目的文档类型。
- 提取程序 - 显示用于每个项目的提取程序数量。
- 已处理的文档 - 显示每个项目的已处理文档数。
- 创建日期 - 显示每个项目的创建日期。
- 刷新 - 刷新所显示列中所有项目的信息。
使用“新建项目”按钮创建一个新项目。单击“新建项目”,系统将弹出一个新窗口。
创建新项目时,需要提供以下信息:
选项 |
描述 |
字段状态 |
---|---|---|
名称 |
为新项目命名。 |
必需 |
描述 |
提供有关项目的更多详细信息。 |
可选 |
OCR 方法 |
为新项目选择 OCR 方法。 在以下选项之间选择:
|
必需 |
OCR URL |
提供与所选 OCR 方法对应的 OCR URL。 以下是与 UiPath OCR 方法对应的 OCR URL 列表。 以下是其他常用 OCR URL 的列表: Google:
https://vision.googleapis.com/v1/images:annotate Microsoft Read 3.2 Azure:
<Azure_resource_Endpoint>/vision/v3.2/read/analyze Microsoft Read 3.2 内部部署:
http://<IP_addr>:<port_number>/vision/v3.2/read/analyze Microsoft Read 2.0 Azure:
<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze Microsoft Read 2.0 内部部署:
http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze |
必需 |
OCR API 密钥 |
为所选 OCR 方法提供 OCR API 密钥。 如果 OCR 方法为 UiPath OCR 或 UiPath 中文、日语、韩语 OCR,则可在 Cloud Platform 上获取此字段的值,方法是转到 |
可选 |
将 OCR 应用于 PDF |
确定是否应将 OCR 流程应用于 PDF 文档。如果设置为“是”,则 OCR 将应用于文档的所有 PDF 页面。 如果设置为“否”,则 OCR 不会应用于任何页面,并且仅返回 PDF 中嵌入的文本。设置为“自动”时,OCR 仅适用于文档的扫描页面。默认值为“自动”。 |
必需 |
AI Center 项目 |
提供要导入的 AI Center 项目的名称。 |
可选 |
从 AI Center 导入 |
启用/禁用从 AI Center 导入功能 |
可选 |
链接到 AI Center 的项目可通过 AI Center 图标轻松识别。
如果要删除链接到 AI Center 的项目,则删除时也会自动将该项目从 AI Center 中删除。
您可以在此处找到有关已创建项目的更多详细信息,编辑项目名称或创建新的文档类型。
第一行信息显示以下详细信息:
- 项目名称 - 项目的名称。
- 日期 - 有关项目创建时间的详细信息。
- “设置”- 从“概述”页面打开弹出菜单。更多详情请点击此处。
在一般详细信息下方,您可以找到两个选项卡:
文档类型 - 提供所选项目的所有可用文档类型的列表。创建提取程序或分类器时,必须定义文档类型。文档类型可以是发票、采购订单或标准化表单。
文档类型菜单 |
描述 |
---|---|
名称 |
显示所有已创建文档类型的名称列表。 |
提取方法 |
显示所选文档类型所使用的提取方法类型。 |
页面 |
显示在每种文档类型中找到的总页数。 |
刷新 |
刷新项目列表。 |
提取程序 - 提供为所选项目的文档类型创建的提取程序列表。使用提取程序训练文档类型。
“提取程序类型”菜单 |
描述 |
---|---|
名称 |
显示已创建文档类型中所有提取程序的名称列表。 |
类型 |
显示使用的提取程序的类型。 |
创建日期 |
显示每个提取程序的创建日期。 |
已处理的页数 |
显示每个提取程序已处理的页面数。 |
状态 |
显示每个提取程序的状态。 |
刷新 |
刷新提取程序列表。 |
提取程序的菜单 |
可以用于复制提取程序的 URL 链接。 |
文档类型和提取程序都具有三种类型的信息排序方式:
- 按字母顺序升序排列。
- 按字母顺序降序排列。
- 按创建日期
(默认排序顺序是按创建日期)
注意:文档类型在项目中是必需的,而提取程序是可选的。您可以选择为任何文档类型添加提取程序。
以下选项适用于 Document Understanding 的整个界面。
“搜索”选项使您能够在可用的项目、文档类型或提取程序列表中启动搜索。对于每个选定的选项卡,“搜索”都会单独处于活动状态,这意味着如果要搜索提取程序,则应选择“提取程序”选项卡。这同样适用于文档类型。通过在“搜索”栏中键入项目名称来开始搜索。
刷新 - 刷新项目列表。
删除项目 - 删除选定的项目。只有在打开操作菜单后,“删除项目”按钮才会可见。
页面滚动 - 轻松滚动项目页面、文档类型或提取程序列表。逐页浏览或直接跳至第一页/最后一页。
每页项目数 - 选择每个项目页面显示的项目、文档类型或提取程序的数量。
REST API - 打开 REST API 框架功能。
在本指南的“许可”类别中,您可以查看以下信息:
如果要将 Document Understanding 项目集成到 RPA 工作流中,请确保按照以下步骤操作:
-
打开 UiPath Studio 并通过从模板列表中选择 Document Understanding 流程创建一个新项目。
还应将以下包添加到 UiPath Studio 项目中:
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.OmniPage.Activities
确保在租户上启用 Document Understanding。
启用 Document Understanding 后,左侧导航栏中将显示 Document Understanding 选项卡。