- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 管道
- Data Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding 用户指南
关于数据管理器
UiPath Document Manager 是一个轻型网页应用程序,允许用户准备、审核和更正 Document Understanding 机器学习模型的训练和评估所需的数据集。
以下是本地部署方法:
- 本地部署 AI Center 中的 Data Manager。这是正式发布版,并且在生产场景中完全受支持。对于可以导入的数据集的大小没有限制,除了自动重新训练,每次导入仍然有 2000 页或 2GB 的限制。有关本地部署 AI Center 的所有可用部署方法,请参阅此页面。
Data Manager 使多个用户可以执行与管理数据批处理、数据准备和模型配置相关的各种操作:
定义并配置要由 ML 模型提取的字段。
导入要标注的文档。
使用已有的 ML 模型(例如 UiPath 提供的开箱即用型“发票提取”或“收据提取”模型)或使用 AI Center 训练的模型来预标记文档。
标注文档。
以 AI Center 训练管道所需的格式导出文档。
显示在 Data Manager 中的页面顶部。
使您能够执行多项操作:在文档之间导航、删除/还原文档、搜索/筛选文档、运行 AI 模型预测以及导入和导出文档。
以下是管理栏中提供的选项:
选项 |
图标 |
描述 |
---|---|---|
导航 |
|
在与活动筛选器匹配的文档之间导航。在两个箭头之间显示一个计数器。它显示了与活动搜索/筛选器匹配的文档总数和当前文档的编号。 |
|
搜索文档或筛选文档。导出数据文档时,系统也会应用筛选器。您也可以按文档中的词语或文档名称进行筛选。 | |
删除/还原 |
/ |
删除或还原文档。已删除的文档位于“已删除”筛选器下。 |
预测 |
|
运行 AI 模型预测并显示结果。 配置预加标签后,将在管理栏中启用该按钮。单击该按钮,以预标记当前文档。 目前,将“预测”选项与公共端点一起使用时,只能预标记文档的前 10 页。这是一个已知问题,正在修复中。但是,在 AI Center 中将“预测”选项与 ML 技能一起使用并不会施加这样的限制。 |
|
打开“导入数据”对话框。 | |
|
打开“导出文件”对话框。 | |
|
单击图标可下载包含原始文档的 Zip 文件。 | |
|
配置 OCR 和预加标签设置,或者访问“如何…”面板。见下文。 |
选择用于将文档导入到 Data Manager 的 OCR 引擎是一项关键决策。
建议使用相同的 OCR 导入训练数据(训练时间),这是因为在部署模型时(运行时)也会用到它。
理想情况下,您应该尝试几个不同的选项,看看哪个选项最适合您的文档,然后再做出决策。
内部部署选项包括:
- UiPath OCR 容器,支持主要的西欧语言;
- Microsoft Read 容器(可从 Microsoft 处获得预览版)的语言覆盖面也广;
- 在 AI Center 内部部署版 v2020.10 或更高版本中部署的 UiPath OCR ML 技能。
基于云的选项包括:
- “UiPath 文档 OCR”- https://du.uipath.com/ocr;
- 具有最广语言覆盖范围的 Google Cloud Vision OCR;
- 适用于读取日语文档的 Google Cloud Vision OCR(日语版);
- Microsoft Read OCR。
配置 OCR 时,需要 OCR 服务具有 URL。您可能会用到以下 URL:
- 公共 URL,例如 https://du.uipath.com/ocr,或来自 Google Vision OCR 或 Microsoft Read OCR 的第三方 URL
- 由内部部署的 UiPath 提供的 UiPath 文档 OCR 独立容器的 URL
-
作为“ML 技能”部署的 OCR ML 包的 URL,这些 URL 已在 AI Center 内部部署版 v2020.10 或更高版本中公开。
重要提示:如果您在与 Data Manager 相同的计算机上运行 OCR,则不要使用localhost
来引用本地计算机,而要使用本地计算机的 IP 地址或域名。如果是作为 AI Center 内部部署版中公共 ML 技能部署的 OCR 的 URL,请使用 AI Center ML 技能详细信息页面中显示的 URL。
所选 OCR 引擎的相应 API 密钥。例如,对于 UiPath Document OCR,您需要使用 Document Understanding API 密钥。对于 Data Manager Cloud 和 Data Manager On-Prem Online,它是必需的。对于 Data Manager On-Prem Air-gapped,它不是必需的。
预加标签
如果您已经有一个模型可以提取一些需要标注的字段,并且只有少量额外的字段需要手动标注,则可以使用 Data Manager 的预标注功能来节省大量时间。
可用的选项如下:
预标注要求 ML 模型具有 URL。您可能会用到以下 URL:
- 公共 URL,例如 https://du.uipath.com/ie/invoices 或 https://du.uipath.com/ie/purchase_orders
- 请在此处查看完整的端点列表
- 已在内部部署 AI Center 或 AI Center Cloud 中公开的 ML 技能 URL
在离线环境中部署的 AI Center 内部部署中的 ML 技能不能用于预加标签。
localhost
来引用本地计算机,而要使用本地计算机的 IP 地址或域名。如果是 AI Center 内部部署版中公共 ML 技能的 URL,请使用 AI Center ML 技能详细信息页面中显示的 URL。
Document Understanding API 密钥。对于 Data Manager Cloud 和 Data Manager On-Prem Online,它是必需的。对于 Data Manager On-Prem Air-gapped,它不是必需的。
如何…
“如何…”选项用于访问 Data Manager 帮助菜单。
在这里,您可以找到:
- Data Manager 版本
- 指向此文档页面的“文档”链接。
- “标签控件”部分显示处理数据时要使用的控件。
- “文档快捷方式”部分显示用于执行各种操作(例如导航和用户界面缩放)的快捷方式。
- “配置”部分显示有关在安装过程中执行的实例配置的详细信息。
Ctrl
并滚动鼠标滚轮。
您可以通过选择文字框并按下相应的按键,将文档分配给某个字段,从而标记文档。您也可以右键单击文字框并验证提取的信息。
有关如何标记文档的更多详细信息,请访问此页面。
打开新的 Data Manager 会话或筛选器为空时,某些准则将显示在文档视图中:
此外,文档视图中还会显示加载失败: