document-understanding

2022.4

false

Document Understanding 用户指南

适用平台：

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

上次更新日期 2024年11月11日

关于数据管理器

UiPath Document Manager 是一个轻型网页应用程序，允许用户准备、审核和更正 Document Understanding 机器学习模型的训练和评估所需的数据集。

以下是本地部署方法：

本地部署 AI Center 中的 Data Manager。这是正式发布版，并且在生产场景中完全受支持。对于可以导入的数据集的大小没有限制，除了自动重新训练，每次导入仍然有 2000 页或 2GB 的限制。有关本地部署 AI Center 的所有可用部署方法，请参阅此页面。

Data Manager 使多个用户可以执行与管理数据批处理、数据准备和模型配置相关的各种操作：

定义并配置要由 ML 模型提取的字段。

导入要标注的文档。

使用已有的 ML 模型（例如 UiPath 提供的开箱即用型“发票提取”或“收据提取”模型）或使用 AI Center 训练的模型来预标记文档。

标注文档。

以 AI Center 训练管道所需的格式导出文档。

用户界面

Data Manager 界面包含以下面板：

管理栏

显示在 Data Manager 中的页面顶部。

使您能够执行多项操作：在文档之间导航、删除/还原文档、搜索/筛选文档、运行 AI 模型预测以及导入和导出文档。

以下是管理栏中提供的选项：

选项	图标	描述
导航		在与活动筛选器匹配的文档之间导航。在两个箭头之间显示一个计数器。它显示了与活动搜索/筛选器匹配的文档总数和当前文档的编号。
搜索		搜索文档或筛选文档。导出数据文档时，系统也会应用筛选器。您也可以按文档中的词语或文档名称进行筛选。
删除/还原	/	删除或还原文档。已删除的文档位于“已删除”筛选器下。
预测		运行 AI 模型预测并显示结果。配置预加标签后，将在管理栏中启用该按钮。单击该按钮，以预标记当前文档。目前，将“预测”选项与公共端点一起使用时，只能预标记文档的前 10 页。这是一个已知问题，正在修复中。但是，在 AI Center 中将“预测”选项与 ML 技能一起使用并不会施加这样的限制。
导入		打开“导入数据”对话框。
导出		打开“导出文件”对话框。
下载		单击图标可下载包含原始文档的 Zip 文件。
设置		配置 OCR 和预加标签设置，或者访问“如何…”面板。见下文。

下载

除了包含原始文档的 Zip 文件外，还会下载由 Document Manager 内部转换为 .jpeg 图像的所有页面。

文档名称、类型和会话名称

在图标的右侧，您可以看到当前活动文档的名称、类型和会话名称。

文档分为三种类型：

训练文档
验证文档
评估文档

训练文档和验证文档都是训练管道使用的训练数据集的一部分。

评估文档会被训练管道忽略，并且仅供 AI Center 中的评估管道使用。通过在“导入数据”对话框中选中“将此作为评估集”复选框，即可将这些文档标记为评估文档。

设置

设置按钮有两个可用选项：

“设置”- 在这里您可以配置 OCR 服务或预加标签
“如何…”起帮助菜单的作用

OCR

为了将文档导入 Data Manager，必须配置 OCR 服务。

可用的选项如下：

OCR 方法

重要提示：

选择用于将文档导入到 Data Manager 的 OCR 引擎是一项关键决策。

建议使用相同的 OCR 导入训练数据（训练时间），这是因为在部署模型时（运行时）也会用到它。

理想情况下，您应该尝试几个不同的选项，看看哪个选项最适合您的文档，然后再做出决策。

内部部署选项包括：

UiPath OCR 容器，支持主要的西欧语言；
Microsoft Read 容器（可从 Microsoft 处获得预览版）的语言覆盖面也广；
在 AI Center 内部部署版 v2020.10 或更高版本中部署的 UiPath OCR ML 技能。

基于云的选项包括：

“UiPath 文档 OCR”- https://du.uipath.com/ocr；
具有最广语言覆盖范围的 Google Cloud Vision OCR；
适用于读取日语文档的 Google Cloud Vision OCR（日语版）；
Microsoft Read OCR。

OCR URL

配置 OCR 时，需要 OCR 服务具有 URL。您可能会用到以下 URL：

公共 URL，例如 https://du.uipath.com/ocr，或来自 Google Vision OCR 或 Microsoft Read OCR 的第三方 URL
由内部部署的 UiPath 提供的 UiPath 文档 OCR 独立容器的 URL
作为“ML 技能”部署的 OCR ML 包的 URL，这些 URL 已在 AI Center 内部部署版 v2020.10 或更高版本中公开。

重要提示：
如果您在与 Data Manager 相同的计算机上运行 OCR，则不要使用 localhost 来引用本地计算机，而要使用本地计算机的 IP 地址或域名。

如果是作为 AI Center 内部部署版中公共 ML 技能部署的 OCR 的 URL，请使用 AI Center ML 技能详细信息页面中显示的 URL。

OCR 密钥

所选 OCR 引擎的相应 API 密钥。例如，对于 UiPath Document OCR，您需要使用 Document Understanding API 密钥。对于 Data Manager Cloud 和 Data Manager On-Prem Online，它是必需的。对于 Data Manager On-Prem Air-gapped，它不是必需的。