Document Understanding

2022.10

False

Document Understanding 用户指南

上次更新日期 2024年4月19日

关于 Document Manager

UiPath Document Manager 是一个轻型网页应用程序，允许用户准备、审核和更正 Document Understanding 机器学习模型的训练和评估所需的数据集。它允许多个用户执行各种不同的操作：

定义并配置要由 ML 模型提取的字段。

导入要标注的文档。

使用已有的 ML 模型（例如 UiPath 提供的开箱即用型“发票提取”或“收据提取”模型）或使用 AI Center 训练的模型来预标记文档。

标注文档。

以 AI Center 训练管道所需的格式导出文档。

用户界面

Document Manager 界面包含以下面板：

管理栏

显示在 Document Manager 中的页面顶部。

使您能够执行多项操作：在文档之间导航、删除/还原文档、搜索/筛选文档、运行 AI 模型预测以及导入和导出文档。

以下是管理栏中的可用项目：

项目	图标	描述
导航		在与活动筛选器匹配的文档之间导航。在两个箭头之间显示一个计数器。它显示了与活动搜索/筛选器匹配的文档总数和当前文档的编号。
		搜索文档或筛选文档。导出数据文档时，系统也会应用筛选器。您也可以按文档中的词语或文档名称进行筛选。
删除/还原	/	删除或还原文档。已删除的文档位于“已删除”筛选器下。
		打开“导入数据”对话框。
		打开“导出文件”对话框。
文档名称和类型	不适用	当前处于活动状态的文档的名称及其类型。文档分为三种类型：训练文档验证文档评估文档训练文档和验证文档都是训练管道使用的训练数据集的一部分。评估文档会被训练管道忽略，并且仅供 AI Center 中的评估管道使用。通过在“导入数据”对话框中选中“将此作为评估集”复选框，即可将这些文档标记为评估文档。
下载		该选项位于文档名称旁边的下拉列表中。单击图标可下载包含原始文档的 Zip 文件。除了原始文档外，还会下载由 Document Manager 内部转换为 `.jpeg` 图像的所有页面。
永久删除		该选项位于文档名称旁边的下拉列表中。永久删除单个文件。将从 AI Center 数据集中删除 `.pdf` 及其所有 `.jpeg` 图像，并从数据库中删除所有元数据。单击此按钮时，系统会弹出一条消息，询问您是否确定要永久删除文档。单击“确定”以继续操作，或单击“取消”以返回到上一个屏幕。
会话名称	不适用	当前会话的名称。
预测		运行 AI 模型预测并显示结果。配置预加标签后，将在管理栏中启用该按钮。单击该按钮，以预标记当前文档。目前，将“预测”选项与公共端点一起使用时，只能预标记文档的前 10 页。这是一个已知问题，正在修复中。但是，在 AI Center 中将“预测”选项与 ML 技能一起使用并不会施加这样的限制。
设置		配置 OCR 和预加标签设置，或者访问“如何…”面板。请参阅下方更多详细信息。

“删除”和“永久删除”选项

让我们更深入地了解“删除”和“永久删除”选项之间的区别。

“删除”选项会删除文件，但不会将其完全从项目中删除。已删除的文件仍可以在“搜索”栏中的已删除筛选条件下找到，并可以使用“还原”选项进行还原。
“永久删除”选项将删除选定的文件，并且无法还原这些文件。
观察以下 GIF 中这两个选项的使用情况：

搜索选项

“搜索”栏既是文本输入字段，也是下拉列表。

可以通过在“搜索”栏中输入内容或从下拉列表中选择筛选条件来输入搜索选项。初始化搜索的主要方法有以下三种：

使用搜索栏下拉列表中提供的内置筛选器。您可以选择以下任何筛选条件：“训练集”(train-set)、“验证集”(validate-set)、“训练集和验证集”(train-validate-set)、“评估集”(evaluation-set)、“已删除”(deleted)、“已标记”(labeled)、“未标记”(unlabelled)。
注意：请注意，对于 Forms AI，只有以下内置筛选器可用：“已删除”(deleted)、“已标记”(labeled)、“未标记”(unlabelled)。
使用导入批次名称。这些也可在搜索栏的下拉列表中找到。如果手动添加，则格式为 batch:name，其中 name 将替换为您在导入时为批次提供的名称，例如 batch:invoices1
使用关键字。您必须在搜索栏中以自由文本形式输入关键字。搜索将在文档内容或文档名称中查找关键字。

您可以选择使用一个或多个搜索选项。使用的每个附加选项都会投射出更具体的搜索网络。以下是一些搜索示例，这些示例首先要进行广泛的搜索，然后再逐步进行更精细的搜索：

启动 labelled 搜索将返回数据集中的所有 labelled 文档。
启动 batch:invoices1 搜索将返回 invoices1 批次中所有文档。
启动 labelled batch:invoices1 搜索将返回 invoices1 批次中所有带标签的文档。
启动 labelled batch:invoices1 vermont 搜索将返回文档名称或文档内容包含输入的关键字（在本例中为 vermont）的 invoices1 批次中所有已加标签的文档。

“搜索”栏有一个下拉菜单，打开时会显示以下筛选条件：

train-set - 指示要用于训练模型的文档数。自动化操作。
验证集 - 指示在模型训练完成后用于验证模型的文档数。训练集和验证集之间的拆分目标为 80%-20%。自动化操作。
train-validate-set - 指明在 train-set 和 validate-set 筛选器中找到的文档数。自动化操作。
评估集 - 指示在导入期间选中了“评估集”复选框并用于在训练管道阶段评估模型的文档数量。有关上述内容的更多信息，请参见此处。手动操作。
已删除 - 指定已删除文档的数量。有关上述内容的更多信息，请参见此处。
标签 - 指定带有标签的文档数。标签由每个文档至少一个标记/手动编辑的字段定义。
未加标签 - 指定没有标签的文档数。
batch:name - 指定已包含在同一导入操作中的文档。

将文档分配到训练集或验证集是由应用程序在导入时完成的。

如果在导入期间选中了“评估集”复选框，则导入的文档最终会出现在评估集中。

“设置”菜单

设置按钮有两个可用选项：

“设置”- 在这里您可以配置 OCR 服务或预加标签
“如何…”起帮助菜单的作用

为了将文档导入 Document Manager，必须配置 OCR 服务。

可用的选项如下：

OCR 方法

基于云的选项包括：

UiPath 文档 OCR - https://du.uipath.com/ocr；
具有最广语言覆盖范围的 Google Cloud Vision OCR；
适用于读取日语文档的 Google Cloud Vision OCR（日语版）；
Microsoft Read OCR。

OCR URL

配置 OCR 时，需要 OCR 服务具有 URL。您可能会用到以下 URL：

公共 URL，例如 https://du.uipath.com/ocr，或来自 Google Vision OCR 或 Microsoft Read OCR 的第三方 URL

OCR 密钥

所选 OCR 引擎的相应 API 密钥。例如，对于 UiPath Document OCR，您需要使用 Document Understanding API 密钥。对于 Document Manager Cloud 和 Document Manager On-Prem Online，它是必需的。对于 Document Manager On-Prem Air-gapped，它不是必需的。