document-understanding
latest
false
UiPath logo, featuring letters U and I in white

Document Understanding 用户指南

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
上次更新日期 2024年12月12日

文档类型 (Document Manager)

Document types allow you to prepare, review and make corrections to datasets required for Training and Evaluation of Document UnderstandingTM Machine Learning models. It enables multiple users to perform a variety of operations:
  • 定义并配置要由 ML 模型提取的字段。
  • 导入要标注的文档。
  • 使用已有的 ML 模型(例如 UiPath 提供的开箱即用型“发票提取”或“收据提取”模型)或使用 AI Center 训练的模型来预标记文档。
  • 标注文档。
  • 以 AI Center 训练管道所需的格式导出文档。

创建文档类型

创建并打开项目后,您可以通过单击“新建”按钮并选择“使用半结构化 AI”选项来创建新的文档类型会话。系统将打开一个新窗口,此窗口要求您提供其他信息。

以下是创建新“文档类型”会话时可用的选项。通过填写这些值,您可以获得作为起点的建议数据集大小的估计值。

此外,通过选择“开箱即用”文档类型,系统会自动填充和配置您的架构,以使您能够从 AI Center 中提供的预训练模型中受益。这样您就无需手动导入预定义架构,并可加快工作速度,并减少代价高昂的错误。

此外,预加标签端点会自动填充适当的端点,使您可以更方便地在打开新的文档类型后立即使用预标签。



选项

描述

名称(必填)

给新文档类型命名。

开箱即用文档类型(必填)

从下拉列表中选择一种可用的预训练开箱即用文档类型。

开箱即用的常规字段(可选)

选择要为架构创建的预定义常规字段

开箱即用的列字段(可选)

选择要从文档中提取的预定义列字段。

开箱即用的分类字段(可选)

选择要从文档中提取的预定义分类字段。

自定义列字段(可选)

输入要从文档中提取的“其他”常规字段的数量。

自定义列字段(可选)

输入要从文档中提取的“其他”列字段的数量。

语言数量(可选)

输入需要提取的文档的语言数量。

布局数量(可选)

输入需要提取的文档的布局数量。

注意:选择文档类型时系统会生成建议的页数,这些页数需要用于数据集。

用户界面

Document Manager 界面包含以下面板:

  • 管理栏
  • 列字段
  • 常规字段
  • 分类字段
  • 文档视图

Management bar

显示在 Document Manager 中的页面顶部。

使您能够执行多项操作:在文档之间导航、删除/还原文档、搜索/筛选文档、运行 AI 模型预测以及导入和导出文档。

以下是管理栏中的可用项目:

项目

图标

描述

导航

在与活动筛选器匹配的文档之间导航。

在两个箭头之间显示一个计数器。它显示了与活动搜索/筛选器匹配的文档总数和当前文档的编号。

搜索


docs image

有两项搜索功能:

  • 内置筛选器:根据下拉菜单中提供的批次/类别选项筛选文档。

  • 使用关键字:根据文本输入筛选文档。

删除/还原


docs image

docs image

删除或还原文档。已删除的文档位于“已删除”筛选器下。

导入


docs image

打开“导入数据”对话框。

导出


docs image

打开“导出文件”对话框。

文档名称和类型

不适用

当前处于活动状态的文档的名称及其类型。

文档分为三种类型:

  • 训练文档

  • 验证文档

  • 评估文档

训练文档和验证文档都是训练管道使用的训练数据集的一部分。

评估文档会被训练管道忽略,并且仅供 AI Center 中的评估管道使用。通过在“导入数据”对话框中选中“将此标记为评估集”复选框,即可将这些文档标记为评估文档。

下载


docs image

该选项位于文档名称旁边的下拉列表中。

单击图标可下载包含原始文档的 Zip 文件。除了原始文档外,还会下载由 Document Manager 内部转换为 .jpeg 图像的所有页面。

永久删除

docs image

该选项位于文档名称旁边的下拉列表中。

永久删除单个文件。将从 AI Center 数据集中删除 .pdf 及其所有 .jpeg 图像,并从数据库中删除所有元数据。

单击此按钮时,系统会弹出一条消息,询问您是否确定要永久删除文档。单击“确定”以继续操作,或单击“取消”以返回到上一个屏幕。

批次名称

不适用

当前批次的名称。

会话名称

不适用

当前会话的名称。

预测

注意:“预测”功能依赖于 UiPath DocPath,但仅适用于位于欧洲地区的租户。如果您的租户位于欧洲以外的区域,则此功能将使用上一代模型架构。

docs image

运行 AI 模型预测并显示结果。

配置预加标签后,将在管理栏中启用该按钮。单击该按钮,以预标记当前文档。

该按钮具有三个选项:
  • 预测:合并预加标签端点(在“预加标签”设置中配置)和生成式预测的结果。如果未配置预加标签端点,则仅使用生成式预测来预测所有字段。
  • 生成式预测:使用生成式预测功能预测所有字段。
  • 模型预测:使用“预加标签”设置中配置的预加标签端点模型预测字段。

“生成式注释(预加标签)”功能会丢弃所有字段类型的所有手动编辑的字段值,并从文档中删除所有标签。

目前,将“预测”选项与“公共端点”一起使用时,只能预标记文档的前 10 页。这是一个已知问题,正在修复中。但是,在 AI Center 中将“预测”选项与 ML 技能一起使用并不会施加这样的限制。

从托管于 Automation Cloud 的 Document Manager 会话使用部署在 Automation Cloud™ 中的公共端点或技能时,生成式预标注不消耗 AI Unit。从 Automation Suite 托管的会话调用公共端点,或从 Automation Cloud 托管的 Document Manager 会话调用在 Automation Suite 中部署的技能时,生成式预加标签会消耗 AI Unit。

设置


docs image

配置 OCR 和预加标签设置,或者访问“如何…”面板。请参阅下方更多详细信息。

“删除”和“永久删除”选项

让我们更深入地了解“删除”和“永久删除”选项之间的区别。

  • “删除”选项会删除文件,但不会将其完全从项目中删除。已删除的文件仍可以在“搜索”栏中的已删除筛选条件下找到,并可以使用“还原”选项进行还原。
  • “永久删除”选项将删除选定的文件,并且无法还原这些文件。

搜索选项

总共提供三个搜索选项,其中两个选项显示在页面顶部的管理栏中,另一个选项是使用页面左下方的 docs image 图标。
注意:请注意,对于 Forms AI,只有以下内置筛选器可用:“已删除”(deleted)、“已标记”(labeled)、“未标记”(unlabelled)。

公开的搜索功能包含两个部分:

  • 使用内置筛选器进行搜索:根据下拉菜单中提供的批次/类别选项筛选文档。

注意:

选择更多选项可进一步限制搜索范围。例如,如果选择“批量导入 1”和“已删除”,则只会返回在“批量导入 1”中导入且已删除的文档。

记下将始终返回空列表的组合:如果选择“批量导入 1”和“批量导入 2”,则永远不会返回文档,因为选择内容具有限制性,没有文档可以同时属于两个批次。

  • 使用关键字在文档中搜索:此搜索栏会根据文本输入筛选信息。您必须在搜索栏中以自由文本形式输入关键字。搜索将在文档内容或文档名称中查找关键字。当字词相邻时,多词搜索会返回结果,但不包括它们之间的任何标点符号。

注意:除了在管理栏中提供的两个搜索选项之外,还提供“在文档内搜索”选项,可通过此符号 docs image 识别。
  • “在文档内搜索”:使您可以仅在当前文档中搜索文本的实例。搜索栏 位于屏幕左下方。

“设置”菜单

设置按钮有两个可用选项:

  • “设置”- 在这里您可以配置 OCR 服务或预加标签
  • “如何使用…”起帮助菜单的作用
OCR

为了将文档导入 Document Manager,必须配置 OCR 服务。



可用的选项如下:

OCR 方法

This setting is available only for Document Types (Data Manager sessions) created in AI Center. When created in Document UnderstandingTM, this setting is inherited from the Project Settings. If you want to modify these settings in Document UnderstandingTM, go back to the Project view and open Project Settings from the bottom left.

基于云的选项包括:

  • UiPath™文档 OCR - https://du.uipath.com/ocr
  • 中文、日语和韩语 OCR
  • 具有最广语言覆盖范围的 Google Cloud Vision OCR
  • 适用于读取日语文档的 Google Cloud Vision OCR(日语版)
  • Microsoft Read OCR

OCR URL

配置 OCR 时,需要 OCR 服务具有 URL。您可能会用到以下 URL:

  • 公共 URL,例如 https://du.uipath.com/ocr,或来自 Google Vision OCR 或 Microsoft Read OCR 的第三方 URL

OCR 密钥

所选 OCR 引擎的相应 API 密钥。例如,对于 UiPath Document OCR,您需要使用 Document Understanding API 密钥。对于 Document Manager Cloud 和 Document Manager On-Prem Online,它是必需的。对于 Document Manager On-Prem Air-gapped,它不是必需的。

有关更多信息,请查看“Cloud 和本地部署使用情况”页面。

将 OCR 应用于 PDF

确定是否应将 OCR 流程应用于 PDF 文档。如果设置为 True,则 OCR 将应用于文档的所有 PDF 页面。如果设置为 False,则仅提取数字输入的文本。当设置为“自动”时,将根据输入文档评估文档是否需要应用 OCR 算法。默认值为“自动”。

预测/预加标签

注意:“预测”功能依赖于 UiPath DocPath,但仅适用于位于欧洲地区的租户。如果您的租户位于欧洲以外的区域,则此功能将使用上一代模型架构。

如果您已经有一个模型可以提取一些需要加标签的字段,并且只有少量额外的字段需要手动加标签,则可以使用 Document Manager 的预加标签功能来节省时间。

预加标签合并预加标签端点(在“预加标签”设置中配置)和生成式预测的结果。

如果未配置预加标签端点,则仅使用生成式预测来预测所有字段。



可用的选项如下:

预加标签 URL

预加标签要求 ML 模型具有 URL。查看您可以使用的以下 URL:

  • 公共 URL,例如 https://du.uipath.com/ie/invoices or https://du.uipath.com/ie/purchase_orders

    请访问公共端点,查看完整的端点列表。

  • 已在本地部署的 AI Center 或 Cloud AI Center 中公开的 ML 技能 URL。

预加标签密钥

AI Unit/Document Understanding API 密钥。预加标签 API 密钥是技能所在组织的 Document Understanding 密钥。

Cloud Document Manager 和本地部署的 Online Document Manager 必须使用此密钥。对于本地部署的离线 Document Manager,此密钥是可选的。

如何…

“如何…”选项用于打开 Document Manager 帮助菜单。

在帮助菜单,您可以找到以下信息:

  • Document Manager 版本。
  • 指向此文档页面的“文档”链接。
  • “标签控件”部分显示处理数据时要使用的控件。
  • “文档快捷方式”部分显示用于执行各种操作(例如导航和用户界面缩放)的快捷方式。
  • “配置”部分显示有关在安装过程中执行的实例配置的详细信息。
标签控件

命令

描述

左键单击

选择复选框。如果与字段的热键一起使用,则会将所选信息分配给字段。

退格/删除

删除字段的标记值。

右击

显示 OCR 文本和当前标签。

Enter 或反斜杠

对跨越多行文本的表格行进行分组或取消分组。
文档快捷方式

快捷方式

描述

Alt + 向左箭头/向右箭头

在文档之间导航。

Alt + Delete

删除或恢复文档。

Ctrl + 滚动

通过放大或缩小更改文档缩放比例。

列字段

列字段具有以下选项:
  • 新建列字段 docs image
  • 编辑字段 docs image
  • 展开/折叠列字段值 docs image

有关列字段的更多详细信息,请参阅本节

常规字段

常规字段具有以下选项:
  • 新建常规字段 docs image
  • 编辑字段 docs image

有关常规字段的更多详细信息,请参阅本节

分类字段

分类字段具有以下选项:
  • 新建分类字段 docs image
  • 编辑字段 docs image

有关分类字段的更多详细信息,请参阅本节

文档视图

对于多页文档,您可以像在任何 PDF 查看器中一样自然地滚动页面。要放大或缩小,请使用 Ctrl 并滚动鼠标滚轮。

您可以通过选择文字框并按下相应的按键,将文档分配给某个字段,从而标记文档。您也可以右键单击文字框并验证提取的信息。

有关如何标记文档的更多详细信息,请访问此页面

打开新的 Document Manager 会话或筛选器为空时,某些准则将显示在文档视图中:



此外,文档视图中还会显示加载失败:



  • 创建文档类型
  • 用户界面
  • Management bar
  • OCR 方法
  • 预测/预加标签
  • 列字段
  • 常规字段
  • 分类字段
  • 文档视图

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。