Document Understanding 用户指南

适用平台：

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

上次更新日期 2024年12月12日

简介

Document Understanding ^TM是创建新项目的主要起点。您可以将其用于结构化或半结构化文档，也可以与预训练模型一起使用。您始终可以从头开始训练，验证文档并根据需要自定义项目。

Overview page

在这里，您可以找到所有已创建项目的列表，以及特定的详细信息。您可以按字母顺序或日期对项目进行排序，创建新项目并自定义页面视图。

项目

显示所有已创建项目的列表。项目的排序分为三种类型：

按字母顺序升序排列
按字母顺序降序排列
按创建日期
（默认排序顺序是按创建日期）

创建项目后，您可以选择文档类型。有两个选项：

使用 Forms AI（固定布局格式） - 适用于 Forms AI
使用半结构化 AI - 适用于 Document Manager

如果要删除文档类型，请打开项目，选择要删除的文档类型，打开“操作”菜单，然后单击“删除”选项。

列

使用此功能可自定义“项目”列表的可用详细信息数量。以下是可以为每个已创建项目显示的详细信息的完整列表。

名称 - 显示项目的名称。
文档类型 - 显示用于每个项目的文档类型。
提取程序 - 显示用于每个项目的提取程序数量。
已处理的文档 - 显示每个项目的已处理文档数。
创建日期 - 显示每个项目的创建日期。
刷新 - 刷新所显示列中所有项目的信息。

提示：您可以从列 ˅ 下拉菜单中选择要显示的列。如果单击“重置”，则无论之前的选择如何，系统都将显示所有字段。

New project

使用“新建项目”按钮创建一个新项目。单击“新建项目”，系统将弹出一个新窗口。

创建新项目时，需要提供以下信息：

选项	描述	字段状态
名称	为新项目命名。	必需
描述	提供有关项目的更多详细信息。	可选
OCR 方法	为新项目选择 OCR 方法。在以下选项之间选择： UiPath™文档 OCR UiPath™中文、日语、韩语 OCR Google Cloud Vision OCR 日语版 Google Cloud Vision Microsoft Read OCR	必需
OCR URL	提供与所选 OCR 方法对应的 OCR URL。以下是与 UiPath OCR 方法对应的 OCR URL 列表。以下是其他常用 OCR URL 的列表： Google：`https://vision.googleapis.com/v1/images:annotate` Microsoft Read 3.2 Azure: `<Azure_resource_Endpoint>/vision/v3.2/read/analyze` Microsoft Read 3.2 内部部署：`http://<IP_addr>:<port_number>/vision/v3.2/read/analyze` Microsoft Read 2.0 Azure: `<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze` Microsoft Read 2.0 内部部署：`http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze`	必需
OCR API 密钥	为所选 OCR 方法提供 OCR API 密钥。如果 OCR 方法为 UiPath OCR 或 UiPath 中文、日语、韩语 OCR，则可在 Cloud Platform 上获取此字段的值，方法是转到“主页”>“管理”>“许可证”>“消耗品”>“AI Unit”	可选
将 OCR 应用于 PDF	确定是否应将 OCR 流程应用于 PDF 文档。如果设置为“是”，则 OCR 将应用于文档的所有 PDF 页面。如果设置为“否”，则 OCR 不会应用于任何页面，并且仅返回 PDF 中嵌入的文本。设置为“自动”时，OCR 仅适用于文档的扫描页面。默认值为“自动”。	必需
AI Center 项目	提供要导入的 AI Center 项目的名称。	可选
从 AI Center 导入	启用/禁用从 AI Center 导入功能	可选

注意：您也可以在云平台上使用 UiPath OCR API 密钥，方法是打开“管理员”/“许可证”/“机器人和服务”/“Document Understanding”，然后复制可用的密钥。

链接到 AI Center 的项目可通过 AI Center 图标轻松识别。

如果要删除链接到 AI Center 的项目，则删除时也会自动将该项目从 AI Center 中删除。

Project page

您可以在此处找到有关已创建项目的更多详细信息，编辑项目名称或创建新的文档类型。

第一行信息显示以下详细信息：

项目名称 - 项目的名称。
日期 - 有关项目创建时间的详细信息。
“设置”- 从“概述”页面打开弹出菜单。更多详情请点击此处。

文档类型和提取程序

在一般详细信息下方，您可以找到两个选项卡：

文档类型 - 提供所选项目的所有可用文档类型的列表。创建提取程序或分类器时，必须定义文档类型。文档类型可以是发票、采购订单或标准化表单。

文档类型菜单	描述
名称	显示所有已创建文档类型的名称列表。
提取方法	显示所选文档类型所使用的提取方法类型。
页面	显示在每种文档类型中找到的总页数。
刷新	刷新项目列表。

提取程序 - 提供为所选项目的文档类型创建的提取程序列表。使用提取程序训练文档类型。

“提取程序类型”菜单	描述
名称	显示已创建文档类型中所有提取程序的名称列表。
类型	显示使用的提取程序的类型。
创建日期	显示每个提取程序的创建日期。
已处理的页数	显示每个提取程序已处理的页面数。
状态	显示每个提取程序的状态。
刷新	刷新提取程序列表。
提取程序的菜单	可以用于复制提取程序的 URL 链接。