Document Understanding
最新
False
横幅背景图像
Document Understanding 用户指南
上次更新日期 2024年4月23日

表单 AI

Forms AI 是 Document Understanding 的一部分,可用于上传和处理具有标准布局和字段的结构化表单。

创建 Forms AI

Forms AI 是 Document Understanding 中第一个可用的提取方法。阅读有关如何在 Document Understanding 中新建项目的更多信息。

创建项目后,您需要按照后续步骤在项目中使用 Forms AI 创建文档类型。

  • 打开项目,然后单击“新建文档类型”按钮。



    系统将打开一个对话框,要求您为文档类型命名。



如果要直接从 Document Understanding 训练文档分类器,则可以使用“ 一键分类 ”功能。

注意:与 Forms AI 一起使用的固定布局表单的最大长度为五页。

将 Forms AI 转换为半结构化文档类型

您可以将 Forms AI 文档类型转换为半结构化文档类型。

将 Forms AI 文档类型转换为半结构化 (Document Manager) 文档类型时,您可以使用 Document Manager 中的所有可用功能

转换选项非常适合用于训练功能更强大的深度学习机器学习模型的复杂场景。

如何转换 Forms AI 会话

如果您决定将 Forms AI 会话转换为 Document Manager 会话,则可以选择两个选项。

从项目的文档类型列表中

您可以直接从项目的“文档类型”列表中转换文档类型。

访问要转换的文档类型的“ 打开” 访问菜单 ,然后单击“ 转换为半结构化 ” 选项。 系统将显示一个弹出窗口,要求您确认 Actions。

注意:

转换文档类型后,您将无法撤消 Actions。

以下示例说明了如何使用转换功能。



从打开的 Forms AI 会话

打开已创建的 Forms AI 会话,以将其转换为半结构化会话。

从打开的会话中单击“访问菜单”,然后单击“转换为半结构化”选项。

注意:转换“文档类型”后,您将无法撤销该操作。

如果项目没有 AI Center 链接,则不会显示“转换为半结构化”按钮。

以下示例说明了如何使用转换功能。



导入文档

创建新的 Forms AI 后,系统将打开一个新窗口,要求您导入数据。您最少可以导入两个文档,最多可以导入二十个文档,每个文档最多包含五页。通过拖放或浏览来上传文件。



导入文档是将表单 AI 转换为半结构化 AI 文档类型的另一种方法。 如果您尝试上传超过 20 个文档,或者任何文档超过 20 页,则会显示一个选项。 屏幕上将显示一个弹出窗口,询问您是否要将 FormsAI 会话转换为半结构化会话。



还应检查自动提取的字段的 内容类型 准确性。 例如,如果自动提取了“ 日期 ”字段,则“内容类型”应为“ 日期”。 应手动更正任何不准确之处。

管理栏

在页面顶部,您可以找到管理栏。您可以使用管理栏执行多项操作:在文档之间导航、删除/还原档、搜索/筛选文档、运行 AI 模型预测以及导入和导出文档。

以下是管理栏中的可用项目:

项目

图标

描述

导航

在与活动筛选器匹配的文档之间导航。

在两个箭头之间显示一个计数器。它显示了与活动搜索/筛选器匹配的文档总数和当前文档的编号。

“搜索”和“在文档中搜索”

搜索 - 启动搜索或筛选文档。导出数据文档时,系统也会应用筛选器。您可以按文档中的词语或文档名称进行筛选。

在文档中搜索 - 通过单击 或使用快捷键 Ctrl + Shift + F,在文档中发起文本搜索

删除/还原

/

删除或还原文档。已删除的文档位于“已删除”筛选器下。

导入

打开“导入数据”对话框。

导出

打开“导出文件”对话框。

文档名称和类型

不适用

当前处于活动状态的文档的名称及其类型。

下载

该选项位于文档名称旁边的下拉列表中。

单击图标可下载包含原始文档的 Zip 文件。除了原始文档外,还会下载由 Document Manager 内部转换为 .jpeg 图像的所有页面。

永久删除

docs image

该选项位于文档名称旁边的下拉列表中。

永久删除单个文件。将从 AI Center 数据集中删除 .pdf 及其所有 .jpeg 图像,并从数据库中删除所有元数据。

单击此按钮时,系统会弹出一条消息,询问您是否确定要永久删除文档。单击“确定”以继续操作,或单击“取消”以返回到上一个屏幕。

预测

运行 AI 模型预测并显示结果。

配置预加标签后,将在管理栏中启用该按钮。单击该按钮,以预标记当前文档。

目前,将“预测”选项与公共端点一起使用时,只能预标记文档的前 10 页。这是一个已知问题,正在修复中。但是,在 AI Center 中将“预测”选项与 ML 技能一起使用并不会施加这样的限制。

发布

发布 Forms AI 提取程序并创建关联的链接,该链接可在项目的提取程序列表中找到。

设置

配置 OCR 和预加标签设置,或者访问“如何…”面板。

设置按钮有两个可用选项:

  • 设置,您可以在其中查看从“项目设置”中自动填充的 OCR 配置。
  • 无障碍模式 使原始值可见

  • 如何… 在这里您可以找到所有可用的快捷方式和控件。

会话

不适用

当前会话的名称,位于页面顶部,UiPath Document Understanding 徽标旁边。

让我们更深入地了解“删除”和“永久删除”选项之间的区别。

  • 删除 ” 选项会删除文件,但不会将其从项目中永久删除。 您仍然可以在搜索栏中的已删除筛选条件下找到已删除的文件,并使用“ 还原” 选项还原这些文件。
  • “永久删除”选项将删除选定的文件,并且无法还原这些文件。

    请参阅下文,了解这两个选项的用法:



“设置”按钮有两个可用选项:

  • “设置” - 您可以在其中配置 OCR 服务
  • “如何…” - 其目的是帮助菜单


列字段

新建列字段

  1. 在页面顶部的表格部分单击 docs image,以添加新的“列”字段。系统将显示“创建列字段”窗口。
  2. 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 (_) 和短划线 (-)。
  3. 单击“确定”

编辑列字段

单击“编辑字段”按钮 。可以在下表中找到列字段的可用选项。

选项

描述

字段名称

字段的唯一名称。

该字段不接受大写字母。只能包含小写字母、数字、下划线 _ 和短划线 -

内容类型

字段的内容类型:

  • 字符串:适用于公司名称或地址,以及付款条款,或者适用于 RPA 开发者在 RPA 工作流中更喜欢手动构建解析逻辑或格式化逻辑的任何其他字段。
  • 数字:适用于金额或数量,具有小数/千位分隔符的智能解析功能。
  • 日期:模型以 yyyy-mm-dd 格式解析、格式化和统一输出。
  • 电话:适用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
  • ID 号:适用于字母数字代码和 ID 号,类似于字符串内容类型,但包括清除冒号 (:) 之前的所有字符。如果要提取的 ID 号可能包含 : 字符,请改用字符串内容类型,以避免数据丢失。

快捷方式

字段的快捷键。允许使用一个或两个按键。

拆分项目

如果要将此字段用作表格中行项目或行之间的分隔符,请选中此复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票行项目中的“行金额”字段。

单击“保存”以保存您的设置。

表格行进行分组 与 AI Center Document Manager 中的不同。 在这里,系统会根据每列字段上“ 拆分项目 ”复选框的状态自动对行进行分组。 这仅适用于行包含多行文本的表格。 在这种情况下,您必须选中每个表格行只有一行的任何字段上的“ 拆分项目 ”复选框。 例如,在发票上,行项目金额是一个典型的字段,您可以在其中选中“ 拆分项目 ”选项。 在 Forms AI 的上下文中,您可以对表单执行相同的操作。

以下示例显示了一个项目长为两行的行说明。在这种情况下,“说明”列字段未选中“拆分项目”选项,而其他两个列字段已选中“拆分项目”选项。



删除列字段

要删除列字段,请执行以下步骤:

  1. 单击与要删除的列字段对应的“编辑字段”按钮 docs image
  2. 单击“删除”按钮。
  3. 单击“确定”
  4. 列字段及其关联的带标签数据将被删除。

字段

新建字段

  1. 单击“字段”部分右侧窗格中的 docs image。系统将显示“创建常规字段”窗口。
  2. 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 (_) 和短划线 (-)。
  3. 单击“确定”

删除所有字段

  1. 在页面顶部的表格部分单击 docs image,以删除所有已创建的字段。使用此函数可删除当前“文档类型”集合中文档上的所有字段,包括“常规”字段和“列”字段,以及所有标签。此操作无法撤销。
  2. 单击“删除所有字段”对话框中的“删除”按钮。

编辑字段

单击“编辑字段”按钮 。可以在下表中找到常规字段的可用选项。

选项

描述

字段名称

字段的唯一名称。

该字段不接受大写字母。只能包含小写字母、数字、下划线 _ 和短划线 -

内容类型

字段的内容类型:

  • 字符串:适用于公司名称或地址,以及付款条款,或者适用于 RPA 开发者在 RPA 工作流中更喜欢手动构建解析逻辑或格式化逻辑的任何其他字段。
  • 数字:适用于金额或数量,具有小数/千位分隔符的智能解析功能。
  • 日期:模型以 yyyy-mm-dd 格式解析、格式化和统一输出。
  • 电话:适用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
  • ID 号:适用于字母数字代码和 ID 号,类似于字符串内容类型,但包括清除冒号 (:) 之前的所有字符。如果要提取的 ID 号可能包含 : 字符,请改用字符串内容类型,以避免数据丢失。

快捷方式

字段的快捷键。允许使用一个或两个按键。

多行

常规

单击“保存”以保存您的设置。

删除常规字段

要删除常规字段,请执行以下步骤:

  1. 单击与要删除的常规字段对应的“编辑字段”按钮 docs image
  2. 单击“删除”按钮。
  3. 单击“确定”
  4. 字段及其关联的带标签数据将被删除。

文档视图和标签

对于多页文档,您可以像在任何 PDF 查看器中一样自然地滚动页面。要放大或缩小,请使用 Ctrl 并滚动鼠标滚轮。

您可以通过选择文字框并按下相应的按键,将文档分配给某个字段,从而标记文档。您也可以右键单击文字框并验证提取的信息。

有关如何标记文档的更多详细信息,请访问此页面

复选框

应为每个字段手动标记 Forms AI 中可用的复选框。 也可以使用“ 列字段” 选项标记表格中的复选框。 在 Forms AI 中标记复选框时,应同时考虑选中和未选中的复选框。

您可以在此处 找到有关如何标记复选框的更多详细信息。

您可以按照 此处介绍的步骤,选择将 Document Understanding 项目集成到 RPA 工作流中。

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.