活动
最新
False
横幅背景图像
Document Understanding 活动
上次更新日期 2024年3月28日

表单提取程序

UiPath.IntelligentOCR.Activities.DataExtraction.FormExtractor

注意: 出于许可目的,“ 表单提取 程序”活动需要互联网连接才能运行机器人。

表单提取程序最适合通过分析单词在文档中的位置或检测签名来提取、匹配和报告特定信息。 此活动只能与“数据提取作用域”活动一起使用。 如果将“表单提取程序”活动与“UiPath 文档 OCR”活动一起使用,也可以检测到手写文本。

属性

常见
  • “显示名称”- 活动的显示名称。
输入
  • ApiKey - 指定帐户的 API 密钥。 如果在本地项目设置或 Document Understanding 框架中定义了“API 密钥”字段,则会自动预填充该字段。
  • “端点”- UiPath 服务器的 URL。默认情况下,端点为 https://du.uipath.com/svc/formextractor。有关更多信息,请参阅 Document Understanding 公共端点
  • “最小重叠百分比 ” - 指定文档中的框与模板中的框之间提取所需的最小重叠区域(以百分比为单位)。 百分比值可以设置在 0100之间。 默认值为 65
  • 发送文档 - 发送文档以获得更好的支持、故障排除和性能改进。
  • “超时”- 指定等待时间 (以毫秒为单位),如果超出该时间服务器未响应,就会引发错误。默认值为 100000 毫秒 (100 秒)。
其他
  • “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
    注意: 可以为一种 文档类型定义多个模板。 运行活动时,提取程序会根据在第一页上找到的信息选择最匹配的模板。

模板管理器向导

允许您为分类中定义的文档类型创建、编辑、管理和导出/导入模板。

创建模板
  1. 在“数据提取作用域”内,向工作流添加“表单提取程序”活动。
  2. 通过单击“管理模板”按钮来配置提取程序。
    • 系统将打开“模板管理器”窗口。


  3. 单击“创建模板”按钮以创建新模板。


    备注:

    如果 UiPath.IntelligentOCR.Activities 包已更新到 v5.1.0, 则 ForceApplyOCR 参数已替换为 ApplyOcrOnPDF。 以下是新旧参数之间的兼容性:

    • ForceApplyOCR = True 正在替换为 ApplyOcrOnPDF = Yes

    • “强制应用 OCR = False”正在替换为“将 OCR 应用于 PDF = Auto”

    • “强制应用 OCR = Empty”正在替换为“将 OCR 应用于 PDF = Auto”

    强制应用 OCR = <user-defined variable> 正在替换为将 OCR 应用于 PDF = 自动

  4. 从“文档类型”下拉列表中选择模板的文档类型。
    注意:所有文档类型均基于分类。确保在项目文件夹中添加或创建分类。
  5. 在“模板名称”字段中添加模板的名称。选择反映文档版本或版式的相关名称。
  6. 在“模板文档”字段中添加文档的路径。
    • 使用“浏览”按钮导航到文件的路径。
  7. 从“OCR 引擎”下拉列表中选择一个 OCR,并根据需要进行配置。
  8. 单击“配置”按钮以触发模板编辑。

对 PDF 应用 OCR” 选项用于确定是否应将 OCR 流程应用于 PDF 文档。 下拉列表中提供三个选项: TrueFalseAuto

如果设置为“True”,则 OCR 将应用于文档的所有 PDF 页面。如果设置为“False”,则仅提取数字输入的文本。默认值为“自动”,根据输入文档确定文档是否需要应用 OCR 算法。

每个 OCR 引擎都有自己的自定义选项集。您可以在此处找到有关每个 OCR 引擎可用的所有选项的更多详细信息。默认的 OCR 引擎是 UiPath 文档 OCR。

如果您已创建模板,则可以对其进行编辑、导出或删除。

仅当至少选择了一个模板时,“删除”和“导出”按钮才可用。单个模板的“编辑”和“删除”选项始终可用。



配置布尔值字段处理

对于包含复选框的文档,您可以为“是”和“否”选项添加已知同义词,也可以从我们编制的列表开始(请参阅添加建议的值建议)。这些值用于布尔值内容解释,即将捕获的值映射到“是”或“否”报告的值。



注意: 如果您添加的同义词区分大小写,则需要选中“ 区分大小写 ”复选框。
导出和导入模板

您可以导入从其他工作流创建和导出的模板。使用这些功能在项目之间共享模板。使用“表单提取程序”配置文档类型后,您无需在新实施中重新配置模板。

导出程序

以下是导出模板时需要遵循的步骤:

  1. 按照本页开头说明的步骤创建一个或多个模板。
  2. 选择要导出的模板。
  3. 选择“导出”选项(有或没有原始文件),如下面的屏幕截图所示。与原始文件一起导出时,系统会将原始文件附加到导出文件中。


  4. 使用所需名称保存模板的存档。
  5. 保存模板后,系统将显示一条消息。选择“确定”按钮。


    备注:

    如果您无法共享据以构建模板的文档内容,请使用“不包含原始文件”选项。您仍可以在其他项目中共享和导入模板档案,但无法再编辑或查看模板档案。

    在将模板导入到其他项目后,如果您希望能够再编辑该模板,请确保在导出时以及之后导入时使用“包含原始文件”选项。

导入程序

以下是导入模板时需要遵循的步骤:

  1. 选择“导入”按钮。


  2. 选择存档。导入向导随即出现,并显示所选导出存档中的所有文档类型和所有可用模板。选择要导入的模板,然后选择正确的“导入”选项(带或不带原始文件)。


    备注:
    • 导入模板时,将在项目的分类中自动创建文档类型。如果已经存在名称相同的文档类型,则通过将计数附加到文档类型名称来创建另一个文档类型。
    • 如果要导入已导出但不包含原始文件的模板,或者您选择导入不包含原始文件的模板,则这些模板没有查看或编辑选项。
导入模板时的特殊情况

导入模板时,可能会发生几种特殊情况。下表说明了每种情况及其特殊性:

导入类型

活动行为

新的文档类型

如果导入了新的文档类型,则会在向导配置器中添加一个新字段,通知您将创建一个新模板。

重复的文档类型

如果导入相同的文档类型,则会出现以下警告消息:

  • 此模板已存在,且会被覆盖。

扩展模板

如果导入的文档类型模板包含比现有字段更多的字段,则会显示以下警告消息:

  • 此文档类型将进行如下更新:
  • 以下字段不存在,系统将创建该字段。

扩展文档类型

如果用户导入的文档类型包含比现有字段更多的字段,则会显示以下警告消息:

  • 此文档类型将进行如下更新:
  • 以下字段没有要导入的配置…

名称相同但内容不同的文档类型

如果用户导入的文档类型与现有文档类型同名,但字段不同,则会显示以下警告消息:

  • 此文档类型将进行如下更新:
  • 以下字段不存在,系统将创建该字段。
  • 以下字段没有要导入的配置

缺少表格的文档类型

如果用户导入的文档类型不包含表格,则会显示以下警告消息:

  • 此文档类型将进行如下更新:
  • 以下字段没有要导入的配置。

包含扩展表格的文档类型

如果用户导入的文档类型包含具有额外列的表格,则会显示以下警告消息:

  • 此文档将进行如下更新:
  • 以下字段不存在,系统将创建该字段。

包含简化表格的文档类型

如果用户导入的文档类型包含缺少列的表格,则会显示以下警告消息:

  • 此文档将进行如下更新:
  • 以下字段没有要导入的配置…

具有不同文档类型的表格模板

如果用户导入的文档类型模板包含具有不同文档类型的表格,则将创建一个新模板。

如果您的分类包含一个表格,并且该表格中的一个字段具有不同的文档类型,则会显示以下消息:

  • 虽然 ID 为 xyz 的字段同时显示在导入分类和现有分类中,但这两种类型不兼容(两者或者均为表格,或者均不是)。

模板编辑器向导

一般注意事项

模板编辑器 是以“ 验证站点”的功能为基础构建而成。 通过单击 按钮。

要了解“验证站点”的基本用法,请阅读本节

除了在验证站点屏幕右侧提供的选项之外,还有两个特定于模板编辑器的选项:

选项

描述

设置锚点选择模式

清除整个锚点选择

新建模板时,首次打开模板编辑器时会显示说明文本。如果要再次访问这些文本,请执行以下步骤:



可以在单元格或表格级别修改表格信息。 以下是有关如何在 单元格级别表格 级别配置表格的更多信息。

配置锚点

模板管理器打开模板编辑器后,即可以定义锚点,并且可以在“选择模式”选项中找到锚点。

定义或编辑页面级别模板时,尽管是可选的,但首先需要选择“第 1 页匹配信息”。仅对于固定表单模板,此步骤是必需的。

“第 1 页匹配信息”选项位于屏幕左侧,需要模板第一页中的文本输入(仅接受令牌),该文本始终位于该特定模板布局中的相同位置,并形成为特定文档类型定义的所有模板中唯一的字词图表(考虑词之间的相对距离和角度)。

换句话说,“第 1 页匹配信息”(以及所有其他“页面匹配信息”字段)相当于特定页面的“指纹”,广泛用于在运行时识别正确的匹配模板。

因此,对于“第 1 页匹配信息”字段,强烈建议您在整个页面区域选择 10 至 20 个字词,最好是较长的词。

仅当您尝试从该特定页面提取数据且不再需要跨模板唯一性时,才必须填写其他“页面匹配信息”字段(每个模板页面一个字段)。如果不需要从特定页面提取任何字段,则不必定义该页面的页面级别匹配信息。

配置简单字段

对于表格以外的所有字段,配置模板包括选择一个自定义区域并将其分配给特定字段。

对于固定表单配置,只能使用自定义区域选择来配置数据字段。

对于任何字段,您都可以使用 (+) 按钮定义一个或多个此类“自定义区域”。如果为单个字段定义了两个或多个“自定义区域”,则在运行时,如果在“分类”中将该字段定义为“单一值”,则所有值都将连接到单个报告值。如果将该字段定义为“多重值”,则将分别报告每个值。

下方动画图表明选择令牌自定义区域时的区别:



每个字段旁边的图标表示支持的选择类型:



备注:

如果选择了空白区域,则系统会将所选内容自动设置为“自定义区域”。如果在选定区域内检测到文本,则系统会要求您在“令牌”或“自定义区域”之间选择所需内容的类型。

使用验证站点的“选择模式”功能锁定您在“令牌”和“自定义区域”之间做出的选择。

配置表格

如上所述,有些字段只能通过使用令牌(例如“页面匹配信息”字段)或通过使用自定义区域(例如“简单”字段)来添加信息。对于“表格”字段,您可以执行以下操作:

  • 展开表格编辑器后,逐一定义每个单元格 - 通过分别向每个单元格添加自定义区域选择,或
  • 使用表格标记功能 - 通过标记表格区域、绘制行和列分隔符,然后将如此标记的表格分配给字段。确保提取的区域具有与模板区域相同的列数和行数。

请查看下方的动画,了解如何使用表格标记功能:



锚点配置

定义要从中提取数据的自定义区域范围的一种独特方法是使用字段级别锚点。这些锚点使您能够根据字段级别配置提取数据,从而更灵活地定义表单提取规则。

因此,“表单提取程序”在运行时知道如何执行以下操作:

  • 确定页面级别模板是否匹配,并根据其确定为最匹配的页面级别模板提取信息;
  • 确定任何基于锚点的设置是否匹配,并根据这些设置在待处理文档中的应用提取信息;
  • 计算所有可能匹配项的相应置信度分数,以便报告所有可用选项的最佳结果(概率最高的匹配项)。
创建新的锚点设置
  1. 确保您处于“锚点选择”模式。
  2. 在值区域周围绘制一个方框。
  3. 通过单击第一个词,然后按住 Ctrl 键并单击所选内容的最后一个词,或单击并拖动,然后松开以捕获一个词范围,为值区域选择标签(主锚点)。
    注意:标签只能包含同一视觉行中的连续词。
  4. 选择将用于唯一标识您的标签的任何其他锚点。相同的选择原则也适用。
  5. 通过选择特定字段的“提取值”,将锚点结构分配给相应字段。


    注意:您还可以使用此处的示例来了解如何创建模板以及定义提取区域和锚点。
编辑现有锚点设置
  1. 高亮显示您的锚点设置。
  2. 对其进行更改(根据需要删除任何锚点或标签,甚至是删除值区域,以及添加新元素等)。
  3. 使用“更改提取值”选项更新字段关联。


    备注:
    • 如果删除目标区域,则会删除所有锚点,并且您需要重新开始。
    • 如果删除标签(主锚点),则第一个锚点(按照创建顺序)将变为新标签。
删除现有锚点设置

要删除锚点设置,您可以:

  • 对于已保存的值,使用“标记为缺少”选项


  • 对于为给定字段定义的锚点列表,使用“删除值”


混合和匹配配置

您可以为同一文档类型定义任意数量的模板。您可以拥有多个页面级别模板,同一个字段可以有多个锚点,模板甚至可以同时包含页面级别锚点和字段级别锚点。

备注:
  • 定义字段级别锚点时,请确保标签靠近值区域,并且如果可以在同一个文档的多个位置找到相同的文本构造,则其他锚点会支持该标签。
  • 标签和锚点越长,得到的精度就越高。
  • 值区域始终根据其相对于标签(主锚点)的相对位置来计算。请据此选择主锚点。
  • 有了字段级别锚点,字段可以在模板内移动并仍被捕获,从而为更改文档版式提供了更大的灵活性。
Document Understanding 集成

表单提取程序活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南

  • 属性
  • 模板管理器向导
  • 模板编辑器向导
  • 锚点配置

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.