- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
Document Understanding 活动
表单提取程序
UiPath.IntelligentOCR.Activities.DataExtraction.FormExtractor
表单提取 程序最适合通过分析单词在文档中的位置或检测签名来提取、匹配和报告特定信息。 此活动只能与“ 数据提取作用域 ”活动一起使用。 如果将“ 表单提取 程序”活动与“ UiPath 文档 OCR ”活动一起使用,也可以检测到手写文本。
属性面板
常见
- “显示名称”- 活动的显示名称。
输入
- ApiKey - 指定帐户的 API 密钥。 如果在本地项目设置或 Document Understanding 框架中定义了“API 密钥”字段,则会自动预填充该字段。
- “端点”- UiPath™服务器的 URL。 默认情况下,端点为
https://du.uipath.com/svc/formextractor
。 有关更多信息,请访问Document Understanding 公共端点。 - “最小重叠百分比 ” - 指定文档中的框与模板中的框之间提取所需的最小重叠区域(以百分比为单位)。 百分比值可以设置在
0
和100
之间。 默认值为65
。 - “超时”- 指定等待时间 (以毫秒为单位),如果超出该时间服务器未响应,就会引发错误。默认值为 100000 毫秒 (100 秒)。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
注意: 可以为一种 文档类型定义多个模板。 运行活动时,提取程序会根据在第一页上找到的信息选择最匹配的模板。
允许您为分类中定义的文档类型创建、编辑、管理和导出/导入模板。
创建模板
- 在“数据提取作用域”内,向工作流添加“表单提取程序”活动。
- 通过选择“管理模板”来配置提取程序。
系统将打开“模板管理器”窗口。图 1.“模板管理器”向导概览
- 选择“创建模板”以创建新模板。
图 2.“新建模板”配置字段概览
备注:如果 UiPath.IntelligentOCR.Activities 程序包已更新到 v5.1.0,则强制应用 OCR 参数已替换为将 OCR 应用于 PDF 参数。以下是新旧参数之间的兼容性:
- “强制应用 OCR = True”替换为“将 OCR 应用于 PDF = 是”;
- “强制应用 OCR = False”替换为“将 OCR 应用于 PDF = 自动”;
- “强制应用 OCR = 空白”替换为“将 OCR 应用于 PDF = 自动”;
- “强制应用 OCR =
<user-defined variable>
”替换为“将 OCR 应用于 PDF = 自动”。
“ 对 PDF 应用 OCR” 选项用于确定是否应将 OCR 流程应用于 PDF 文档。 下拉列表中提供三个选项: True、 False和 Auto。
如果设置为“True”,则 OCR 将应用于文档的所有 PDF 页面。如果设置为“False”,则仅提取数字输入的文本。默认值为“自动”,根据输入文档确定文档是否需要应用 OCR 算法。
每个 OCR 引擎都有自己的自定义选项集。请参阅 OCR 引擎,了解有关每个 OCR 引擎可用的所有选项的更多详细信息。默认的 OCR 引擎是 UiPath 文档 OCR。
- 从“文档类型”下拉列表中选择模板的文档类型。
注意:所有文档类型均基于分类。确保在项目文件夹中添加或创建分类。
- 在“模板名称”字段中添加模板的名称。选择反映文档版本或版式的相关名称。
- 在“模板文档”字段中添加文档的路径。
使用“浏览”选项导航到文件的路径。
- 从“OCR 引擎”下拉列表中选择一个 OCR,并根据需要进行配置。
- 选择“配置”以触发模板编辑。
如果您已创建模板,则可以对其进行编辑、导出或删除。仅当至少选择了一个模板时,“删除”和“导出”选项才可用。单个模板的“编辑”和“删除”选项始终可用。
Boolean
内容解释,即将捕获的值映射到“是”或“否”报告的值。
您可以导入从其他工作流创建和导出的模板。使用这些功能在项目之间共享模板。使用“表单提取程序”配置文档类型后,您无需在新实施中重新配置模板。
导出程序
以下是导出模板时需要遵循的步骤:
- 按照本页开头说明的步骤创建一个或多个模板。
- 选择要导出的模板。
- 选择“导出”选项:
- 带原始文件导出
与原始文件一起导出时,系统会将原始文件附加到导出文件中。
- 不带原始文件导出图 5. 选择“使用原始文件导出”选项的操作
- 带原始文件导出
- 使用所需名称保存模板的存档。
- 保存模板后,系统将显示一条消息。选择“确定”。
图 6.“X 个模板已成功导出”消息
备注:如果您无法共享构建模板时依据的文档内容,请使用“不带原始文件导出”选项。您仍可以在其他项目中共享和导入模板存档,但无法再编辑或查看模板存档。
在将模板导入到其他项目后,如果您希望能够再编辑该模板,请确保在导出时以及之后导入时使用“不带原始文件导出”选项。
导入程序
以下是导入模板时需要遵循的步骤:
- 选择“导入” 。
图 7.在“模板管理器”向导中选择“导入”的操作
- 选择存档。导入向导随即出现,并显示所选导出存档中的所有文档类型和所有可用模板。选择要导入的模板,然后选择所需的“导入”选项:
- 带原始文件导入
- 不带原始文件导入图 8.“模板管理器”向导中的“导入”选项
备注:- 导入模板时,将在项目的分类中自动创建文档类型。如果已经存在名称相同的文档类型,则通过将计数附加到文档类型名称来创建另一个文档类型。
- 如果要导入已导出但不包含原始文件的模板,或者您选择导入不包含原始文件的模板,则这些模板没有查看或编辑选项。
导入模板时,可能会发生几种特殊情况。以下列表说明了每种情况及其特殊性:
- 新文档类型:如果导入了新的文档类型,则会在向导配置器中添加一个新字段,通知您将创建一个新模板。
- 复制文档类型:如果导入相同的文档类型,则会显示“此模板已存在,且会被覆盖”的警告消息。
- 扩展模板:如果导入的文档类型模板包含比现有文档类型更多的字段,则会显示“此文档类型将进行如下更新:以下字段不存在,系统将创建相应字段”的警告消息。
- 扩展文档类型:如果用户导入的文档类型包含的字段比现有字段多,则会出现“此文档类型将进行如下更新:以下字段没有要导入的配置”的警告消息。
- 名称相同但内容不同的文档类型:如果用户导入的文档类型与现有文档类型名称相同但字段不同,则系统会显示以下警告消息:“此文档类型将进行如下更新”:
- “以下字段不存在,系统将创建相应字段”
- “以下字段没有要导入的配置”
- 包含缺失的表格的文档类型:如果用户导入的文档类型不包含表格,则会显示“此文档类型将进行如下更新:以下字段没有要导入的配置”的警告消息。
- 包含扩展表格的文件类型:如果用户导入的文档类型所包含的表格具有额外列,则会显示“此文档类型将进行如下更新:以下字段不存在,系统将创建相应字段”的警告消息。
- 包含不完整表格的文档类型:如果用户导入的文档类型包含列缺失的表格,则会显示“此文档将进行如下更新:以下字段没有要导入的配置”的警告消息。
- 具有不同文档类型的表格模板:如果导入的文档类型模板包含具有不同文档类型的表格,则系统将创建一个新模板。如果您的分类包含一个表格,并且该表格中的一个字段具有不同的文档类型,则会显示以下消息:“虽然 ID 为
xyz
的字段同时显示在导入分类和现有分类中,但这两种类型不兼容(两者要么均为表格,要么均不是)。”
一般注意事项
模板编辑器依托于“验证站点”的功能构建而成。要访问模板编辑器,请选择相应模板的“编辑”。
访问“验证站点”,了解“验证站点”的基本用法。
- :设置锚点选择模式;
- :清除整个锚点选择。
新建模板时,首次打开模板编辑器时会显示说明文本。如果您想再次访问这些文本,请转到右侧的“文档视图”部分,选择“更多选项”,然后选择“显示说明文本”。
表格信息可以在单元格或表格级别修改。有关如何在单元格级别和表格级别配置表格的更多信息,请访问呈现验证站点。
从模板管理器打开模板编辑器后,即可以定义锚点,并且可以在“选择模式”选项中找到锚点。
定义或编辑页面级别模板时,尽管是可选的,但首先需要选择“第 1 页匹配信息”。仅对于固定表单模板,此步骤是必需的。
“第 1 页匹配信息”选项位于屏幕左侧,需要模板第一页中的文本输入(仅接受令牌),该文本始终位于该特定模板布局中的相同位置,并形成为特定文档类型定义的所有模板中唯一的字词图表(考虑词之间的相对距离和角度)。
换句话说,“第 1 页匹配信息”(以及所有其他“页面匹配信息”字段)相当于特定页面的“指纹”,广泛用于在运行时识别正确的匹配模板。
因此,对于“第 1 页匹配信息”字段,强烈建议您在整个页面区域选择 10 至 20 个字词,最好是较长的词。
仅当您尝试从该特定页面提取数据且不再需要跨模板唯一性时,才必须填写其他“页面匹配信息”字段(每个模板页面一个字段)。如果不需要从特定页面提取任何字段,则不必定义该页面的页面级别匹配信息。
对于表格以外的所有字段,配置模板包括选择一个自定义区域并将其分配给特定字段。
对于固定表单配置,只能使用自定义区域选择来配置数据字段。
对于任何字段,您都可以使用“添加”按钮定义一个或多个此类“自定义区域”。如果为单个字段定义了两个或多个“自定义区域”,则在运行时,如果在“分类”中将该字段定义为“单一值”,则所有值都将连接到单个报告值。如果将该字段定义为“多重值”,则将分别报告每个值。
每个字段旁边的图标表示支持的选择类型:令牌或自定义区域。
如果选择了空白区域,则系统会将所选内容自动设置为“自定义区域”。如果在选定区域内检测到文本,则系统会要求您在“令牌”或“自定义区域”之间选择所需内容的类型。
使用验证站点的“选择模式”功能锁定您在“令牌”和“自定义区域”之间做出的选择。
如上所述,有些字段只能通过使用令牌(例如“页面匹配信息”字段)或通过使用自定义区域(例如“简单”字段)来添加信息。对于“表格”字段,您可以执行以下操作:
- 逐一定义每个单元格,方法是在展开表格编辑器后,分别向每个单元格添加“自定义区域”选择;
- 使用表格标记功能 - 通过标记表格区域、绘制行和列分隔符,然后将如此标记的表格分配给字段。确保提取的区域具有与模板区域相同的列数和行数。
- 选择表格字段的“更多选项”
- 选择“提取新表格”。
- 选择要提取的表格。
- 对于每个表格列上方的每个字段,选择要字段表示的列名称。
您也可以选择“提取标头”。
- 最后,选择“保存新表格”。
定义要从中提取数据的自定义区域范围的一种独特方法是使用字段级别锚点。这些锚点使您能够根据字段级别配置提取数据,从而更灵活地定义表单提取规则。
因此,表单提取程序在运行时知道如何执行以下操作:
- 确定页面级别模板是否匹配,并根据其确定为最匹配的页面级别模板提取信息;
- 确定任何基于锚点的设置是否匹配,并根据这些设置在待处理文档中的应用提取信息;
- 计算所有可能匹配项的相应置信度分数,以便报告所有可用选项的最佳结果(概率最高的匹配项)。
创建新的锚点设置
- 确保您处于“锚点选择”模式。
- 在值区域周围绘制一个方框。
- 使用以下方法之一为值区域选择标签(主锚点):
- 选择第一个单词,然后对所选内容的最后一个单词使用
Ctrl + Select
。 - 选择,拖动,然后释放以捕获词范围。
注意:标签只能包含同一视觉行中的连续词。
- 选择第一个单词,然后对所选内容的最后一个单词使用
- 选择将用于唯一标识您的标签的任何其他锚点。相同的选择原则也适用。
- 通过选择特定字段的“提取值”,将锚点结构分配给相应字段。
图 12. 为一个字段创建多个锚点的示例
注意:您还可以使用此页面之前的示例来了解如何创建模板以及定义提取区域和锚点。
编辑现有锚点设置
- 高亮显示您的锚点设置。
- 对其进行更改(根据需要删除任何锚点或标签,甚至是删除值区域,以及添加新元素等)。
- 为字段锚点选择“更多选项”,然后使用“更改提取值”选项更新字段关联。
图 13. 更改字段的提取值的示例
备注:- 如果删除目标区域,则会删除所有锚点,并且您需要重新开始。
- 如果删除标签(主锚点),则第一个锚点(按照创建顺序)将变为新标签。
删除现有锚点设置
要删除锚点设置,您可以使用以下选项之一:
- 对字段锚点选择“更多选项”,对已保存的值使用“标记为缺失”选项。
图 14. 使用“标记为缺失”选项删除锚点设置的示例
- 如果是给定字段定义的一系列锚点,则为字段锚点选择“更多选项”,然后使用“删除值”选项。
图 15. 使用“移除值”选项删除锚点设置的示例
混合和匹配配置
您可以为同一文档类型定义任意数量的模板。您可以拥有多个页面级别模板,同一个字段可以有多个锚点,模板甚至可以同时包含页面级别锚点和字段级别锚点。
- 定义字段级别锚点时,请确保标签靠近值区域,并且如果可以在同一个文档的多个位置找到相同的文本构造,则其他锚点会支持该标签。
- 标签和锚点越长,您得到的精度就越高。
- 值区域始终根据其相对于标签(主锚点)的相对位置来计算。请据此选择主锚点。
- 有了字段级别锚点,字段可以在模板内移动并仍被捕获,从而为更改文档版式提供了更大的灵活性。
表单提取程序活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南。