- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
Document Understanding 用户指南
表单提取程序
表单提取程序是一种提取方法,最适合需要处理非变量格式文档并从中提取数据的用例。换句话说,如果您的文档在文档布局方面几乎没有变化,那么表单提取程序会是一个很好的选择。
表单提取程序依赖于在设计阶段预先定义的模板,并且会应用一组复杂的规则,将配置的模板应用于待处理的传入文档,从而识别和报告预期信息。
该活动附带一个配置向导,该向导可帮助您为要以此种方式提取数据的目标文档类型和字段定义正则表达式。
该活动支持简单字段提取和表格字段提取。
建议使用其他提取方法,以防:
- 有很多需要处理的布局
- 文档不仅会倾斜、旋转或呈现不同大小,还会出现“弯曲”(在某些区域弯曲)。
备注:
对于固定表单提取,要评估两个文件的布局是否相同,请尝试在具有一定透明度的工具中将它们重叠,以查看所有非可变内容是否重叠(在反旋转、偏斜校正和将两个图像缩放到相同的比例后)。
如果您发现变化(非可变内容更靠近文档某些区域的左侧/右侧/顶部/底部),则认为布局不相同。
表单提取程序允许您为同一文档类型定义多个模板,并在运行时执行以下操作:
- 识别传入文档和文档类型的最佳匹配模板
- 将基于页面级别锚点的模板匹配算法应用于需要从中提取数据的每个页面(不支持缺失或重复的页面)
- 报告在目标值区域中发现的信息。
根据用例,它还支持微调复选框/布尔值字段处理,允许用户配置“Yes”或“No”值的“同义词”。
此提取程序没有学习(训练)功能,需要预先配置。
您需要使用 Automation Cloud Document Understanding API 密钥,或在 AI Center 内部部署版内托管自己的表单提取程序实例,才能使用此提取程序。
“表单提取程序”有两个主要配置需要考虑:
- 模板管理器向导 - 可用于定义要应用于传入文档的模板。此向导还提供“模板编辑器”向导以及布尔值字段解释设置。
- “最低重叠百分比”设置 - 此设置可用于控制值区域匹配的严格程度。它接受 0 到 100 之间的值,并且会根据字词的位置与模板中所定义区域的匹配程度,控制接受或拒绝哪些字词成为给定值的一部分。
此向导允许您为分类中定义的文档类型创建、编辑、管理和导出/导入模板。
创建模板
- 在“数据提取作用域”内,向工作流添加“表单提取程序”活动。
- 通过单击“管理模板”按钮来配置提取程序。
- 系统将打开“模板管理器”窗口。
- 系统将打开“模板管理器”窗口。
- 单击“创建模板”按钮以创建新模板。
- 从“文档类型”下拉列表中选择要为其定义模板的文档类型。
注意:所有文档类型均基于分类。确保在项目文件夹中添加或创建分类。
- 在“模板名称”字段中添加模板的名称。确保这是一个相关的名称,表明您正在通过它捕获和配置的文档版本或版式。
- 在“模板文档”字段中添加文档的路径。
- 使用“浏览”按钮导航到文件的路径。
- 从“OCR 引擎”下拉列表中选择一个 OCR,并根据需要进行配置。
- 单击“配置”按钮以触发模板编辑。
仅在必要时应用 OCR 引擎。如果选择用于构建模板的文档是原生 PDF,则不会执行任何 OCR 引擎。
每个 OCR 引擎都有自己的自定义选项集。您可以在此处找到有关每个 OCR 引擎可用的所有选项的更多详细信息。
如果您已创建模板,则可以对其进行编辑、导出或删除。
仅当至少选择了一个模板时,“删除”和“导出”按钮才可用。单个模板的“编辑”和“删除”选项始终可用。
配置布尔值字段处理
Yes
或 No
报告的值。
导出和导入模板
您可以导入从其他工作流创建和导出的模板。使用这些功能在项目之间共享模板,以便在使用表单提取程序配置文档类型后,无需在新的实现中重新配置模板。
导出程序
以下是导出模板时需要遵循的步骤:
- 按照本页开头说明的步骤创建一个或多个模板。
- 选择要导出的模板。
- 选择“导出”选项(有或没有原始文件),如下面的屏幕截图所示。与原始文件一起导出时,系统会将原始文件附加到导出文件中。第二个选项不会附加用于创建模板的文件。
- 使用所需名称保存模板的存档。
- 保存模板后,系统将显示一条消息。选择“确定”按钮。
备注:如果您无法共享据以构建模板的文档内容,请使用“不包含原始文件”选项。您仍可以在其他项目中共享和导入模板档案,但无法再编辑或查看模板档案。
在将模板导入到其他项目后,如果您希望能够再编辑该模板,请确保在导出时以及之后导入时使用“包含原始文件”选项。
导入程序
以下是导入模板时需要遵循的步骤:
- 选择“导入”按钮。
- 选择存档。导入向导随即出现,并显示所选导出存档中的所有文档类型和所有可用模板。选择要导入的模板,然后选择正确的“导入”选项(带或不带原始文件)。
备注:- 导入模板时,将在项目的分类中自动创建文档类型。如果已经存在名称相同的文档类型,则通过将计数附加到文档类型名称来创建另一个文档类型。
- 如果要导入已导出但不包含原始文件的模板,或者您选择导入不包含原始文件的模板,则这些模板没有查看或编辑选项。
导入模板时的特殊情况
导入模板时,可能会发生几种特殊情况。下表说明了每种情况及其特殊性:
导入类型 |
活动行为 |
---|---|
新的文档类型 |
如果导入了新的文档类型,则会在向导配置器中添加一个新字段,通知您将创建一个新模板。 |
重复的文档类型 |
如果导入相同的文档类型,则会出现以下警告消息:
|
扩展模板 |
如果导入的文档类型模板包含比现有字段更多的字段,则会显示以下警告消息:
|
扩展文档类型 |
如果用户导入的文档类型包含比现有字段更多的字段,则会显示以下警告消息:
|
名称相同但内容不同的文档类型 |
如果用户导入的文档类型与现有文档类型同名,但字段不同,则会显示以下警告消息:
|
缺少表格的文档类型 |
如果用户导入的文档类型不包含表格,则会显示以下警告消息:
|
包含扩展表格的文档类型 |
如果用户导入的文档类型包含具有额外列的表格,则会显示以下警告消息:
|
包含简化表格的文档类型 |
如果用户导入的文档类型包含缺少列的表格,则会显示以下警告消息:
|
具有不同文档类型的表格模板 |
如果用户导入的文档类型模板包含具有不同文档类型的表格,则将创建一个新模板。 如果您的分类包含一个表格,并且该表格中的一个字段具有不同的文档类型,则会显示以下消息:
|
配置页面级锚点
定义或编辑模板时,首先需要选择“第 1 页匹配信息”,以便定义固定表单模板。
此字段作为第一个字段显示在屏幕左侧,需要使用模板第一页中的词语(仅接受令牌)进行配置,这些词语在该特定模板布局中始终处于相同位置,即为特定文档类型定义的所有模板中唯一的字词图表(考虑字词之间的相对距离和角度)。换句话说,“第 1 页匹配信息”(以及所有其他“页面匹配信息”字段)相当于特定页面的“指纹”,广泛用于在运行时识别正确的匹配模板。
因此,对于“第 1 页匹配信息”字段,强烈建议您在整个页面区域选择 10 至 20 个词(最好是较长的词),这将在针对该文档类型定义的所有模板中形成唯一模式。
仅当您尝试从该特定页面提取数据且不再需要跨模板唯一性时,才必须填写其他“页面匹配信息”字段(每个模板页面一个字段)。如果不需要从特定页面提取任何字段,则不必定义该页面的页面级别匹配信息。
配置简单字段
对于表格以外的所有字段,配置模板包括选择一个自定义区域并将其分配给特定字段。
对于固定表单配置,只能使用“自定义区域”选择来配置数据字段。
对于任何字段,您都可以使用 (+) 按钮定义一个或多个此类自定义区域。如果为单个字段定义两个或两个以上的自定义区域,则在运行时,如果在“分类”中将该字段定义为“单一值”,则所有自定义区域中的所有值都将连接到单个报告值。另一方面,如果将该字段定义为“多重值”,则将分别报告每个自定义区域中的每个值。
下方动画图表明选择令牌或自定义区域时的区别:
您还可以通过验证每个字段旁边的图标,找出每个字段可接受的选择类型,如以下动画所示:
如果选择了空白区域,则系统会将所选内容自动设置为“自定义区域”。如果在选定区域内检测到文本,则系统会要求您在“令牌”或“自定义区域”之间选择所需内容的类型。
使用验证站点的“选择模式”功能锁定您在“令牌”和“自定义区域”之间做的选择。
配置表格
如上所述,有些字段只能通过使用令牌(例如“页面匹配信息”字段)或通过使用自定义区域(例如“简单”字段)来添加信息。对于“表格”字段,您可以
- 展开表格编辑器后,逐一定义每个单元格 - 通过分别向每个单元格添加自定义区域选择,或
- 使用表格标记功能 - 通过标记表格区域、绘制行和列分隔符,然后将如此标记的表格分配给字段。
请查看下方的动画,了解如何使用表格标记功能: