- 入门指南
- 框架组件
- ML 包
- 管道
- Data Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 深度学习
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding 用户指南
智能表单提取程序
您需要使用 Automation Cloud Document Understanding API 密钥,或在 AI Center 内部部署版内托管自己的智能表单提取程序实例,才能使用此提取程序。
“智能表单提取程序”有两个主要配置需要考虑:
- 模板管理器向导 - 可用于定义要应用于传入文档的模板。此向导将启用“模板编辑器”和“布尔值字段解释”设置。
- “最低重叠百分比”设置 - 此设置可用于控制值区域匹配的严格程度。它接受
0
到100
之间的值,并且会根据字词的位置与模板中所定义区域的匹配程度,控制接受或拒绝哪些字词成为给定值的一部分。
允许您为分类中定义的文档类型创建、编辑、管理和导出/导入模板。
创建模板
- 在“数据提取作用域”内,向工作流添加“智能表单提取程序”活动。
- 通过单击“管理模板”按钮来配置提取程序。
- 系统将打开“模板管理器”窗口。
- 系统将打开“模板管理器”窗口。
- 单击“创建模板”按钮以创建新模板。
- 从“文档类型”下拉列表中选择模板的文档类型。
注意:所有文档类型均基于分类。确保在项目文件夹中添加或创建分类。
- 在“模板名称”字段中添加模板的名称。选择反映文档版本或版式的相关名称。
- 在“模板文档”字段中添加文档的路径。
- 使用“浏览”按钮导航到文件的路径。
- 从“OCR 引擎”下拉列表中选择一个 OCR,并根据需要进行配置。
- 单击“配置”按钮以触发模板编辑。
仅在必要时应用 OCR 引擎。如果选择用于构建模板的文档是原生 PDF,则不会执行任何 OCR 引擎,除非选中“强制应用 OCR”选项。如果选中此选项,则甚至在原生 PDF 文件上仍然会应用 OCR。
每个 OCR 引擎都有自己的自定义选项集。您可以在此处找到有关每个 OCR 引擎可用的所有选项的更多详细信息。
如果您已创建模板,则可以对其进行编辑、导出或删除。
仅当至少选择了一个模板时,“删除”和“导出”按钮才可用。单个模板的“编辑”和“删除”选项始终可用。
配置布尔值字段处理
对于包含复选框的文档,您可以为“是”和“否”选项添加已知同义词,也可以从我们编制的列表开始(请参阅添加建议的值建议)。这些值用于布尔值内容解释,即将捕获的值映射到“是”或“否”报告的值。
导出和导入模板
您可以导入从其他工作流创建和导出的模板。使用这些功能在项目之间共享模板。使用“智能表单提取程序”配置文档类型后,您无需在新实施中重新配置模板。
导出程序
以下是导出模板时需要遵循的步骤:
- 按照本页开头说明的步骤创建一个或多个模板。
- 选择要导出的模板。
- 选择“导出”选项(有或没有原始文件),如下面的屏幕截图所示。与原始文件一起导出时,系统会将原始文件附加到导出文件中。
- 使用所需名称保存模板的存档。
- 保存模板后,系统将显示一条消息。选择“确定”按钮。
备注:
如果您无法共享据以构建模板的文档内容,请使用“不包含原始文件”选项。您仍可以在其他项目中共享和导入模板档案,但无法再编辑或查看模板档案。
在将模板导入到其他项目后,如果您希望能够再编辑该模板,请确保在导出时以及之后导入时使用“包含原始文件”选项。
导入程序
以下是导入模板时需要遵循的步骤:
- 选择“导入”按钮。
- 选择存档。导入向导随即出现,并显示所选导出存档中的所有文档类型和所有可用模板。选择要导入的模板,然后选择正确的“导入”选项(带或不带原始文件)。
备注:
- 导入模板时,将在项目的分类中自动创建文档类型。如果已经存在名称相同的文档类型,则通过将计数附加到文档类型名称来创建另一个文档类型。
- 如果要导入已导出但不包含原始文件的模板,或者您选择导入不包含原始文件的模板,则这些模板没有查看或编辑选项。
导入模板时的特殊情况
导入模板时,可能会发生几种特殊情况。下表说明了每种情况及其特殊性:
导入类型 |
活动行为 |
---|---|
新的文档类型 |
如果导入了新的文档类型,则会在向导配置器中添加一个新字段,通知您将创建一个新模板。 |
重复的文档类型 |
如果导入相同的文档类型,则会出现以下警告消息:
|
扩展模板 |
如果导入的文档类型模板包含比现有字段更多的字段,则会显示以下警告消息:
|
扩展文档类型 |
如果用户导入的文档类型包含比现有字段更多的字段,则会显示以下警告消息:
|
名称相同但内容不同的文档类型 |
如果用户导入的文档类型与现有文档类型同名,但字段不同,则会显示以下警告消息:
|
缺少表格的文档类型 |
如果用户导入的文档类型不包含表格,则会显示以下警告消息:
|
包含扩展表格的文档类型 |
如果用户导入的文档类型包含具有额外列的表格,则会显示以下警告消息:
|
包含简化表格的文档类型 |
如果用户导入的文档类型包含缺少列的表格,则会显示以下警告消息:
|
具有不同文档类型的表格模板 |
如果用户导入的文档类型模板包含具有不同文档类型的表格,则将创建一个新模板。 如果您的分类包含一个表格,并且该表格中的一个字段具有不同的文档类型,则会显示以下消息:
|
一般注意事项
模板编辑器依托于“验证站点”的功能构建而成。通过单击模板的 按钮加以访问。
要了解“验证站点”的基本用法,请阅读本节。
除了在验证站点屏幕右侧提供的选项之外,还有两个特定于模板编辑器的选项:
选项 |
描述 |
---|---|
|
设置锚点选择模式 |
|
清除整个锚点选择 |
新建模板时,首次打开模板编辑器时会显示说明文本。如果要再次访问这些文本,请执行以下步骤:
配置锚点
从模板管理器打开模板编辑器后,即可以定义锚点,并且可以在“选择模式”选项中找到锚点。
定义或编辑页面级别模板时,尽管是可选的,但首先需要选择“第 1 页匹配信息”。仅对于固定表单模板,此步骤是必需的。
“第 1 页匹配信息”选项位于屏幕左侧,需要模板第一页中的文本输入(仅接受令牌),该文本始终位于该特定模板布局中的相同位置,并形成为特定文档类型定义的所有模板中唯一的字词图表(考虑词之间的相对距离和角度)。
换句话说,“第 1 页匹配信息”(以及所有其他“页面匹配信息”字段)相当于特定页面的“指纹”,广泛用于在运行时识别正确的匹配模板。
因此,对于“第 1 页匹配信息”字段,强烈建议您在整个页面区域选择 10 至 20 个字词,最好是较长的词。
仅当您尝试从该特定页面提取数据且不再需要跨模板唯一性时,才必须填写其他“页面匹配信息”字段(每个模板页面一个字段)。如果不需要从特定页面提取任何字段,则不必定义该页面的页面级别匹配信息。
配置简单字段
对于表格以外的所有字段,配置模板包括选择一个自定义区域并将其分配给特定字段。
对于固定表单配置,只能使用自定义区域选择来配置数据字段。
对于任何字段,您都可以使用 (+) 按钮定义一个或多个此类“自定义区域”。如果为单个字段定义了两个或多个“自定义区域”,则在运行时,如果在“分类”中将该字段定义为“单一值”,则所有值都将连接到单个报告值。如果将该字段定义为“多重值”,则将分别报告每个值。
下方动画图表明选择令牌或自定义区域时的区别:
每个字段旁边的图标表示支持的选择类型:
如果选择了空白区域,则系统会将所选内容自动设置为“自定义区域”。如果在选定区域内检测到文本,则系统会要求您在“令牌”或“自定义区域”之间选择所需内容的类型。
使用验证站点的“选择模式”功能锁定您在“令牌”和“自定义区域”之间做出的选择。
配置表格
如上所述,有些字段只能通过使用令牌(例如“页面匹配信息”字段)或通过使用自定义区域(例如“简单”字段)来添加信息。对于“表格”字段,您可以执行以下操作:
- 展开表格编辑器后,逐一定义每个单元格 - 通过分别向每个单元格添加自定义区域选择,或
- 使用表格标记功能 - 通过标记表格区域、绘制行和列分隔符,然后将如此标记的表格分配给字段。确保提取的区域具有与模板区域相同的列数和行数。
请查看下方的动画,了解如何使用表格标记功能:
定义要从中提取数据的自定义区域范围的一种独特方法是使用字段级别锚点。这些锚点使您能够根据字段级别配置提取数据,从而更灵活地定义表单提取规则。
因此,智能表单提取程序在运行时知道如何执行以下操作:
- 确定页面级别模板是否匹配,并根据其确定为最匹配的页面级别模板提取信息;
- 确定任何基于锚点的设置是否匹配,并根据这些设置在待处理文档中的应用提取信息;
- 计算所有可能匹配项的相应置信度分数,以便报告所有可用选项的最佳结果(概率最高的匹配项)。
创建新的锚点设置
- 确保您处于“锚点选择”模式。
- 在值区域周围绘制一个方框。
- 通过单击第一个词,然后按住 Ctrl 键并单击所选内容的最后一个词,或单击并拖动,然后松开以捕获一个词范围,为值区域选择标签(主锚点)。
注意:标签只能包含同一视觉行中的连续词。
- 选择将用于唯一标识您的标签的任何其他锚点。相同的选择原则也适用。
- 通过选择特定字段的“提取值”,将锚点结构分配给相应字段。
注意:您还可以使用此处的示例来了解如何创建模板以及定义提取区域和锚点。
编辑现有锚点设置
- 高亮显示您的锚点设置。
- 对其进行更改(根据需要删除任何锚点或标签,甚至是删除值区域,以及添加新元素等)。
- 使用“更改提取值”选项更新字段关联。
备注:- 如果删除目标区域,则会删除所有锚点,并且您需要重新开始。
- 如果删除标签(主锚点),则第一个锚点(按照创建顺序)将变为新标签。
删除现有锚点设置
要删除锚点设置,您可以:
- 对于已保存的值,使用“标记为缺少”选项
- 对于为给定字段定义的锚点列表,使用“删除值”
混合和匹配配置
您可以为同一文档类型定义任意数量的模板。您可以拥有多个页面级别模板,同一个字段可以有多个锚点,模板甚至可以同时包含页面级别锚点和字段级别锚点。
- 定义字段级别锚点时,请确保标签靠近值区域,并且如果可以在同一个文档的多个位置找到相同的文本构造,则其他锚点会支持该标签。
- 标签和锚点越长,得到的精度就越高。
- 值区域始终根据其相对于标签(主锚点)的相对位置来计算。请据此选择主锚点。
- 有了字段级别锚点,字段可以在模板内移动并仍被捕获,从而为更改文档版式提供了更大的灵活性。