document-understanding
2022.4
false
- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 管道
- Data Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding 用户指南
表单提取程序
表单提取程序最适合通过分析单词在文档中的位置或检测签名来提取、匹配和报告特定信息。
表单提取程序依赖于在设计阶段预先定义的模板。一组复杂的规则将配置的模板应用于待处理的传入文档,从而识别和报告预期信息。
该活动附带一个配置向导,该向导可帮助您为要提取数据的目标文档类型和字段定义正则表达式。
该活动支持简单字段和表格字段提取,并且如前所述,可以检测签名字段。
建议使用其他提取方法,以防:
- 有很多需要处理的布局
-
文档不仅会倾斜、旋转或呈现不同大小,还会出现“弯曲”(在某些区域弯曲)。
备注:对于固定表单提取,要评估两个文件的布局是否相同,请尝试在具有一定透明度的工具中将它们重叠,以查看所有非可变内容是否重叠(在反旋转、偏斜校正和将两个图像缩放到相同的比例后)。
如果您发现变化(非可变内容更靠近文档某些区域的左侧/右侧/顶部/底部),则认为布局不相同。
表单提取程序允许您为同一文档类型定义多个模板,并在运行时执行以下操作:
- 识别传入文档和文档类型的最佳匹配模板
- 将基于页面级别锚点的模板匹配算法应用于需要从中提取数据的每个页面(不支持缺失或重复的页面)
- 将所有字段级锚点设置应用到每个页面,以捕获与任何潜在匹配项相关联的值
- 报告在目标值区域中发现的信息。
根据用例不同,它还允许用户配置“Yes”或“No”值的“同义词”,支持微调复选框/布尔值字段处理。
此提取程序不具有学习(训练)功能,需要进行配置。
“表单提取程序”有两个主要配置需要考虑:
- 模板管理器向导 - 可用于定义要应用于传入文档的模板。此向导将启用“模板编辑器”和“布尔值字段解释”设置。
- “最低重叠百分比”设置 - 此设置可用于控制值区域匹配的严格程度。它接受
0
到100
之间的值,并且会根据字词的位置与模板中所定义区域的匹配程度,控制接受或拒绝哪些字词成为给定值的一部分。
有关使用“表单提取程序”活动向导的更多信息,请参见此处。