- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
Document Understanding 用户指南
表单提取程序
表单提取程序是一种提取方法,最适合需要处理非变量格式文档并从中提取数据的用例。换句话说,如果您的文档在文档布局方面几乎没有变化,那么表单提取程序会是一个很好的选择。
表单提取程序依赖于在设计阶段预先定义的模板。一组复杂的规则将配置的模板应用于待处理的传入文档,从而识别和报告预期信息。
您可以使用此活动进行手写识别和手写数据提取或签名检测。这些功能使“表单提取程序”非常适合处理打印或手写的表单,或者检查表单是否已签名。
该活动附带一个配置向导,该向导可帮助您为要提取数据的目标文档类型和字段定义正则表达式。
该活动支持简单字段提取和表格字段提取。
建议使用其他提取方法,以防:
- 有很多需要处理的布局
- 文档不仅会倾斜、旋转或呈现不同大小,还会出现“弯曲”(在某些区域弯曲)。
备注:
对于固定表单提取,要评估两个文件的布局是否相同,请尝试在具有一定透明度的工具中将它们重叠,以查看所有非可变内容是否重叠(在反旋转、偏斜校正和将两个图像缩放到相同的比例后)。
如果您发现变化(非可变内容更靠近文档某些区域的左侧/右侧/顶部/底部),则认为布局不相同。
表单提取程序允许您为同一文档类型定义多个模板,并在运行时执行以下操作:
- 识别传入文档和文档类型的最佳匹配模板
- 将基于页面级别锚点的模板匹配算法应用于需要从中提取数据的每个页面(不支持缺失或重复的页面)
- 将所有字段级锚点设置应用到每个页面,以捕获与任何潜在匹配项相关联的值
- 报告在目标值区域中发现的信息。
根据用例不同,它还允许用户配置“Yes”或“No”值的“同义词”,支持微调复选框/布尔值字段处理。
此提取程序不具有学习(训练)功能,需要进行配置。
您需要使用 Automation Cloud Document Understanding API 密钥,或在 AI Center 内部部署版内托管自己的表单提取程序实例,才能使用此提取程序。
模板编辑器中现在提供锚点功能,允许您为固定文档类型中的简单字段定义基于锚点的规则,以进行数据提取。请参阅此处,了解有关使用和配置锚点的更多信息。