- 概述
- 入门指南
- 构建模型
- 使用模型
- ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 公共端点
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可
- 如何
基本功能
要自动化文档处理,需要四项基本功能:数字化、分类、提取和验证。
数字化将物理文档转换为机器可读文本,然后可以对文本进行数字化处理。尽管光学字符识别 (OCR) 是数字化的重要组成部分,但数字化流程更加复杂,涉及各个步骤,包括 OCR。
例如,在处理 PDF 文档时,数字化算法可以区分扫描 PDF 和原生 PDF,或者包含扫描图像和原生文本的混合 PDF。大多数文本可以直接从原生 PDF 文档中提取,但在某些情况下,可能需要使用 OCR 读取一些徽标。数字化流程可以处理所有这些情况,以确保文本检测具有最高的准确性,同时快速高效地运行。
- 拆分
- 分类
拆分的目的是扫描文档的连续页面,并将其拆分为逻辑子文档。文档拆分器算法可以与文档类型无关,这意味着它可以拆分任何文档,无论它是发票、合同还是申请表单。
分类的目的是扫描文档并确定其所属的文档类型。了解文档的类型非常重要,因为不同的文档类型需要不同的处理技术。例如,发票需要由发票提取模型处理,以确保提取所有相关字段。
Data extraction is the process of selecting and retrieving only the relevant information from a document. Extracting specific data from a lengthy document using string manipulation can be challenging. However, Document UnderstandingTM provides various extraction methodologies for different document types and formats. For example, we only want to extract the Vendor Name, Billing Name, Due Date, and Total fields from an invoice.