- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款平交披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可
- 如何
- 故障排除

Document Understanding 新式项目用户指南
要自动化文档处理,需要四项基本功能:数字化、分类、提取和验证。
数字化将物理文档转换为机器可读文本,然后可以对文本进行数字化处理。尽管光学字符识别 (OCR) 是数字化的重要组成部分,但数字化流程更加复杂,涉及各个步骤,包括 OCR。
例如,在处理 PDF 文档时,数字化算法可以区分扫描 PDF 和原生 PDF,或者包含扫描图像和原生文本的混合 PDF。大多数文本可以直接从原生 PDF 文档中提取,但在某些情况下,可能需要使用 OCR 读取一些徽标。数字化流程可以处理所有这些情况,以确保文本检测具有最高的准确性,同时快速高效地运行。
You can change the OCR used in your project from Project settings. For more information, check the Configure project settings page. You can check the available OCR engines and the supported languages from the Supported languages section of the user guide.
You can check the Known limitations page for more information on the supported files, image size limits, and more specifications.
- 拆分
- 分类
拆分的目的是扫描文档的连续页面,并将其拆分为逻辑子文档。文档拆分器算法可以与文档类型无关,这意味着它可以拆分任何文档,无论它是发票、合同还是申请表单。
分类的目的是扫描文档并确定其所属的文档类型。了解文档的类型非常重要,因为不同的文档类型需要不同的处理技术。例如,发票需要由发票提取模型处理,以确保提取所有相关字段。
数据提取是指从文档中仅选择和检索相关信息的过程。使用字符串操作从长文档中提取特定数据可能具有挑战性。但是,Document UnderstandingTM 为不同的文档类型和格式提供了各种提取方法。例如,我们只想从发票中提取“供应商名称”、“账单名称”、“到期日期”和“总计”字段。