document-understanding
2024.10
true
- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 许可和计费逻辑
- 如何
- 故障排除
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 新式项目用户指南
上次更新日期 2025年6月27日
文档类型指的是对文档逻辑类型的定义,不同的业务流程必须对其进行处理。
文档类型包括发票、医疗记录、IRS W-2 表、合同等。除了名称、组和类别外,文档类型通常还包含字段集合。
例如,发票通常包含以下信息:
- 供应商名称、供应商地址、账单名称、账单邮寄地址
- 发票编号、采购订单编号、付款条款、到期日期
- 净额、税额、折扣、总金额
- 增值税号、增值税税率
- 银行账号、银行名称、SWIFT、IBAN
图 1. 发票示例
文档类型可以根据其格式进行分类。部分文档类型包含高度结构化的内容,而其他文档类型则主要包含自由文本。
文档分为三种主要格式:
- Structured
- 半结构化
- 非结构化
注意:文档通常可以是这三个类别的组合。文件可以包含结构化标题,后跟非结构化的自由格式内容。其中还可以包含具有特定信息的非结构化内容,这些信息始终显示在结构化程度很高或重复的上下文中。
结构化文档
结构化文档包括:
- 调查
- 调查问卷
- 税表
- 护照
- 许可证
- 时间表
这些文档旨在以特定格式收集信息。它们通常包含键值对、表格、手写文本、签名和复选框。这些文档通过提供输入每项数据的精确区域来指导用户。此类文档通常称为表单,用于收集低多样性数据。
图 2. 驾驶证,结构化文档示例
半结构化文档
半结构化文档不遵循严格格式(如结构化表单),并且不绑定到指定的数据字段。这些活动没有固定的形式,但遵循足够通用的格式。它们包含固定部分和可变部分,例如表格。它们也可能包含段落,但主要在键值对中找到相关数据。半结构化文档包括:
- 发票
- 收据
- 订单
- 医疗保健实验室报告
- 银行对账单
- 水电费
图 3. 发票,半结构化文档示例
非结构化文档
非结构化文档是不遵循特定或组织模型的文件。它们没有固定格式,并且其中包含的信息通常以非结构化方式呈现,使机器人难以处理。虽然人类可以轻松理解这些文档,但对于机器来说,解读这些数据可能具有挑战性。非结构化文档可以采用多种形式,包括:
- 合同
- 租约
- 年度报告
- 协议
- 新闻文章
图 4. 许可协议,非结构化文档示例