document-understanding
latest
false
UiPath logo, featuring letters U and I in white

Document Understanding 新式项目用户指南

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
上次更新日期 2024年12月12日

文档类型

文档类型指的是对文档逻辑类型的定义,不同的业务流程必须对其进行处理。

什么是文档类型?它可以包含什么?

文档类型包括发票、医疗记录、IRS W-2 表、合同等。除了名称、组和类别外,文档类型通常还包含字段集合。

例如,发票通常包含以下信息:
  • 供应商名称、供应商地址、账单名称、账单邮寄地址
  • 发票编号、采购订单编号、付款条款、到期日期
  • 净额、税额、折扣、总金额
  • 增值税号、增值税税率
  • 银行账号、银行名称、SWIFT、IBAN
图 1. 发票示例

文档类型格式

文档类型可以根据其格式进行分类。部分文档类型包含高度结构化的内容,而其他文档类型则主要包含自由文本。

文档分为三种主要格式:
  • Structured
  • 半结构化
  • 非结构化
注意:文档通常可以是这三个类别的组合。文件可以包含结构化标题,后跟非结构化的自由格式内容。其中还可以包含具有特定信息的非结构化内容,这些信息始终显示在结构化程度很高或重复的上下文中。

结构化文档

结构化文档包括:
  • 调查
  • 调查问卷
  • 税表
  • 护照
  • 许可证
  • 时间表

这些文档旨在以特定格式收集信息。它们通常包含键值对、表格、手写文本、签名和复选框。这些文档通过提供输入每项数据的精确区域来指导用户。此类文档通常称为表单,用于收集低多样性数据。

图 2. 驾驶证,结构化文档示例 驾驶证示例,其中包含姓名、地址、出生日期、序列号等信息。

半结构化文档

半结构化文档不遵循严格格式(如结构化表单),并且不绑定到指定的数据字段。这些活动没有固定的形式,但遵循足够通用的格式。它们包含固定部分和可变部分,例如表格。它们也可能包含段落,但主要在键值对中找到相关数据。半结构化文档包括:
  • 发票
  • 收据
  • 订单
  • 医疗保健实验室报告
  • 银行对账单
  • 水电费
图 3. 发票,半结构化文档示例 包含账单地址、收货地址、发票编号、发票日期、单价、总价或签名等信息的发票示例。

非结构化文档

非结构化文档是不遵循特定或组织模型的文件。它们没有固定格式,并且其中包含的信息通常以非结构化方式呈现,使机器人难以处理。虽然人类可以轻松理解这些文档,但对于机器来说,解读这些数据可能具有挑战性。非结构化文档可以采用多种形式,包括:
  • 合同
  • 租约
  • 年度报告
  • 协议
  • 新闻文章
图 4. 许可协议,非结构化文档示例 许可协议文档示例,非结构化文档。
  • 什么是文档类型?它可以包含什么?
  • 文档类型格式
  • 结构化文档
  • 半结构化文档
  • 非结构化文档

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。