clipboard-ai
latest
false
  • 入门指南
    • 简介
    • Clipboard AI 工具栏
    • 关于本指南
  • 设置和配置
  • 数据映射
    • 数据映射器
    • 转换
  • 数据隐私
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
UiPath logo, featuring letters U and I in white
Clipboard AI 用户指南
Last updated 2024年10月21日

数据提取程序

数据提取程序可用于从各种文档和其他来源检索相关信息。

文档类型主要分为三个类别:

  • 结构化文档 - 具有固定格式且易于处理,可指导您在精确的字段中填写必填数据。这些文档旨在包含特定类型的数据。结构化文档示例:税表、调查、问卷调查等。
  • 半结构化文档 - 具有固定格式和可变部分。半结构化文档没有固定格式,因为它们不像结构化文档那样绑定到指定的数据字段,但它们包含一组可预测的信息,例如,发票总是包含唯一标识符、日期或发票编号,但位置可能因提供商而异。这些文档主要包含标签: 值对,也可能包含段落。半结构化文档示例:发票、收据、采购订单、水电费账单等。
  • 非结构化文档 - 未按照固定格式组织信息。这些文档主要包含纯文本,其中的大部分数据都是非结构化形式的文本。非结构化文档示例:合同、电子邮件、健康记录等。

数据提取程序可能会因从文档中提取数据的方式而异。在这方面,有两种类型的提取程序:

  • 固定输出提取程序 - 经过训练,可从文档中提取一组预定义的信息;例如,发票提取程序始终会尝试提取公司名称、地址、总金额等。
  • 问答提取程序- 经过训练,可以根据给定的上下文回答问题。 这些提取程序依靠自然语言理解来解析文本,确定需要从文本中提取的确切值是什么,并提供适当的答案,甚至可以从给定选项列表中选择一个选项。

Clipboard AI使用以下数据提取程序集:

  • 通用提取程序

  • 特定文档提取程序
  • 纯文本提取程序
  • 表格和名称-值对提取程序

通用提取程序

通用提取程序是从文档中提取数据的默认选项。 它会扫描您的数据(纯文本或表格),并确定提取数据的最佳解决方案。 它还结合使用现有提取程序,并且还允许通过查询在数据中查找最佳匹配项。

特定文档提取程序

特定文档提取程序是一组针对特定文档类型进行训练的固定输出提取程序。 每种文档类型都使用其相应的 Document Understanding 机器学习模型提取,如下所示:

  • 发票
  • 护照
  • 收据
  • 身份证
  • W-2 表单
  • 水电费账单
  • 采购订单
  • 网页/桌面表单

您可以根据文档类型选择首选的 Document Understanding 模型。

纯文本提取程序

纯文本提取程序是一个问答提取程序,它使用 GPT3 从纯文本文档、网页、电子邮件等对象中检索数据。可以将该提取程序用于半结构化文档以处理可变部分,也可用于布局不相关的非结构化文档。

此提取程序支持语义理解,除了问答之外,它还具有其他高级功能,例如摘要、机器翻译、文档类型分类和情感检测。

表格和名称-值对提取程序

表格和名称-值对提取程序是一个固定输出提取程序,最适合包含表格和名称:值对的文档。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。