Clipboard AI
最新
False
数据提取程序
Clipboard AI 用户指南(公开测试版)
上次更新日期 2024年3月18日
数据提取程序
重要提示: UiPath Clipboard AI 当前处于公开测试阶段。
数据提取程序可用于从各种文档和其他来源检索相关信息。
文档类型主要分为三个类别:
- 结构化文档 - 具有固定格式且易于处理,可指导您在精确的字段中填写必填数据。这些文档旨在包含特定类型的数据。结构化文档示例:税表、调查、问卷调查等。
- 半结构化文档 - 具有固定格式和可变部分。半结构化文档没有固定格式,因为它们不像结构化文档那样绑定到指定的数据字段,但它们包含一组可预测的信息,例如,发票总是包含唯一标识符、日期或发票编号,但位置可能因提供商而异。这些文档主要包含标签: 值对,也可能包含段落。半结构化文档示例:发票、收据、采购订单、水电费账单等。
- 非结构化文档 - 未按照固定格式组织信息。这些文档主要包含纯文本,其中的大部分数据都是非结构化形式的文本。非结构化文档示例:合同、电子邮件、健康记录等。
数据提取程序可能会因从文档中提取数据的方式而异。在这方面,有两种类型的提取程序:
- 固定输出提取程序 - 经过训练,可从文档中提取一组预定义的信息;例如,发票提取程序始终会尝试提取公司名称、地址、总金额等。
- 问答提取程序 - 经过训练,可以根据给定的上下文回答问题。这些提取程序依靠自然语言理解来解析文本,确定需要从文本中提取的确切值是什么,并提供适当的答案,甚至可以从给定选项列表中选择一个选项。
现在,我们已经解释了文档布局和数据提取程序类型之间的本质区别,我们可以查看 Clipboard AI 自己的数据提取程序集:
- 特定文档提取程序
- 纯文本提取程序
- 表格和名称-值对提取程序
- 半结构化提取程序
复制数据时,系统会自动选择提取程序。每个提取程序的结果都大不相同,因此强烈建议您尝试所有提取程序,并查看哪个提取程序最适合您的文档。
要使用与自动选择的提取程序不同的提取程序,请选择映射器底部的“更改类型”按钮。系统将打开“数据提取程序”面板,您可以在其中从列表中选择另一个提取程序。选择新的提取程序后,“映射器”中的数据字段将更新,您可以比较结果。
特定文档提取程序是一组针对特定文档类型进行训练的固定输出提取程序。每种文档类型都使用其相应的 Document Understanding 机器学习模型提取,如下所示:
- 发票
- 护照
- 收据
- 身份证
- W-2 表单
- 水电费账单
- 采购订单
- 网页/桌面表单
自动识别的文档类型将高亮显示并标有星标。对于除列出的文档类型外的任何其他文档类型,请使用其他提取程序之一。
纯文本提取程序是一个问答提取程序,它使用 GPT3 从纯文本文档、网页、电子邮件等对象中检索数据。可以将该提取程序用于半结构化文档以处理可变部分,也可用于布局不相关的非结构化文档。
此提取程序支持语义理解,除了问答之外,它还具有其他高级功能,例如摘要、机器翻译、文档类型分类和情感检测。