communications-mining
latest
false
重要 :
请注意,此内容已使用机器翻译进行了本地化。
UiPath logo, featuring letters U and I in white
Communications Mining 用户指南
Last updated 2024年11月7日

关于设置提取字段的概述

注意:设置标签并确定要自动化的流程。 考虑到它们的优点,通过以下其中一种方式设置提取。 在此阶段,决定需要提取哪些数据点以促进端到端自动化非常重要。​

“探索”页面

  • 在模型训练过程中的任何时候,您都可以设置新的提取,修改架构,或在“探索”中的现有架构中添加任何其他字段。
  • 通过在“探索”中设置提取,您可以:
    • 字段基于消息中的数据。
    • 将您看到的新字段添加到提取中。

设置页面

  • 在模型训练流程中的任何时候,您都可以在 “设置”中设置新的提取、修改架构或向现有架构添加任何其他字段。
  • 如果您知道要预先提取哪些字段,请在“设置” 中批量设置提取。

训练页面

如果您通过“训练”选项卡训练模型,则可以设置任何新的提取。 在体验引导式训练时,您还可以同时注释标签和字段提取。

一般指导原则

注意:平台的 LLM 生成功能将创建提取。 预测基于经过训练的标签字段名称
  • 要设置提取,请设置需要名称和字段类型的字段。 建议在最低子级别标签中执行此操作。​
  • 保持描述性且简洁。 选择能够准确描述其所代表数据的字段名称。 在简洁和清晰之间取得平衡。 为您的字段提供准确描述性名称,因为它为模型提供了有关字段角色的必要上下文
  • 例如,对于地址更改,如果您只想提取新地址,则将字段配置为以下名称会很有帮助:新街道地址、新市镇、新邮政编码和新城市。​
  • 避免使用有歧义的字段名称。 确保字段名称明确,并且不会轻易与项目中的其他字段或概念混淆。 例如,不要使用“”,而要使用更具体的名称,例如“销售金额”或“帐户余额”
  • 您可以在提取字段中使用相同的字段类型,但不能为多个常规字段添加提取字段。 要解决常规字段的此问题,请使用相同的设置创建另一种字段类型来解决此问题。
注意:如果您有一个“日期更改”标签,并想要捕获“之前日期”和“之后日期”字段,则不能将相同的数据类型绑定到这两个字段(例如,将“日期”数据类型用作这两个表单的基础字段类型)定义)。

您需要创建 2 种不同的字段类型(一种用于“之前日期”和“之后日期”,并将它们映射到相应的表单定义。

字段名称最佳实践

字段名称用于提示模型。 如果提取未按预期执行,请调整“字段名称”,使其更符合您的用例。 调整字段名称可能有助于提高性能。

下面的字段名称仅是示例,字段的命名方式取决于用例,以及您要尝试提取的内容的上下文。

Use case不推荐的字段名称​性能更好的字段名称​
作为地址更改请求的一部分,您需要提取新地址的详细信息,以输入到下游的系统。
  • 地址行​
  • 邮政编码​
  • 城市
  • 新地址行​
  • 新邮政编码​
  • 新城市​
作为后勤装运请求的一部分,您需要确定每件货物的总税明细(增值税金额和增值税税率),以输入到 SAP 中。
  • 项目 ID​
  • 税值
  • 项目 ID​
  • 增值税金额​
  • 增值税百分比
作为发票更改请求的一部分,您需要确定旧发票编号以及需要更改的编号,以取消旧发票并重新开具新发票。
  • 发票编号
  • 旧发票编号​
  • 新发票编号

常规字段与提取字段

有两种不同类型的字段有助于实现端到端自动化:

  1. 通用字段
  2. 提取字段

了解 Communications Mining 中可用的不同类型字段以及何时使用每个字段非常重要。

通用字段提取字段​
常规字段是您可能要提取的字段,可以在数据集中的多个不同主题/标签中找到这些字段。
  • 以前称为实体
  • 通常适用于数据集中的消息,并且不绑定到特定标签。
  • 通常用于分类,应仅限于数据点,用作标识符(例如保单编号)。
提取字段是以特定标签为条件(并创建)的字段。 换句话说,它与您要自动化的特定标签相关联。
  • 消息级别创建和训练,并绑定到特定标签。
注意:设置提取架构时,您需要决定要自动化的流程(即标签)。 提取架构应始终包含自动处理请求所需的每个字段。

下表列出了常规字段提取字段之间的主要区别。 请检查差异,因为有两个完全不同的模型会预测这些字段类型。

字段类型 预测 审核时间 无跨度* 与无跨度 跨度* 重叠跨度? 在同类字段之间共享字段类型 支持的数据类型**
常规字段 自动跨数据集​段落级别​仅跨度​否​否(目前)​
  • 字符串​
  • 日期​
  • 货币数量​
  • 正则表达式​
  • 模板​
提取字段 仅按需提供(当前)​消息级别(在标签上下文中)​跨度和无跨度​是​是​
  • 字符串​
  • 日期​
  • 货币数量​
  • 数字​

查看本指南的“跨度字段与无跨度字段”页面中的跨度字段。

在本指南的“数据类型”页面中查看每种字段类型支持的数据类型

提取字段示例​

在此示例中,平台能够识别与促进这两个标签的端到端自动化相关的提取字段



常规字段示例

在此示例中,平台没有足够的信心将分类中的某个标签应用于此邮件。 平台仍可以从消息本身中提取某些字段。 当您设置常规字段时,无论标签预测如何,平台都可以选取这些字段。



通过“探索”设置字段

您可以按照以下步骤,通过“ 探索” 页面设置或修改 常规字段 或 提取字段 。

  1. 在包含标签的通信中,您要在“探索”中定义提取字段,请选择“注释字段”
  2. 如果您设置了提取字段,请将鼠标悬停在右侧“字段注释”栏中的标签名称旁边,然后选择“管理字段” 。 如果您设置了常规字段,请将鼠标悬停在“常规字段”旁边并在其中管理字段。


  3. 选择“新建提取字段”以添加新的提取字段。 您可以添加多个字段。​
  4. 填写要提取的“提取字段”名称字段类型。 如果未配置要尝试提取的内容,则可以选择现有字段类型或创建新的字段类型。


  5. 选择右下角的“保存”以保存提取字段。

通过“设置” 设置字段

按照以下步骤,通过“ 设置” 页面设置或修改 常规字段 或 提取字段 。

注意:如果在训练中设置了字段,则系统会将您重定向到“设置”以配置字段。

要也通过训练配置字段,请执行以下步骤:

  1. 转到“设置” ,然后转到“分类”。
  2. 要创建提取字段,请转到“标签和字段”选项卡。
  3. 在要在其上创建提取字段的特定标签上,选择下拉菜单。 选择下拉列表将展开给定标签上的所有字段列表。
  4. 要添加新的提取字段,请选择底部的“提取字段”。
  5. 填写“字段名称” 和“提取字段类型”,以配置新的提取字段。


  6. 要创建新的常规字段,请转到“常规字段”选项卡。 选择右上角的“新建字段”。
  7. 填写“字段名称”和“常规”字段类型,以配置新的“常规”字段。


设置字段类型

设置字段时,必须选择特定的数据类型

下表详细列出了何时使用每种类型。

字段类型
数据类型 常规字段​提取字段​说明 示例
字符串 X​X​字符串可以包含任何字符(字母、数字等)。 ​

字符串还可以具有消息中显式存在的输入值(spanful)或推断的输入值(spanless)。 有关更多详细信息,请查看下文。

  • 组织名称
  • 名字
  • 地址行
日期* X​X​日期有各种非结构化格式,并使用 UiPath™ 预训练日期字段。 ​

  • 开始日期​
  • 到期日期​
数字 X​X​数量有多种非结构化格式,并使用 UiPath™ 预训练数量字段来解读数字。​

  • 项目数量​
  • 变化百分比​
货币 数量* X​X​同样,货币数量通常也有不同的非结构化格式,并使用 UiPath™ 预训练的货币数量模型。 ​

  • 总保费值​
  • 应付费用​
正则表达式 X​如果始终需要以特定格式提取特定字段,则可以使用正则表达式配置规则。 有关更多详细信息,请查看官方 UiPath™文档
  • 保单编号必须始终以 3 个字母开头,以 6 个数字结尾​
模板 X​查看官方 UiPath™ 文档,获取支持的模板列表
  • SEDOL​
  • BIC​

备注:

对于下游流程,许多字段可能需要规范化为结构化数据格式。 ​

在平台中,货币数量日期是自动规范化的通用字段类型。 有关更多详细信息,请查看有关字段规范化的 UiPath™ 官方文档

什么是跨度字段?

跨度字段是在文本中明确声明的数据点(例如,交易 ID、保单编号)。

什么是无跨度字段?

无跨度字段是可能未在文本中显式声明需要从消息中提取(即可以从消息中推断出)的数据点。 换句话说,要提取的文本不一定会出现在消息中。

设置常规字段时,请指定输入值是必须出现在消息中,还是可以从消息中推断出 (即 – 是否需要从文本中准确按原样提取。 ​

可能需要无跨度化的一些字段示例:

  • 需要标准化的值(例如日期)。​
  • 需要在电子邮件中的不同区域之间连接的值​。
  • 未在电子邮件中任何位置出现,但通过电子邮件的性质隐含的值​
  • 跨多个段落、行或列的值(即不出现在连续跨度中)。
注意:仅当提取字段的数据类型配置为字符串时,Spanless 字段才可用。


创建新的字段类型​

字段类型是新字段的初始状态。 如果您没有可用的字段类型,请按照以下步骤设置新的字段类型。 创建字段时,您可以从下拉列表中设置新的字段类型,但如果需要,也可以在“字段类型”页面本身上设置​。

输入尽可能广泛的字段类型,然后微调以提供更具体的字段类型。

  1. A - 为您的字段类型命名。​
    注意:模型不会像字段名称那样将字段类型名称用于上下文。
  2. B - 定义是否要为提取字段或常规字段设置新的字段类型。 ​
  3. C - 设置常规字段或提取字段时,必须为字段类型选择特定的数据类型
    注意:根据您为提取设置新字段类型还是常规字段,您可以配置的数据类型可能会有所不同。 其他配置也适用,具体取决于您选择的数据类型。


注意:以下步骤包含平台中所有可用的预定义字段类型的列表(含详细信息),以及每种字段类型的使用情况。

通过设置创建新的字段类型​

注意:如有需要,也可以在“字段类型”页面上创建新的字段类型。 从“字段”页面执行此操作会预先选择定义的内容,并立即将其分配给该字段。

您可以通过“探索”页面或“设置”页面的“训练”选项卡来设置新的字段类型。

一旦为字段类型配置了数据类型,您便无法更改。 创建字段类型时,请选择正确的数据类型。 如果未选择正确的数据,则必须删除字段类型并使用正确的数据类型重新创建。

您可以通过“ 设置” 页面为“ 提取”字段 和“ 通用”字段 设置新的字段类型。

要在“设置” 页面中设置新的字段类型,请按照以下步骤操作。

(1) “设置” > (2) “分类” > (3) “字段类型” > (4) “新字段类型” > (5)设置字段类型。



通过“探索”创建新的字段类型

注意:通过“探索”创建新的字段类型与训练​中的机制相同。

要通过“探索”页面设置字段类型,请按照以下步骤操作。

注意:您必须在“字段注释”窗格的相应部分中设置与常规字段或提取字段相对应的字段类型。

(1) “探索”> (2) “注释字段”> (3)单击“常规字段”部分或“提取字段”部分旁边的 3 个点。 您只能在相应的部分创建新的字段类型 > (4)管理字段 > (5)选择“字段类型”下拉列表,然后选择“新建字段类型” 。 设置字段类型。



此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。