ixp
latest
false
UiPath logo, featuring letters U and I in white

Communications Mining 用户指南

上次更新日期 2025年8月11日

配置字段

提取字段设置概述

注意:设置标签并确定要自动化的流程。 考虑到它们的优点,通过以下其中一种方式设置提取。 在此阶段,决定需要提取哪些数据点以促进端到端自动化非常重要。​

重要提示:确保字段类型为每个字段使用正确的数据类型,因为您无法在不丢失注释的情况下更改字段类型。 更改字段类型后,您只能手动重新注释字段,这可能会非常耗时。

“探索”页面

  • 在模型训练过程中的任何时候,您都可以设置新的提取,修改架构,或在“探索”中的现有架构中添加任何其他字段。
  • 通过在“探索”中设置提取,您可以:
    • 字段基于消息中的数据。
    • 将您看到的新字段添加到提取中。

设置页面

  • 在模型训练流程中的任何时候,您都可以在 “设置”中设置新的提取、修改架构或向现有架构添加任何其他字段。
  • 如果您知道要预先提取哪些字段,请在“设置” 中批量设置提取。

训练页面

如果您通过“训练”选项卡训练模型,则可以设置任何新的提取。 在体验引导式训练时,您还可以同时注释标签和字段提取。

一般指导原则

注意:平台的 LLM 生成功能将创建提取。预测基于经过训练的标签和字段名称。

要设置提取,请设置需要名称和字段类型的字段。 建议在最低子级别标签中执行此操作。​

请保持描述性且简洁。选择能够准确描述其所代表数据的字段名称。在简洁和清晰之间取得平衡。为字段提供一个准确的描述性名称,因为它为模型提供了有关字段角色的必要上下文。简介

例如,对于地址更改,如果您只想提取新地址,则将字段配置为以下名称会很有帮助:新街道地址、新市镇、新邮政编码和新城市。​

避免使用有歧义的字段名称。确保字段名称明确,并且不会轻易与项目中的其他字段或概念混淆。例如,不要使用值,而要使用更具体的名称,例如“销售金额”或“帐户余额”。。

您可以在提取字段中使用相同的字段类型,但不能为多个常规字段添加提取字段。 要解决常规字段的此问题,请使用相同的设置创建另一种字段类型来解决此问题。

注意:如果您有“日期更改”标签,并希望捕获“前日期”和“之后日期”字段,则不能将相同的数据类型与这两个字段绑定,例如,不能将“日期”数据类型用作这两个字段的基础字段类型表单定义。因此,您需要创建两种不同的字段类型,一种用于“在此之前的日期”,另一种用于“之后的日期”,并将它们映射到相应的表单定义。

字段名称最佳实践

字段名称用于提示模型。 如果提取未按预期执行,请调整“字段名称”,使其更符合您的用例。 调整字段名称可能有助于提高性能。

以下字段名称仅是示例,因此,字段的命名方式取决于用例,以及您要尝试提取内容的上下文。。

Use case不推荐的字段名称​性能更好的字段名称​
作为地址更改请求的一部分,您需要提取新地址的详细信息,以输入到下游的系统。
  • 地址行​
  • 邮政编码​
  • 城市
  • 新地址行​
  • 新邮政编码​
  • 新城市​
作为物流运输请求的一部分,您需要确定要输入到 SAP 中的每项货物的总税明细(包括增值税金额和增值税税率)。
  • 项目 ID​
  • 税值
  • 项目 ID​
  • 增值税金额​
  • 增值税百分比
作为发票更改请求的一部分,您需要确定旧发票编号以及需要更改的编号,以取消旧发票并重新开具新发票。
  • 发票编号
  • 旧发票编号​
  • 新发票编号

常规字段与提取字段

有两种不同类型的字段有助于实现端到端自动化:

  1. 通用字段
  2. 提取字段

了解 Communications Mining 中可用的不同类型字段以及何时使用每个字段非常重要。

通用字段提取字段​
通用字段是您可能要提取的字段,可以在数据集中的多个不同主题或标签中找到这些字段。
  • 通常适用于数据集中的消息,并且不绑定到特定标签。
  • 通常用于分类,应限制为用作标识符的数据点,例如保单编号。
提取字段是根据特定标签条件创建的字段。换句话说,它与您要自动化的特定标签绑定。
  • 在消息级别创建和训练,并与特定标签绑定。

注意:设置提取架构时,您需要决定要自动化的流程,即哪个标签。您的提取架构应始终包含自动处理请求所需的每个字段。简介

下表列出了通用字段提取字段之间的主要区别。请检查差异,因为有两个完全不同的模型可以预测这些字段类型。

字段类型 预测 审核时间 无跨度* 与无跨度 跨度* 重叠跨度? 在同类字段之间共享字段类型 支持的数据类型**
常规字段 自动跨数据集​段落级别​仅跨度​否​否​
  • 字符串​
  • 日期​
  • 货币数量​
  • 正则表达式​
  • 模板​
提取字段 仅按需消息级别(在标签上下文中)#跨度和无跨度​是​是​
  • 字符串​
  • 日期​
  • 货币数量​
  • 数字​

*For more details, check Spanful field and Spanless fields.​

**For more details on the data types each field supports, check Setting up field types.

提取字段示例​

在此示例中,平台可以识别与促进这两个标签的端到端自动化相关的“提取”字段



常规字段示例

在此示例中,平台没有足够的把握将分类中的某个标签应用于此消息。平台仍可以从消息本身中提取某些字段。设置通用字段时,无论标签预测如何,平台都可以选取这些字段。



在“探索”中设置字段

要通过“探索” 页面设置或修改“通用字段” 或“提取字段” ,请应用以下步骤:

重要提示:

请确保字段类型为每个字段使用正确的数据类型,因为您无法在不丢失注释的情况下更改字段类型。 更改字段类型后,您只能手动重新注释字段,这可能会非常耗时。

  1. 在包含标签的通信中,您要在“探索”中定义提取字段,请选择“注释字段”
  2. 如果您设置了提取字段,请将鼠标悬停在右侧“字段注释”栏中的标签名称旁边,然后选择“管理字段” 。 如果您设置了常规字段,请将鼠标悬停在“常规字段”旁边并在其中管理字段。


  3. 选择“新建提取字段”以添加新的提取字段。 您可以添加多个字段。​
  4. 填写要提取的“提取字段”名称字段类型。 如果未配置要尝试提取的内容,则可以选择现有字段类型或创建新的字段类型。


  5. 选择“保存”以保存提取字段。
注意:在注释界面中,标签下配置的第一个字段将显示为提取的识别字段,尤其是在折叠提取时。要更改显示的字段,只需使用拖放功能对字段重新排序。

在“设置”中设置字段

要在“设置” 页面中设置或修改 通用字段 或 提取字段 ,请应用以下步骤:

注意:如果在“训练”选项卡中设置字段,则系统会将您重定向到“设置”选项卡以配置字段。
重要提示:

请确保字段类型为每个字段使用正确的数据类型,因为您无法在不丢失注释的情况下更改字段类型。 更改字段类型后,您只能手动重新注释字段,这可能会非常耗时。

要也通过训练配置字段,请执行以下步骤:

  1. 转到“设置” ,然后转到“分类”。
  2. 要创建提取字段,请转到“标签和字段”选项卡。
  3. 在要在其上创建提取字段的特定标签上,选择下拉菜单。 选择下拉列表将展开给定标签上所有字段的列表。
  4. 要添加新的提取字段,请选择底部的“提取字段”。
  5. 填写“字段名称” 和“提取字段类型”,以配置新的提取字段。


  6. 要创建新的常规字段,请转到“常规字段”选项卡。 选择右上角的“新建字段”。
  7. 填写“字段名称”和“通用字段类型”,以配置新的“通用”字段。


注意:在注释界面中,标签下配置的第一个字段将显示为提取的识别字段,尤其是在折叠提取时。要更改显示的字段,只需使用拖放功能对字段重新排序。

设置字段类型

设置字段时,必须选择特定的数据类型。默认类型包括:
  • 日期
  • 精确文本
  • 推断文本
  • 货币量
  • 数字
注意:您可以专用于通用字段(用于字段)或提取字段(用于提取字段),这些字段类型不能在它们之间共享。此外,您只能对提取字段使用“推断的文本”“数字”字段类型。


下表详细介绍了何时使用每种字段类型:

字段类型
数据类型 常规字段​提取字段​说明 示例
字符串 X​X​字符串可以包含任何字符,例如字母、数字等。​

Strings can also have input values that are explicitly present (spanful) in the message or inferred (spanless). Check out more details about spanful fields.

  • 组织名称
  • 名字
  • 地址行
日期* X​X​日期有多种非结构化格式,并使用 UiPath™ 预训练日期字段。​

  • 开始日期​
  • 到期日期​
数字 X​X​数量有不同的非结构化格式,并使用 UiPath™ 预训练数量字段来解释数字。简介

  • 项目数量​
  • 变化百分比​
货币 数量* X​X​货币数量通常有多种非结构化格式,并使用 UiPath TM 预训练货币数量模型。​

  • 总保费值​
  • 应付费用​
正则表达式 X​如果始终需要以特定格式提取特定字段,则可以使用正则表达式配置规则。有关更多详细信息,请查看构建自定义正则表达式通用字段。
  • 保单编号必须始终以 3 个字母开头,以 6 个数字结尾​
模板 X​查看支持的模板列表。
  • SEDOL​
  • BIC​

备注:

对于下游流程,许多字段可能需要规范化为结构化数据格式。 ​

*在平台中,货币数量和日期是自动规范化的通用字段类型。有关字段规范化的更多详细信息,请参阅通用字段格式设置

跨度字段

跨度字段是在文本中明确说明的数据点,例如交易 ID、保单编号。

跨度字段

无跨度字段是可能未在文本中显式声明需要从消息中提取(即可以从消息中推断出)的数据点。 换句话说,要提取的文本不一定会出现在消息中。

设置常规字段时,请指定输入值是必须出现在消息中,还是可以从消息中推断出 (即 – 是否需要从文本中准确按原样提取。 ​

可能需要跨接的字段的一些示例:

  • 需要规范化的值,例如日期。简介
  • 需要在电子邮件中的不同区域之间连接的值​。
  • 未在电子邮件中任何位置出现,但通过电子邮件的性质隐含的值​
  • 跨多个段落、行或列的值,即不显示在连续范围中的值。
注意:仅当提取字段的数据类型配置为字符串时,Spanless 字段才可用。


创建新的字段类型​

字段类型是新字段的初始状态。如果您没有可使用的字段类型,请应用以下步骤设置新的字段类型。创建字段时,您可以从下拉菜单中设置新的字段类型,也可以在字段类型页面本身上设置。

尽可能添加最广泛的字段类型,然后微调以提高字段类型的具体度。按如下方式配置字段类型:

  1. 为您的字段类型命名。简介检查下图中高亮显示的 A。

    注意:模型不会像字段名称那样将字段类型名称用于上下文。

  2. 定义是否要为提取字段或通用字段设置新的字段类型。检查下图中的高亮显示 B。​
  3. 设置通用字段或提取字段时,请为字段类型选择特定的数据类型。检查下图中的高亮显示 C。

    注意:根据您为提取设置新字段类型还是常规字段,您可以配置的数据类型可能会有所不同。 其他配置也适用,具体取决于您选择的数据类型。



创建新的字段类型(“设置”​选项卡)

注意:如有需要,也可以在“字段类型”页面上创建新的字段类型。 从“字段”页面执行此操作会预先选择定义的内容,并立即将其分配给该字段。

您可以通过“探索” 选项卡或“训练” 选项卡中的“设置” 选项卡来设置新的字段类型。

一旦为字段类型配置了数据类型,您便无法更改。创建字段类型时,请选择正确的数据类型。如果未选择正确的数据,则必须删除字段类型并使用正确的数据类型重新创建。

您可以通过“设置” 选项卡为 提取字段 和 通用字段 设置新的字段类型。

要在“设置”选项卡中设置新的字段类型,请执行以下步骤:

  1. 导航到“设置”页面。
  2. 选择“分类”选项卡。
  3. 选择“字段类型”选项卡。
  4. 选择“新字段类型”。
  5. 配置新的字段类型。


此图显示了“字段类型”选项卡。

在“探索”中创建新的字段类型

要设置新的字段类型,请应用以下步骤:

  1. “探索”选项卡下,选择“注释字段”
  2. 选择通用字段或提取字段旁边的垂直省略号。
  3. 选择“管理字段”
    注意:您只能在提取字段的相应部分中创建新的字段类型。
  4. “管理字段”部分中,从“字段类型”下拉菜单中选择“字段类型”。
  5. 选择“新建字段类型” ,然后设置字段类型。
注意:“字段注释”窗格中,您必须设置与通用字段或提取字段的相应部分相对应的字段类型。


此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo
信任与安全
© 2005-2025 UiPath。保留所有权利。