
Communications Mining 用户指南
- 在模型训练过程中的任何时候,您都可以设置新的提取,修改架构,或在“探索”中的现有架构中添加任何其他字段。
- 通过在“探索”中设置提取,您可以:
- 字段基于消息中的数据。
- 将您看到的新字段添加到提取中。
要设置提取,请设置需要名称和字段类型的字段。 建议在最低子级别标签中执行此操作。
请保持描述性且简洁。选择能够准确描述其所代表数据的字段名称。在简洁和清晰之间取得平衡。为字段提供一个准确的描述性名称,因为它为模型提供了有关字段角色的必要上下文。简介
例如,对于地址更改,如果您只想提取新地址,则将字段配置为以下名称会很有帮助:新街道地址、新市镇、新邮政编码和新城市。
避免使用有歧义的字段名称。确保字段名称明确,并且不会轻易与项目中的其他字段或概念混淆。例如,不要使用值,而要使用更具体的名称,例如“销售金额”或“帐户余额”。。
您可以在提取字段中使用相同的字段类型,但不能为多个常规字段添加提取字段。 要解决常规字段的此问题,请使用相同的设置创建另一种字段类型来解决此问题。
字段名称用于提示模型。 如果提取未按预期执行,请调整“字段名称”,使其更符合您的用例。 调整字段名称可能有助于提高性能。
以下字段名称仅是示例,因此,字段的命名方式取决于用例,以及您要尝试提取内容的上下文。。
Use case | 不推荐的字段名称 | 性能更好的字段名称 |
---|---|---|
作为地址更改请求的一部分,您需要提取新地址的详细信息,以输入到下游的系统。 |
|
|
作为物流运输请求的一部分,您需要确定要输入到 SAP 中的每项货物的总税明细(包括增值税金额和增值税税率)。 |
|
|
作为发票更改请求的一部分,您需要确定旧发票编号以及需要更改的编号,以取消旧发票并重新开具新发票。 |
|
|
有两种不同类型的字段有助于实现端到端自动化:
- 通用字段
- 提取字段。
了解 Communications Mining 中可用的不同类型字段以及何时使用每个字段非常重要。
通用字段 | 提取字段 |
---|---|
通用字段是您可能要提取的字段,可以在数据集中的多个不同主题或标签中找到这些字段。
| 提取字段是根据特定标签条件创建的字段。换句话说,它与您要自动化的特定标签绑定。
|
下表列出了通用字段和提取字段之间的主要区别。请检查差异,因为有两个完全不同的模型可以预测这些字段类型。
字段类型 | 预测 | 审核时间 | 无跨度* 与无跨度 跨度* | 重叠跨度? | 在同类字段之间共享字段类型 | 支持的数据类型** |
常规字段 | 自动跨数据集 | 段落级别 | 仅跨度 | 否 | 否 |
|
提取字段 | 仅按需 | 消息级别(在标签上下文中)# | 跨度和无跨度 | 是 | 是 |
|
*For more details, check Spanful field and Spanless fields.
**For more details on the data types each field supports, check Setting up field types.
提取字段示例
在此示例中,平台可以识别与促进这两个标签的端到端自动化相关的“提取”字段。
常规字段示例
在此示例中,平台没有足够的把握将分类中的某个标签应用于此消息。平台仍可以从消息本身中提取某些字段。设置通用字段时,无论标签预测如何,平台都可以选取这些字段。
要通过“探索” 页面设置或修改“通用字段” 或“提取字段” ,请应用以下步骤:
请确保字段类型为每个字段使用正确的数据类型,因为您无法在不丢失注释的情况下更改字段类型。 更改字段类型后,您只能手动重新注释字段,这可能会非常耗时。
- 在包含标签的通信中,您要在“探索”中定义提取字段,请选择“注释字段” 。
- 如果您设置了提取字段,请将鼠标悬停在右侧“字段注释”栏中的标签名称旁边,然后选择“管理字段” 。 如果您设置了常规字段,请将鼠标悬停在“常规字段”旁边并在其中管理字段。
- 选择“新建提取字段”以添加新的提取字段。 您可以添加多个字段。
- 填写要提取的“提取字段”名称和字段类型。 如果未配置要尝试提取的内容,则可以选择现有字段类型或创建新的字段类型。
- 选择“保存”以保存提取字段。
要在“设置” 页面中设置或修改 通用字段 或 提取字段 ,请应用以下步骤:
请确保字段类型为每个字段使用正确的数据类型,因为您无法在不丢失注释的情况下更改字段类型。 更改字段类型后,您只能手动重新注释字段,这可能会非常耗时。
要也通过训练配置字段,请执行以下步骤:
- 转到“设置” ,然后转到“分类”。
- 要创建提取字段,请转到“标签和字段”选项卡。
- 在要在其上创建提取字段的特定标签上,选择下拉菜单。 选择下拉列表将展开给定标签上所有字段的列表。
- 要添加新的提取字段,请选择底部的“提取字段”。
- 填写“字段名称” 和“提取字段类型”,以配置新的提取字段。
- 要创建新的常规字段,请转到“常规字段”选项卡。 选择右上角的“新建字段”。
- 填写“字段名称”和“通用字段类型”,以配置新的“通用”字段。
- 日期
- 精确文本
- 推断文本
- 货币量
- 数字
下表详细介绍了何时使用每种字段类型:
字段类型 | ||||
数据类型 | 常规字段 | 提取字段 | 说明 | 示例 |
字符串 | X | X | 字符串可以包含任何字符,例如字母、数字等。
Strings can also have input values that are explicitly present (spanful) in the message or inferred (spanless). Check out more details about spanful fields. |
|
日期* | X | X | 日期有多种非结构化格式,并使用 UiPath™ 预训练日期字段。
|
|
数字 | X | X | 数量有不同的非结构化格式,并使用 UiPath™ 预训练数量字段来解释数字。简介
|
|
货币 数量* | X | X | 货币数量通常有多种非结构化格式,并使用 UiPath TM 预训练货币数量模型。
|
|
正则表达式 | X | | 如果始终需要以特定格式提取特定字段,则可以使用正则表达式配置规则。有关更多详细信息,请查看构建自定义正则表达式通用字段。 |
|
模板 | X | | 查看支持的模板列表。 |
|
跨度字段
跨度字段是在文本中明确说明的数据点,例如交易 ID、保单编号。
跨度字段
无跨度字段是可能未在文本中显式声明但需要从消息中提取(即可以从消息中推断出)的数据点。 换句话说,要提取的文本不一定会出现在消息中。
设置常规字段时,请指定输入值是必须出现在消息中,还是可以从消息中推断出 (即 – 是否需要从文本中准确按原样提取。
可能需要跨接的字段的一些示例:
- 需要规范化的值,例如日期。简介
- 需要在电子邮件中的不同区域之间连接的值。
- 未在电子邮件中任何位置出现,但通过电子邮件的性质隐含的值
- 跨多个段落、行或列的值,即不显示在连续范围中的值。
创建新的字段类型
字段类型是新字段的初始状态。如果您没有可使用的字段类型,请应用以下步骤设置新的字段类型。创建字段时,您可以从下拉菜单中设置新的字段类型,也可以在字段类型页面本身上设置。
尽可能添加最广泛的字段类型,然后微调以提高字段类型的具体度。按如下方式配置字段类型:
- 为您的字段类型命名。简介检查下图中高亮显示的 A。
注意:模型不会像字段名称那样将字段类型名称用于上下文。
- 定义是否要为提取字段或通用字段设置新的字段类型。检查下图中的高亮显示 B。
- 设置通用字段或提取字段时,请为字段类型选择特定的数据类型。检查下图中的高亮显示 C。
注意:根据您为提取设置新字段类型还是常规字段,您可以配置的数据类型可能会有所不同。 其他配置也适用,具体取决于您选择的数据类型。
创建新的字段类型(“设置”选项卡)
您可以通过“探索” 选项卡或“训练” 选项卡中的“设置” 选项卡来设置新的字段类型。
一旦为字段类型配置了数据类型,您便无法更改。创建字段类型时,请选择正确的数据类型。如果未选择正确的数据,则必须删除字段类型并使用正确的数据类型重新创建。
您可以通过“设置” 选项卡为 提取字段 和 通用字段 设置新的字段类型。
要在“设置”选项卡中设置新的字段类型,请执行以下步骤:
- 导航到“设置”页面。
- 选择“分类”选项卡。
- 选择“字段类型”选项卡。
- 选择“新字段类型”。
- 配置新的字段类型。
在“探索”中创建新的字段类型
要设置新的字段类型,请应用以下步骤:
- 在“探索”选项卡下,选择“注释字段” 。
- 选择通用字段或提取字段旁边的垂直省略号。
- 选择“管理字段” 。
注意:您只能在提取字段的相应部分中创建新的字段类型。
- 在“管理字段”部分中,从“字段类型”下拉菜单中选择“字段类型”。
- 选择“新建字段类型” ,然后设置字段类型。