关于设置提取字段的概述
- 在模型训练过程中的任何时候,您都可以设置新的提取,修改架构,或在“探索”中的现有架构中添加任何其他字段。
- 通过在“探索”中设置提取,您可以:
- 字段基于消息中的数据。
- 将您看到的新字段添加到提取中。
- 要设置提取,请设置需要名称和字段类型的字段。 建议在最低子级别标签中执行此操作。
- 保持描述性且简洁。 选择能够准确描述其所代表数据的字段名称。 在简洁和清晰之间取得平衡。 为您的字段提供准确的描述性名称,因为它为模型提供了有关字段角色的必要上下文。
- 例如,对于地址更改,如果您只想提取新地址,则将字段配置为以下名称会很有帮助:新街道地址、新市镇、新邮政编码和新城市。
- 避免使用有歧义的字段名称。 确保字段名称明确,并且不会轻易与项目中的其他字段或概念混淆。 例如,不要使用“值”,而要使用更具体的名称,例如“销售金额”或“帐户余额” 。
- 您可以在提取字段中使用相同的字段类型,但不能为多个常规字段添加提取字段。 要解决常规字段的此问题,请使用相同的设置创建另一种字段类型来解决此问题。
您需要创建 2 种不同的字段类型(一种用于“之前日期”和“之后日期”,并将它们映射到相应的表单定义。
字段名称用于提示模型。 如果提取未按预期执行,请调整“字段名称”,使其更符合您的用例。 调整字段名称可能有助于提高性能。
下面的字段名称仅是示例,字段的命名方式取决于用例,以及您要尝试提取的内容的上下文。
Use case | 不推荐的字段名称 | 性能更好的字段名称 |
---|---|---|
作为地址更改请求的一部分,您需要提取新地址的详细信息,以输入到下游的系统。 |
|
|
作为后勤装运请求的一部分,您需要确定每件货物的总税明细(增值税金额和增值税税率),以输入到 SAP 中。 |
|
|
作为发票更改请求的一部分,您需要确定旧发票编号以及需要更改的编号,以取消旧发票并重新开具新发票。 |
|
|
有两种不同类型的字段有助于实现端到端自动化:
- 通用字段
- 提取字段。
了解 Communications Mining 中可用的不同类型字段以及何时使用每个字段非常重要。
通用字段 | 提取字段 |
---|---|
常规字段是您可能要提取的字段,可以在数据集中的多个不同主题/标签中找到这些字段。
| 提取字段是以特定标签为条件(并创建)的字段。 换句话说,它与您要自动化的特定标签相关联。
|
下表列出了常规字段和提取字段之间的主要区别。 请检查差异,因为有两个完全不同的模型会预测这些字段类型。
字段类型 | 预测 | 审核时间 | 无跨度* 与无跨度 跨度* | 重叠跨度? | 在同类字段之间共享字段类型 | 支持的数据类型** |
常规字段 | 自动跨数据集 | 段落级别 | 仅跨度 | 否 | 否(目前) |
|
提取字段 | 仅按需提供(当前) | 消息级别(在标签上下文中) | 跨度和无跨度 | 是 | 是 |
|
查看本指南的“跨度字段与无跨度字段”页面中的跨度字段。
在本指南的“数据类型”页面中查看每种字段类型支持的数据类型。
您可以按照以下步骤,通过“ 探索” 页面设置或修改 常规字段 或 提取字段 。
- 在包含标签的通信中,您要在“探索”中定义提取字段,请选择“注释字段” 。
- 如果您设置了提取字段,请将鼠标悬停在右侧“字段注释”栏中的标签名称旁边,然后选择“管理字段” 。 如果您设置了常规字段,请将鼠标悬停在“常规字段”旁边并在其中管理字段。
- 选择“新建提取字段”以添加新的提取字段。 您可以添加多个字段。
- 填写要提取的“提取字段”名称和字段类型。 如果未配置要尝试提取的内容,则可以选择现有字段类型或创建新的字段类型。
- 选择右下角的“保存”以保存提取字段。
按照以下步骤,通过“ 设置” 页面设置或修改 常规字段 或 提取字段 。
要也通过训练配置字段,请执行以下步骤:
- 转到“设置” ,然后转到“分类”。
- 要创建提取字段,请转到“标签和字段”选项卡。
- 在要在其上创建提取字段的特定标签上,选择下拉菜单。 选择下拉列表将展开给定标签上的所有字段列表。
- 要添加新的提取字段,请选择底部的“提取字段”。
- 填写“字段名称” 和“提取字段类型”,以配置新的提取字段。
- 要创建新的常规字段,请转到“常规字段”选项卡。 选择右上角的“新建字段”。
- 填写“字段名称”和“常规”字段类型,以配置新的“常规”字段。
设置字段时,必须选择特定的数据类型。
下表详细列出了何时使用每种类型。
字段类型 | ||||
数据类型 | 常规字段 | 提取字段 | 说明 | 示例 |
字符串 | X | X | 字符串可以包含任何字符(字母、数字等)。
字符串还可以具有消息中显式存在的输入值(spanful)或推断的输入值(spanless)。 有关更多详细信息,请查看下文。 |
|
日期* | X | X | 日期有各种非结构化格式,并使用 UiPath™ 预训练日期字段。
|
|
数字 | X | X | 数量有多种非结构化格式,并使用 UiPath™ 预训练数量字段来解读数字。
|
|
货币 数量* | X | X | 同样,货币数量通常也有不同的非结构化格式,并使用 UiPath™ 预训练的货币数量模型。
|
|
正则表达式 | X | | 如果始终需要以特定格式提取特定字段,则可以使用正则表达式配置规则。 有关更多详细信息,请查看官方 UiPath™文档 |
|
模板 | X | | 查看官方 UiPath™ 文档,获取支持的模板列表 |
|
什么是跨度字段?
跨度字段是在文本中明确声明的数据点(例如,交易 ID、保单编号)。
什么是无跨度字段?
无跨度字段是可能未在文本中显式声明但需要从消息中提取(即可以从消息中推断出)的数据点。 换句话说,要提取的文本不一定会出现在消息中。
设置常规字段时,请指定输入值是必须出现在消息中,还是可以从消息中推断出 (即 – 是否需要从文本中准确按原样提取。
可能需要无跨度化的一些字段示例:
- 需要标准化的值(例如日期)。
- 需要在电子邮件中的不同区域之间连接的值。
- 未在电子邮件中任何位置出现,但通过电子邮件的性质隐含的值
- 跨多个段落、行或列的值(即不出现在连续跨度中)。
字段类型是新字段的初始状态。 如果您没有可用的字段类型,请按照以下步骤设置新的字段类型。 创建字段时,您可以从下拉列表中设置新的字段类型,但如果需要,也可以在“字段类型”页面本身上设置。
输入尽可能广泛的字段类型,然后微调以提供更具体的字段类型。
- A - 为您的字段类型命名。
注意:模型不会像字段名称那样将字段类型名称用于上下文。
- B - 定义是否要为提取字段或常规字段设置新的字段类型。
- C - 设置常规字段或提取字段时,必须为字段类型选择特定的数据类型。
注意:根据您为提取设置新字段类型还是常规字段,您可以配置的数据类型可能会有所不同。 其他配置也适用,具体取决于您选择的数据类型。
您可以通过“探索”页面或“设置”页面的“训练”选项卡来设置新的字段类型。
一旦为字段类型配置了数据类型,您便无法更改。 创建字段类型时,请选择正确的数据类型。 如果未选择正确的数据,则必须删除字段类型并使用正确的数据类型重新创建。
您可以通过“ 设置” 页面为“ 提取”字段 和“ 通用”字段 设置新的字段类型。
要在“设置” 页面中设置新的字段类型,请按照以下步骤操作。
(1) “设置” > (2) “分类” > (3) “字段类型” > (4) “新字段类型” > (5)设置字段类型。