- 入门指南
- 管理
- 管理来源和数据集
- 模型训练和维护
- 训练
- 使用常规字段
- 生成式提取
- 使用分析和监控
- 自动化和 Communications Mining
- 许可证信息
- 常见问题及解答
使用常规字段
在平台中设置和训练常规字段的指南。
定义关键数据点(即 字段)(即要从 Communications Mining 数据中提取的字段)。 这些通常有助于下游自动化,但也有助于分析,尤其是在评估自动化机会的潜在成功率和收益时。
- 通用字段是您可能要提取的字段,可以在数据集中的多个不同主题/标签中找到这些字段。
- 提取字段是根据特定标签创建的字段。 换句话说,它与您要自动化的特定标签绑定。
最终,通用字段预测与标签相结合,可以提供完成特定任务或流程所需的结构化数据点,从而促进自动化。 将数据集中的通用字段与标签一起训练比先训练一个标签再训练另一个标签更省时 (即在训练标签的完整分类后训练通用字段)。
什么是常规字段?
常规字段是结构化数据的附加元素,可以从数据集的消息中提取。 常规字段包括货币数量、日期、货币代码、电子邮件地址、URL 等数据点,以及许多其他行业特定类别 (有关示例,请参见下文)。
该平台能够在启用这些字段后立即预测大多数通用字段(从头开始训练的字段除外),因为它可以根据这些字段的典型格式(或在某些情况下非常特定)格式和类似通用字段的训练集来识别这些字段。
与标签一样,用户能够接受或拒绝正确预测或错误预测的常规字段,从而增强模型将来识别这些字段的能力。
常规字段的类型
常规字段目前主要有两类:
- 通常基于一组标准或自定义规则的预训练通用字段,例如 货币数量、URL 和日期
- 由用户从头开始训练(像训练标签一样)的基于机器学习的通用字段
可训练常规字段与不可训练常规字段的比较
所有通用字段或者本质上都是可训练的(从头开始训练通用字段),或者在启用时将其设为可训练(所有其他通用字段类型)。
可训练通用字段是将根据用户提供的训练在平台中实时更新的字段。 有关训练通用字段的更多详细信息,请参阅此处。
如果您对通常基于一组标准或自定义定义的规则的预训练通用字段启用训练,则可以在这些规则的参数内优化平台对该通用字段的理解。 本质上,对这些字段的进一步训练将缩小平台可考虑通用字段的范围,但不会扩大其范围。
这是因为其中许多常规字段(例如日期) “明天”)和货币数量(例如 20 英镑),需要标准化为下游系统的结构化数据格式。 此外,对于 ISIN 或 CUSIP 等一般字段,这些字段必须具有设定的格式,因此不应训练平台预测任何不符合其定义格式的内容。
分配任何可训练常规字段时,平台会在通信的其余部分中查看常规字段的文本以及常规字段的上下文,即常规字段值之前和之后发生的情况(在同一段落,以及上方和下方)。 它学习根据值本身以及值在通信上下文中的显示方式更好地预测常规字段。
如果未将预训练通用字段设置为可训练,您仍然可以接受或拒绝在数据集中看到的通用字段预测。 使用用户提供的平台内反馈离线更新和优化这些反馈。 在您查看消息时,接受或拒绝这些通用字段会很有帮助。 要了解有关如何在数据集上启用通用字段的更多信息,请查看启用、禁用、更新和创建通用字段页面。
配置通用字段类型时,在为字段类型选择数据类型时,可以通过“模板” 选项从以下预构建的选项中进行选择。
通用字段类型 | 描述 |
---|---|
电子邮件 | 电子邮件地址。 |
币种 | 货币代码,例如 英镑、瑞士法郎或美元。 |
URL | 统一资源定位符(即 网址)。 |
SEDOL | 金融证券标识符,是“证券交易所每日官方名单”的缩写,长度为 7 个字符。 |
BIC 代码 | 企业标识符代码 (BIC) 是 ISO 9362 下的一项国际标准,用于路由业务事务和识别业务方。 BIC 代码的长度为 8 或 11 个字符。 |
LEI | 法律通用字段标识符 (LEI) 是参与金融交易的法律通用字段的唯一全局标识符。 LAI 的格式为 20 个字符的字母数字代码。 |
位于 | 国际证券识别号 (ISIN) 是金融证券的唯一标识。 ISIN 是一个由 12 个字符的字母数字代码组成的代码。 |
按市价计算 (MTM 或 M2M) | 按市价计算是指资产或负债的公私价值。 按市价计算的价格基于当前市场价格、类似资产和负债的价格或其他客观公正的价值。 |
CUSIP | CUSIP 是一个 9 位数字或一个 9 个字符的字母数字代码,用于标识北美金融证券,以便促进交易的清除和结算。 |
所需的用户权限:“查看来源”和“修改数据集”或“数据集管理员”。
在新数据集上启用常规字段
要在要创建的新数据集上启用常规字段,您只需在设置过程中选择它们。
单击如下所示框中的“+” 按钮,系统将向您显示一个下拉菜单,其中包含您可以为该数据集启用的所有常规字段。 只需在创建数据集之前单击要启用的所有常规字段即可。 如果您添加了错误,您可以单击该常规字段名称旁边的“X”图标将其删除。
要了解有关如何创建新数据集的更多信息,请参阅此处。
启用、更新和禁用现有数据集的常规字段
如果要启用、更新或禁用现有数据集的常规字段,可以从顶部导航栏的“设置”选项卡中执行此操作,然后选择“标签和提取字段”选项卡。
启用常规字段:
要启用现有常规字段,请在“常规字段”框中单击,然后从下拉菜单中选择要启用的常规字段。 如果您对选择感到满意,请选择“更新常规字段”(如下所示)。
系统将为您预先选择这些常规字段的设置。 然后,您可以更新它们,包括将其设为可训练,如下所示。
更新常规字段:
要更新已启用的常规字段,请单击“常规字段”框中的常规字段(如上图所示),系统将显示“编辑常规字段”模式(如下所示)。
在这里,您可以更新基本常规字段、常规字段的标题和API 名称(这些概念将在下面详细介绍),并使常规字段“可训练”。
如果您以前查看过未设置为“可训练”的常规字段类型的常规字段,则系统仍会存储此信息。
禁用常规字段:
要删除任何选定的常规字段,只需单击常规字段名称旁边的“X”图标,然后单击“更新常规字段”。
如果您删除常规字段并单击“更新常规字段”,则该操作也将删除此数据集该常规字段的训练数据。 如果您选择重新启用常规字段,则需要再次训练它。
如果您在更新常规字段时出错,请先单击“重置” ,然后再单击“更新常规字段”,否则您的更改将不会应用。
创建新的常规字段
上述各节介绍了如何为新数据集和现有数据集启用和更新现有的预训练常规字段。 在每个实例中,您还可以为新的或现有的数据集创建新的常规字段。
新建的常规字段可以基于现有的预训练常规字段,也可以从头开始训练(如新标签一样)。
要执行此操作,您可以在“创建数据集”流程或“数据集设置”页面(如上所示)中,单击“常规字段”框中的“+”图标。
这将调出“添加新的常规字段”模式,如下所示。
在这里,您可以设置字段类型、标题和API 名称,以及选择常规字段是否可训练(这些可以稍后更新,如上所示)。
填写每个字段(如下所述)后,只需单击“创建”。
Field types
- 这将作为新常规字段的初始状态,下拉列表将包含您可用的所有预训练常规字段的列表
- 例如,如果您选择“日期”作为基本常规字段,则预测的所有此类常规字段都将为日期,然后您可以训练平台,使其仅识别特定日期
-
如果要完全从头开始训练常规字段,则可以选择“无 - 从头开始训练”,然后在训练常规字段时,您实际上是从空白画布开始。 平台对此常规字段的预测将完全基于您提供的训练示例
常规字段标题
- 常规字段标题是将显示在平台用户界面中的常规字段的名称
Api 名称
- 常规字段的 API 名称是在提供消息预测时将通过 API 返回的名称
- API 名称不能包含任何空格或标点符号,短划线 (-) 和下划线 (_) 除外
所需的用户权限:查看来源和查看通用字段。
与标签一样,您可以在“探索”和“报告”中根据是否已预测或分配常规字段来筛选消息。
应用多个通用字段筛选器时,您可以应用AND 、 ANY OF和Not的任意组合。 这些筛选器可以为您在训练和解释数据时提供更大的灵活性,并且可以让您更深入地了解沟通渠道中的情况。
以下是您现在可以在按常规字段预测进行筛选时执行的一些操作:
- 在“探索”和“报告”中一次应用多个通用字段筛选器
- 筛选具有已预测数量之一选定通用字段 (即通用字段 X 与通用字段 Y 与…) 中的任何一个的消息
- 筛选已预测有多个不同通用字段(即通用字段 X AND 通用字段 Y AND …)的消息
- 筛选,以显示未预测某些通用字段(即非通用字段 Y)的消息
- 搜索包含特定搜索词的通用字段,同时应用通用字段筛选器
您在数据集上启用的所有通用字段都将如下所示出现在筛选栏中。 查看和应用通用字段详细介绍了分配通用字段。
现在有两种方法可以应用通用字段筛选器,并且可以将它们结合使用以创建正确类型的查询。
如上图所示,系统在默认状态下不应用任何筛选器,系统将显示所有消息(除非应用了另一个筛选器)。
要更新常规字段筛选器,请使用下方说明的按钮。 选中时,它们会改变颜色:
显示包含任何已批注通用字段的消息。 | |
显示预计会包含通用字段的消息 |
如果要筛选具有任何已批注通用字段或预计会包含通用字段的消息,请使用顶部的按钮(如上所示)。 如果要筛选具有特定已批注通用字段或预测通用字段的消息,请将鼠标悬停在相关的通用字段上,右侧也会出现相同的两个按钮。
如果要筛选已分配或预测的通用字段,请选择通用字段的名称,系统会显示包含其中任何一个通用字段的消息。
要删除您的选择,请再次选择该按钮,要删除多项选择,请选择全部。 您也可以选择筛选器栏顶部的“全部清除”,但这将清除您选择的每个筛选器,而不仅仅是通用字段筛选器。
常规字段的分类功能类似于普通的筛选器栏,您只需单击一次即可选择多个常规字段。
从列表中选择多个通用字段将创建 ANYOF 类型查询。
如果您在“通用字段”栏中选择了“通用字段 A”、“通用字段 B”和“通用字段 C”,则会创建“显示包含通用字段 A、通用字段 B 或通用字段 C 的消息”预测查询。
筛选特定的常规字段时,可以进行多项选择。 例如,您可以筛选以查看分配了地址行常规字段或预测了城市常规字段的消息(如下所示)。
第二个筛选选项是通用字段栏上方的“+ 添加通用字段筛选”按钮。
这将启用下拉通用字段栏,使您可以选择更复杂的筛选器,例如从考虑中排除某些通用字段。
从此下拉列表中,您可以单击通用字段的名称(对于已分配和预测的通用字段)或单个按钮(对于既未分配也未预测此通用字段,包括减号),以选择要包含或排除的多个通用字段。
结果如本示例所示,返回预计会分配“发票 ID”通用字段,但不分配或预测“产品 ID”通用字段的消息:
您可以多次选择“+ 添加通用字段筛选器”,以向查询添加其他图层。 两个单独的通用字段筛选器会创建“AND”类型查询,而在同一通用字段筛选器中选择的多个通用字段会创建“ANYOF”类型查询。
在下面的示例中,已单独应用多个通用字段筛选器。 这将创建一个筛选器,该筛选器将返回预计具有第一个筛选器中三个通用字段中任何一个字段的消息,但也会预测“保单编号”通用字段,并且不会预测或分配“英国邮政编码”通用字段。
一个实用的提示是,通过在包含多个通用字段的单个筛选器中选择“&”符号,您可以自动将它们拆分为单独的筛选器。 这会将查询从 ANYOF(即 预测的这些通用字段中的任何一个)转换为 AND(即 预测的所有这些通用字段)。
可以组合“通用字段”栏中的筛选器,也可以单独添加的通用字段筛选器。 在“通用字段”栏中应用的筛选器将被视为与任何单独应用的通用字段筛选器的“AND”查询。
例如,在下图中,此组合查询将返回已预测订单 ID 或产品 ID 的所有消息。
使用通用字段栏和单独添加的通用字段筛选器合并通用字段筛选器。
所需的用户权限:“查看来源”和“审核并标记”。
预测的常规字段显示为颜色高亮显示的文本,如下面消息的第一行所示,每种不同的常规字段类型都会显示不同的颜色。 一旦用户通过手动应用或接受预测确认了常规字段,该常规字段将显示为带有粗体、深色边框的高亮显示文本,如下所示。
如果某个段落已分配、已消除或应用了常规字段,则该字段将以灰色突出显示,如下面的消息正文所示。
在查看可训练常规字段时,请务必记住,平台将从您分配的常规字段值及其在通信中出现的上下文(即围绕值本身使用的其他语言)中学习。
平台会将同一段落中的语言上下文以及紧接常规字段所在段落之前和之后的单个段落(由新的分隔线表示)视为常规字段值。
请注意:对于未设置为“可训练”的常规字段,平台的预测完全基于平台内为该常规字段定义的规则。 当常规字段绝对必须遵循下游自动化的设定格式,任何不正确的值都会导致失败或异常时,这可能很有用。
当平台预测哪些常规字段适用于通信时,它会为每个预测分配一个可信度分数 (%),以显示该常规字段适用于高亮显示的文本范围的置信度。 您可以将鼠标悬停在常规字段上,以查看常规字段的置信度分数。
此置信度分数也可通过 API 提供,以便为下游采取的自动化操作提供依据。
启用常规字段(请参阅此处)后,平台将自动开始在整个数据集的消息中预测这些字段。 然后,用户可以接受正确的预测,也可以拒绝错误的预测。 每个操作都会发送训练信号,这些训练信号将用于提高平台对该常规字段的理解。
对于离线训练的预训练常规字段(例如 货币数量、URL 等),从改进的角度来看,用户拒绝或更正错误的预测比接受正确的预测更重要。
对于在平台中实时训练的常规字段,接受正确预测和拒绝不正确预测同样重要。 但是,您无需继续接受这些类型的每个唯一常规字段的许多正确示例(例如 如果您没有找到错误预测的字段,则将“Example Bank L.D.”作为唯一的组织常规字段)。
需要注意的是,如果您查看某个段落中的任何常规字段,则需要查看该段落中的所有其他常规字段。
要审核常规字段预测,请将鼠标悬停在预测上,系统将显示常规字段审核模式,如以下示例所示。 如要接受,请单击“确认”;如要拒绝,请单击“关闭”。
常规字段和标签可以彼此独立进行训练。 查看消息的标签并不意味着您必须查看同一消息中的常规字段。 但是,最好同时进行这两项操作,这样可以在模型训练时最有效地利用时间。
请注意: 在训练常规字段时,遵循下面说明的 最佳实践 非常重要 - 特别是在不对段落进行部分注释方面。
要了解平台预测为数据集启用的每个常规字段(尤其是可训练字段)的能力,请参阅此处。
拒绝不正确的常规字段预测非常重要,但如果高亮显示的文本实际上是另一个常规字段(这对于与日期相关的常规字段更常见),则之后应用正确的常规字段预测(请参阅下文,了解如何将常规字段字段)。
要将通用字段应用于平台可能未预测到的某些文本,用户只需要高亮显示“测试”的部分,就像您要复制它时一样。
系统将显示一个下拉菜单,如下所示,其中包含您为数据集启用的所有常规字段。 只需单击正确的快捷键即可应用,或按相应的键盘快捷方式。
每个常规字段的默认键盘快捷方式都是以该字母开头。 如果多个常规字段以相同的字母开头,则系统会随机将一个字段分配给另一个字段。
应用常规字段后,该字段将以带有粗体边框的颜色高亮显示(见下文)。 每个常规字段类型都有其自己的特定颜色。
给定常规字段类型的值不能拆分为多个段落。 段落中必须包含完整值,才能将其提取为一个常规字段值。
在接受、拒绝或应用消息中的常规字段时,需要记住两个非常重要的最佳实践:
1. 不要拆分单词
不要拆分单词,这一点很重要 – 高亮显示的常规字段应涵盖相关的整个单词(或几个单词),而不仅仅是其中的一部分(请参见左下方的不正确示例,以及右侧的正确应用示例)
2. 不要对段落进行部分注释
批注时,如果用户为消息分配一个标签,则他们应该应用可应用于该消息的所有标签,否则,您将教会模型不应应用这些标签。 对于常规字段,情况也是如此,所不同之处在于常规字段是在段落级别而不是整个消息级别审核或应用。
消息中的段落由新行分隔。 电子邮件消息的主题行被视为其自己的单个段落。
如果您查看或应用其中一个常规字段,请确保跨所有常规字段类型查看或应用段落中的所有常规字段。 应用、接受或拒绝段落中的常规字段意味着平台会从常规字段的角度“审核”该段落。 因此,接受或拒绝该段落中的所有预测非常重要。
下面的示例显示了电子邮件消息中已审核的不同段落。
下面显示的消息显示了同一示例,其中用户未接受或拒绝单个段落中的所有常规字段预测。 这是不正确的,因为模型会将货币数量常规字段错误地视为不正确的预测。
平台会在“验证” 页面中显示已启用常规字段的验证统计信息、警告和建议操作,这与分类中的每个标签的显示非常类似。
要查看这些内容,请导航到“验证”页面,然后选择顶部的“常规字段”选项卡,如下图所示。
平台验证其正确预测常规字段能力的流程与验证标签的流程非常相似。
首次将消息添加到数据集时,系统会将消息 (80:20) 拆分为训练集和测试集(根据每条消息的消息 ID 随机确定)。 已分配的任何通用字段(已接受或更正的预测)都将属于训练集或测试集,具体取决于最初将其所在消息分配到的集。
有时,一条消息中可能包含大量常规字段,并且无法保证消息是在训练集还是测试集中,因此您可能会看到每个消息集中的常规字段数量存在巨大差异。
在某些情况下,所有分配的常规字段都可能落入训练集。 由于测试集中至少需要一个示例才能计算验证分数,因此此常规字段将需要分配更多示例,直到测试集中出现一些示例。
在具有足够训练数据的情况下,每个常规字段的单独精度和召回率统计信息的计算方式与标签的方式非常相似:
精度= 匹配的常规字段数 / 预测的常规字段数
召回率 = 匹配的常规字段数 / 实际常规字段数
“匹配的通用字段”是指平台已准确预测通用字段的位置(即 无部分匹配项)
F1 分数只是精度和召回率的调和平均值。
值得注意的是,此页面中显示的精度和召回率统计信息对于可在平台中实时训练的常规字段(如上面第二列所示)最有用,因为为这些常规字段类型审核的所有常规字段将直接影响平台预测这些常规字段的能力。
因此,应尽可能接受正确的常规字段并更正或拒绝错误的常规字段。
对于通过模板字段类型预训练的通用字段,为了使验证统计信息准确反映性能,用户需要确保接受大量的正确预测,并更正错误的预测。
如果它们只是为了纠正错误的预测,则训练集和测试集将人为地仅包含平台难以预测一般字段的实例,而不包含平台能够更好地预测的实例。 由于更正这些常规字段的错误预测不会导致这些常规字段的实时更新(它们会定期离线更新),因此验证统计信息可能在一段时间内不会发生变化,并且可能会被人为地降低。
接受大量正确预测可能并不总是方便,因为这些常规字段通常会被正确预测。 但是,如果这些常规字段的大多数预测都是正确的,则您可能无需担心“验证” 页面中的精度和召回率统计信息。
摘要统计信息(平均精度、平均召回率和平均 F1 分数)是每个单独的常规字段分数的简单平均值。
与标签一样,平均分数中仅包含具有足够训练数据的常规字段。 对于没有足够的训练数据而无法包含在内的实体,其名称旁边会显示警告图标。
“常规字段验证”页面显示平均常规字段性能统计信息,以及显示每个常规字段的平均 F1 分数与其训练集大小的图表。 该图表还会标记具有黄色或红色性能警告的常规字段。
显示的常规字段性能统计信息如下:
- F1 平均分数:所有常规字段的 F1 分数平均值,其中包含足够的数据以准确评估性能。 此分数同等衡量召回率和精度。 F1 分数较高的模型产生的误报和漏报较少。
- 平均精度:所有常规字段的精度分数平均值,其中有足够的数据来准确评估性能。 精度高的模型产生的误报较少。
- 平均召回率:所有常规字段的召回率分数平均值,其中包含足够的数据以准确评估性能。 召回率高的模型产生的漏报较少。
“验证”页面(见上文)的“指标”选项卡中显示的常规字段性能图表,可立即以可视化方式指示每个常规字段的性能。
对于要显示在此图表上的常规字段,平台在验证期间使用的训练集中必须至少存在 20 个固定示例。 为确保做到这一点,用户应确保为每个常规字段提供来自 25 条不同消息的至少 25 个(通常更多)已固定示例。
根据模型对常规字段运行方式的理解,每个常规字段都将绘制为三种颜色之一。 下面,我们将解释这些含义:
一般外地绩效指标:
- 图表上绘制为蓝色的常规字段具有令人满意的性能水平。 这基于众多影响因素,包括示例的数量和种类,以及该一般字段的平均精度
- 绘制为 黄色 的一般字段的 性能 稍差 一些 。它们的平均精度可能相对较低,或者训练示例数量较少。 这些常规字段需要一些训练/更正以提高其性能
- 绘制为红色的常规字段是效果不佳的常规字段。 它们的平均精度可能非常低,或者训练示例不足。 这些常规字段可能需要进行大量训练/更正,才能将其性能提升到令人满意的水平
所需的用户权限:审核并添加注释。
与训练标签类似,训练常规字段是用户使用各种训练模式教会平台哪些常规字段适用于给定消息的过程。
与标签一样,“示教”、“检查”和“遗漏”模式可用于帮助训练和提高一般字段的性能,您可通过以下方式访问这些模式: 1) 在“探索”页面上使用训练下拉列表,或 2) 通过按照“验证”页面的“常规字段”选项卡上的建议操作操作。
如果特定的常规字段存在性能警告,平台会 按优先级顺序 推荐其认为有助于解决该警告的 下一个最佳操作 。当您从分类或“所有常规字段”图表中选择特定的常规字段时,将显示此字段。
下一个最佳操作建议充当链接,单击该链接会将您定向到平台建议的训练视图,以提高常规字段的性能。 这些建议会按照 优先级最高的操作 智能排序 ,以改进首先列出的常规字段。
这是帮助您了解常规字段性能的最重要工具,在尝试提高常规字段性能时应定期将其用作指南。
下表汇总了平台建议每种常规现场训练模式的时间:
示教通用字段 | 检查通用字段 | 缺少通用字段 |
- 显示模型最混淆的标签的预测(无论是否适用) - 用于训练未审核消息的常规字段 |
- 显示平台认为可能误用了常规字段的消息 - 用于训练已审核邮件的常规字段,以尝试查找并更正任何不一致之处 |
- 显示平台认为可能缺少所选常规字段的消息 - 用于训练已审核邮件的常规字段,以尝试查找并更正任何不一致之处 |
使用“示教常规字段”可提高一般字段性能,因为系统会向模型提供有关不确定消息的新信息,而不是已对其进行高度置信度预测的消息。
在以下情况下,平台会建议训练通用字段:
- 常规字段旁边会显示性能警告(如下所示 - 当性能达到最低值时)。 未提供 25 个示例)
- 在给定的常规字段上,F1 分数较低
- 常规字段的文本中可能并不总是存在明显的上下文,或者给定类型的常规字段值存在很多变化
使用“检查常规字段”有助于识别审核集中的不一致之处,同时通过确保模型具有正确且一致的示例来进行预测,从而提高模型对常规字段的理解。 这将提高对常规字段的召回率。
在以下情况下,平台建议检查常规字段:
- 召回率低,但精度高
- 平台做出的预测非常准确,但很多时候在应用了常规字段的情况下,平台无法捕获这些示例
(有关常规字段验证计算的更多详细信息,请参阅此处)
使用缺少的常规字段有助于在审核集中查找应具有选定常规字段但实际上没有的示例。 它还有助于识别部分注释的消息,这些消息可能不利于模型预测一般字段的能力。 这将提高一般字段的精度,并确保模型具有用于预测的正确且一致的示例。
在以下情况下,平台会建议“遗漏常规字段”:
- 召回率高,但精度低
- 我们经常错误地预测一般字段,但是当我们正确预测这些字段时,我们会捕获许多本应存在的示例
有关通用字段验证计算的更多详细信息,请查看通用字段验证页面。
所需权限:修改数据集。
使用自定义正则表达式通用字段提取具有已知重复结构的文本并为其设置格式,例如 ID 或参考编号。
对于变化不大的简单、结构化通用字段,这是一个有用的选项。 如果通用字段变化很大,并且上下文对预测有很大影响,则基于机器学习的通用字段是正确的选择。 您可以在 Communications Mining 的任何数据集中使用两者的组合。
更广泛的正则表达式(即用于定义通用字段的规则集)也可以用作自定义通用字段的基础。 这通过 Communications Mining 中的训练将规则与基于机器学习的上下文优化结合在一起,创建复杂的自定义通用字段。 这可提供最佳性能,但会对为自动化提取的值进行必要的限制。
自定义正则表达式通用字段由具有正则表达式数据类型的字段类型组成,而该字段类型又具有一个或多个自定义正则表达式模板。 每个模板都表示一种提取(并格式化)通用字段的方法。
这些模板组合在一起,提供了一种灵活而强大的方法来涵盖相同通用字段类型的多种表示。
模板由两部分组成:
- regex(正则表达式),描述了要提取为通用字段的文本范围需要满足的约束。
- 格式,表示如何将提取的字符串规范化为更标准的格式。
可以在文本上测试自定义正则表达式模板,以确保其按预期运行。 使用模板提取的任何常规字段都将显示在一个列表中,其中包含其值以及开始字符和结束字符的位置。
\d{4}
且格式为ID-{$}
,则以下测试字符串将显示一次提取:
正则表达式是用于在文本中提取通用字段的模式。 请查看语法文档。
命名捕获组可用于标识所提取字符串的特定部分,以便进行后续格式化。 捕获组的名称在所有模板中均应唯一,并且应仅包含小写字母或数字。
$
符号作为前缀。 请注意, $
符号本身表示完整的正则表达式匹配。
{
和}
大括号括起来。
ID-
前缀,则正则表达式和格式将为:
ID-1234567
&
符号连接字符串。
正则表达式 | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
Formatting | {$id1 & "-" & $id2} |
文本 | 第一个 ID 为 123,第二个 ID 为 4567 |
平台返回的常规字段 | 123-4567 |
使用给定字符将提取的范围填充至给定大小。
函数参数:
- 包含要填充的字符的文本
- 填充字符串的大小
- 用于填充的字符
正则表达式 | \d{2,5} |
Formatting | {pad($, 5, "0")} |
文本 | 123 |
平台返回的常规字段 | 00123 |
将某个字符替换为其他字符。
函数参数:
- 包含要替换的字符的文本
- 要替换的字符
- 旧字符应替换成的内容
正则表达式 | ab |
Formatting | {substitute($, "a", "12")} |
文本 | ab |
平台返回的常规字段 | 12b |
- 定义和设置字段
- 了解常规字段
- 哪些预构建模板可用于通用字段?
- 通用字段的标准模板字段类型
- 启用、禁用、更新和创建常规字段
- 常规字段筛选
- 应用高级预测筛选器
- 常规字段栏
- 添加通用字段筛选器
- 合并常规字段栏筛选器并添加常规字段筛选器
- 结合常规字段筛选器和按常规字段排序进行训练
- 查看并应用常规字段
- 识别一般字段预测
- 平台如何对可训练的常规字段进行常规字段预测?
- 一般字段置信度分数
- 接受和拒绝常规字段预测
- 应用常规字段
- Best Practice
- 常规字段的验证
- 简介
- 常规字段验证如何工作?
- 如何计算分数?
- 可训练的常规字段
- 预训练常规字段
- 摘要统计信息意味着什么?
- 指标
- 了解一般现场性能
- 个人常规战地表现
- 提高常规字段性能
- 概述
- 通用字段建议操作
- 常规外业训练模式
- 使用“示教常规” 字段
- 使用检查通用字段
- 使用缺少的通用字段
- 构建自定义正则表达式常规字段
- 什么是自定义正则表达式通用字段?
- 自定义正则表达式模板
- 预先输入验证
- 提取内容预览
- 正则表达式
- Formatting
- 变量
- 字符串操作
- 功能
- 上部
- 降低
- 属性
- 填充
- 替换
- 左侧
- 右侧
- 中