- 入门指南
- 管理
- 管理来源和数据集
- 模型训练和维护
- 使用分析与监控
- 自动化和 Communications Mining
- 常见问题解答及更多内容
查看并应用实体
所需的用户权限:“查看来源”和“审核并标记”。
预测的实体以颜色高亮显示的文本显示,例如下面消息的第一行,并以不同的颜色表示不同的实体类型。 一旦用户通过手动应用或接受预测来确认实体,该实体将显示为带有粗体、深色边框的高亮显示文本,如下所示。
如果某个段落已分配、关闭或应用实体,则该段落将以灰色突出显示,如下面的消息正文所示。
在查看可训练实体时,请务必记住,平台将从您分配的实体值及其在通信中出现的上下文(即围绕值本身使用的其他语言)中学习。
平台会将同一段落中的语言上下文视为实体值,以及实体所在段落之前和之后的单个段落(由新的分隔线表示)。
请注意:对于未设置为“可训练”的实体,平台的预测完全基于平台内为该实体定义的规则。 当实体必须遵循下游自动化的设定格式,任何不正确的值都会导致失败或异常时,这可能很有用。
当平台预测哪些实体适用于通信时,它会为每个预测分配一个置信度分数 (%),以显示该实体适用于高亮显示的文本范围的置信度。 您可以将鼠标悬停在实体上,以查看实体的置信度分数。
此置信度分数也可通过 API 提供,以便为下游采取的自动化操作提供依据。
启用实体后(请参阅此处),平台将自动开始在整个数据集的消息中预测实体。 然后,用户可以接受正确的预测,也可以拒绝错误的预测。 每个操作都会发送训练信号,这些训练信号将用于提高平台对该实体的理解。
对于离线训练的预训练实体(例如 货币数量、URL 等),从改进的角度来看,用户拒绝或更正错误的预测比接受正确的预测更重要。
对于在平台中实时训练的实体,接受正确的预测和拒绝不正确的预测同样重要。 但是,您不必继续接受这些类型的每个唯一实体的许多正确示例(例如 如果您没有找到错误预测的实体,则将其(Example Bank是唯一的组织实体)。
需要注意的是,如果您审核段落中的任何实体,则需要审核该段落中的所有其他实体。
要审核实体预测,请将鼠标悬停在预测上,系统将显示实体审核模式,如下面的示例所示。 如要接受,请单击“确认”;如要拒绝,请单击“关闭”。
实体和标签可以彼此独立进行训练。 查看消息的标签并不意味着您必须查看同一消息中的实体。 但是,最好同时进行这两项操作,这样可以在模型训练时最有效地利用时间。
请注意: 在培训实体遵循下面说明的 最佳实践 时 非常重要 - 特别是在不部分标记段落的情况下。
要了解平台预测为数据集启用的每个实体(尤其是可训练实体)的能力,请参阅此处。
拒绝不正确的实体预测非常重要,但如果高亮显示的文本实际上是一个不同的实体(这对于与日期相关的实体来说更常见),则之后应用正确的文本(请参阅下文,了解如何应用实体)。
要将实体应用于平台可能未预测到的某些文本,用户只需要高亮显示 test 的部分,就像您要复制它时一样。
系统将显示一个下拉菜单,如下所示,其中包含您为数据集启用的所有实体。 只需单击正确的快捷键即可应用,或按相应的键盘快捷方式。
每个实体的默认键盘快捷方式是以该字母开头的字母。 如果多个实体以相同的字母开头,则系统会随机将一个实体分配给另一个实体。
应用实体后,它将以带有粗体边框的颜色高亮显示(见下文)。 每种实体类型都有其自己的特定颜色。
给定实体类型的值不能拆分为多个段落。 段落中必须包含完整值,才能将其提取为一个实体值。
在接受、拒绝或应用消息中的实体时,需要记住两个非常重要的最佳实践:
1. 不要拆分单词
不要拆分单词,这一点很重要 – 高亮显示的实体应覆盖相关的整个(或几个)单词,而不仅仅是其中的一部分(请参见左下方的不正确示例,以及右侧的正确应用程序示例)
2. 不要标记部分段落
加标签时,如果用户为消息分配一个标签,则他们应该应用可应用于该消息的所有标签,否则,您将教会模型不应应用这些其他标签。 对于实体,情况也是如此,不同之处在于是在段落级别审核或应用实体,而不是在整个消息级别审核或应用实体。
消息中的段落由新行分隔。 电子邮件消息的主题行被视为其自己的单个段落。
如果您查看或应用其中一个实体,请确保在所有实体种类中查看或应用段落中的所有实体。 应用、接受或拒绝段落中的实体意味着平台从实体的角度“审核”该段落。 因此,接受或拒绝该段落中的所有预测非常重要。
下面的示例显示了电子邮件消息中已审核的不同段落。
下面显示的消息显示了同一示例,其中用户未接受或拒绝单个段落中的所有实体预测。 这是错误的,因为模型会将货币数量实体错误地视为不正确的预测。