- 入门指南
- 管理
- 管理来源和数据集
- 模型训练和维护
- 使用分析与监控
- 自动化和 Communications Mining
- 常见问题解答及更多内容
了解实体
什么实体是?
实体是结构化数据的其他元素,可以从数据集的消息中提取。 实体包括货币数量、日期、货币代码、电子邮件地址、URL 以及许多其他行业特定类别 (有关示例,请参见下文) 等数据点。
与标签不同,平台可以在启用标签后立即预测大多数实体(从头开始训练的实体除外),因为它可以根据实体的典型格式(或在某些情况下非常特定)格式和类似实体的训练集来识别实体。
与标签类似,用户能够接受或拒绝正确预测的实体,从而增强模型将来识别实体的能力。
实体类型
当前主要有两种类型的实体:
- 通常基于一 组标准或自定义定义的规则的 预训练实体 ,例如货币数量、URL 和日期
- 由用户从头开始训练基于机器学习的实体(就像训练标签一样)
可训练实体与不可训练实体
所有实体或者本质上都是“可训练的” (从头开始训练实体),或者在启用时都可以将其设为“可训练” (所有其他实体类型)。
“可训练”实体是将根据用户提供的训练在平台中实时更新的实体。 有关训练实体的更多详细信息,请参阅此处。
如果您对通常基于一组 标准或自定义定义的规则 的预训练实体启用训练 ,则可以 在这些规则的参数内 优化平台对该实体的理解 。本质上,对这些实体的进一步训练将缩小,但 不会扩大 平台可以考虑该实体的范围 。
这是因为其中许多实体,例如日期 “明天”)和货币数量(例如 20 英镑),需要标准化为下游系统的结构化数据格式。 同样,对于 ISIN 或 CUSIP 等实体,这些实体也必须具有设定的格式,因此不应让平台预测任何不符合其定义格式的内容。
分配任何可训练实体时,平台会在通信的其余部分中查看实体的文本以及实体的上下文,即实体值之前和之后发生的情况(在同一段落中,上方和下方)。 它学习根据值本身以及值在通信上下文中的显示方式更好地预测实体。
如果未将预训练实体设置为可训练(请参阅此处的有关在数据集上启用实体的详细信息),则用户仍可以接受或拒绝在数据集中看到的实体预测。 使用用户提供的平台内反馈离线更新和优化这些反馈。 因此,用户在查看邮件时接受或拒绝这些实体仍然很有帮助。