- 入门指南
- 管理
- 管理来源和数据集
- 模型训练和维护
- 训练
- 概述
- 审核标签预测
- 使用随机播放进行训练
- 使用训练标签进行训练 (探索)
- 使用“低可信度”进行训练
- 使用搜索进行训练 (探索)
- 修剪和重新组织分类
- 使用常规字段
- 生成式提取
- 使用分析和监控
- 自动化和 Communications Mining
- 许可证信息
- 常见问题及解答
使用训练标签进行训练 (探索)
所需的用户权限:“查看来源”和“审核并注释”。
“训练标签”使用简介
“学习”是“探索”阶段的第二步,其目的是无论是否适用,都在模型最容易混淆的情况下显示标签的预测。 与之前的步骤一样,我们需要确认预测是否正确,并以此为模型提供强有力的训练信号。 它是最重要的特定于标签的训练模式。
关键步骤
- 从左上角的下拉菜单中选择“示教”,如图所示
- 选择要训练的标签 - 示教模式下的默认选择是显示未审核消息
- 系统将向您显示一系列消息,其中模型对于是否应用所选标签最为困惑 - 查看预测并在预测正确时应用标签,如果预测不正确则应用其他标签
- 预测范围将向外扩展,即对于没有情感的数据,预测值约为 50%,对于启用了情感的数据,预测范围为 66%
- 请记住应用所有其他适用的标签以及您关注的特定标签
您应根据需要使用此训练模式,将每个标签的训练示例数量增加到 25 个以上,以便平台准确评估标签的性能。
每个标签表现良好所需的示例数量取决于许多因素。 在“优化”阶段,我们将介绍如何了解和提高每个标签的性能。
该平台会定期建议使用“学习标签”作为提高特定标签性能的一种方法,方法是提供更加多样化的训练示例,使用这些示例来识别数据集中应应用标签的其他实例。
如果“传授”示例不足怎么办?
在“发现”和“随机播放”之后,我们可能会发现某些标签的示例仍然很少,并且“学习标签”模式不会显示有用的训练示例。 在这种情况下,我们建议使用以下训练模式,以便为平台提供更多可供学习的示例:
选项 1 -“搜索”
在“探索”中搜索术语或短语的方式与在“发现”中搜索相同。 两个主要区别之一是,在“探索”中,您必须逐个查看和标注搜索结果,而不能批量查看和标注。 您只需在页面左上方的搜索框中输入搜索词,即可在“探索”中进行搜索。
但是,过多的搜索会使您的模型产生偏差,这是我们希望避免的事情。 在此训练模式下,为每个标签添加不超过 10 个示例,以避免注释偏差。 在返回“示教”模式之前,为平台留出时间进行重新训练也很重要。
有关如何在“探索”中使用“搜索”的更多信息,请单击此处。
选项 2 -“标签”
尽管使用“标签”进行训练不是“探索”阶段列出的主要步骤,但它在此训练阶段仍然很有用。 在“标签模式”下,平台会按置信度降序向您显示预计会出现标签的消息(即,最有把握的预测在前,最不可靠的预测在后)。
但是,它仅适用于审核可信度不高(90% 以上) 的预测。 这是因为当模型非常有信心时(即 高于 90%),那么确认预测后,您没有告诉模型任何新信息,模型已经确信标签已应用。 如有需要,请在页面下方查找可信度较低的示例。 但是,如果预测具有高可信度并且是错误的,则务必要应用正确的标签,从而拒绝不正确的预测。
实用提示
- 如果某个标签有多种不同的表达方式(例如 A、B 或 C),请确保为每种表达方式提供平台训练示例。 如果您为模型提供了 30 个 A 示例,而只提供了少量 B 和 C 示例,则模型将很难为该标签选取未来出现的 B 或 C 示例。
- 向成熟分类添加新标签可能意味着它没有应用于以前审核的邮件。 然后,这需要返回并使用“缺少标签”功能根据新标签训练模型 - 有关操作方法,请参阅此处。