Communications Mining 用户指南
改善平衡并使用重新平衡
所需的用户权限:“查看来源”和“审核并注释”。
什么是平衡,它为何很重要?
它考虑了许多影响因素(如下所示),包括:
- 已审核数据与 未审核数据 的 相似度 (显示为百分比)
- 通过 随机抽样 审核的已 审核 数据所占比例(即“随机播放”模式)
- 已使用“ 重新平衡 ” 审核 的数据比例 (有关详细信息,请参见下文)
- 使用“ 文本搜索 ”时已 审核 的数据所占比例
重要的是,通过随机抽样审核的数据比例较高(最好是 20% 以上) ,并且通过搜索注释的已审核数据比例较低。
但是,平衡评分受 相似度分数 的 影响最大 ,该分数衡量 未审核数据与已审核数据的相似度 。
此相似度分数由专有的注释偏差模型计算得出,该模型会比较已审核和未审核的数据,以确保带注释的数据能够代表整个数据集。 如果数据不具有代表性,并且标注的方式存在偏差,则模型性能指标可能会产生误导,并且可能不可靠。
平台中的注释偏差通常是用于分配标签的训练模式不平衡的结果,尤其是在使用太多“文本搜索”而没有足够的“随机播放”模式的情况下。 但是,即使大量使用“随机”模式,这种情况仍可能发生。 在“训练标签”等模式下训练特定标签自然会导致所审核的数据稍微不平衡。 该平台可帮助您识别何时发生这种情况,并帮助您快速有效地解决该问题。
什么是“重新平衡”?如何使用它?
“重新平衡”是一种训练模式,可帮助减少模型注释方式方面的潜在不平衡,即注释偏差,注释偏差意味着所审核的数据并不能很好地代表整个数据集。
“重新平衡”训练模式会显示审核集中人数不足的消息。
注释在此模式下显示的消息(就像在任何其他训练模式中一样)将有助于解决训练数据中的不平衡问题,并提高模型的平衡分数。
重要提示:经常使用且很少使用时,重新平衡通常是最有效的。 在此模式下标注少量消息(介于 10 到 20 之间),并允许模型在刷新和标注更多示例之前进行重新训练,这是最大限度地提高对模型平衡分数影响的最佳方法。
如果您发现相似度分数很高,但平衡性评分仍然很低,这可能是因为您在“随机播放”模式下标注的训练数据不足。 在这种情况下,平台会建议将随机选择的消息注释为建议的优先级操作。 在此模式下训练可以使平台更加确信数据集没有以有偏差的方式注释,并且训练数据是具有代表性的样本。
我应该使用多少“重新平衡”?
您应该继续迭代使用“重新平衡”,以提高模型的相似度分数,从而提高“平衡”评分。
一旦在“验证”中达到“良好”评分,在停止“重新平衡”中的训练之前,您可以根据需要将相似度分数提高多少。
您可以尽可能地优化此评分,但继续训练的收益将始终递减。 对于良好的模型,“良好”评级通常应视为可接受的性能级别。