
Communications Mining 用户指南
改善平衡并使用重新平衡
link平衡:简介和重要性
它考虑了许多影响因素,包括:
- 已审核数据与未审核数据的相似度,以百分比分数显示。
- 通过随机抽样(即随机播放模式)审核的审核数据所占比例。
- 已使用“重新平衡”审核的数据比例。
- 使用“文本搜索”同时审核的数据所占比例。
请务必提高通过随机抽样审核的数据比例(理想情况下大于 20%),并且在审核的使用搜索功能添加批注的数据中所占比例较低。
但是,平衡性评分受相似度分数的影响最大,该分数用来衡量未审核数据与已审核数据的相似度。
此相似度分数由专有的批注偏差模型计算得出,该模型会比较已审核和未审核的数据,以确保已批注的数据能代表整个数据集。如果数据不具有代表性,并且批注的方式有偏差,则模型性能衡量指标可能会产生误导,并且可能不可靠。
平台中的批注偏差通常是用于分配标签的训练模式不平衡的结果,尤其是在使用过多“文本搜索”而使用不足的“随机播放”模式的情况下。但是,即使大量使用“随机”模式,这种情况仍可能发生。在“学习标签”等模式下训练特定标签自然会导致所审核数据略有不平衡。平台可帮助您识别何时发生这种情况,并帮助您快速有效地解决问题。
再平衡:简介与用法
“重新平衡”是一种训练模式,可帮助减少模型注释方式方面的潜在不平衡,即注释偏差,这意味着审核的数据并不能很好地代表整个数据集。
“重新平衡”训练模式会显示审核集中代表性不足的消息。
批注在此模式下显示的消息(就像在任何其他训练模式中一样)将有助于解决训练数据中的不平衡问题,并提高模型的平衡分数。
如果您发现相似度分数较高,但“平衡”评分仍然较低,则可能是因为您在随机播放模式下批注的训练数据不足。在这种情况下,平台会建议批注随机选择几条消息作为建议的优先级操作。在此模式下进行训练可以使平台更加确信数据集并未遭到带有偏差的批注,并且训练数据具有代表性。
再平衡使用的数量
您应该继续迭代使用“重新平衡” ,以提高模型的相似度分数,从而提高“平衡”评分。
在“验证” 中达到“良好” 评分后,在“再平衡” 中停止训练前,您可以根据需要将相似度分数提高多少。
您可以尽可能地优化此评分,但继续训练的收益会一直递减。对于良好的模型,良好评级通常应视为可接受的性能级别。