- 入门指南
- 管理
- 管理来源和数据集
- 模型训练和维护
- 使用分析与监控
- 自动化和 Communications Mining
- 常见问题解答及更多内容
改善平衡并使用“重新平衡”
所需的用户权限:“查看来源”和“审核并标记”。
什么是“平衡”?它为什么很重要?
它考虑了许多影响因素(如下所示),包括:
- 已审核数据与 未审核数据 的 相似度 (显示为百分比)
- 通过 随机抽样 审核的已 审核 数据所占比例(即“随机播放”模式)
- 已使用“ 重新平衡 ” 审核 的数据比例 (有关详细信息,请参见下文)
- 使用“ 文本搜索 ”时已 审核 的数据所占比例
重要的是,通过随机抽样审核的数据所占比例较高(理想情况下为 20% 以上) ,而通过搜索标记的已审核数据所占比例较低。
但是,平衡评分受 相似度分数 的 影响最大 ,该分数衡量 未审核数据与已审核数据的相似度 。
此相似度分数由专有的标签偏差模型计算得出,该模型会比较已审核和未审核的数据,以确保已标记的数据能够代表整个数据集。 如果数据不具有代表性,并且以有偏差的方式标记,则模型性能指标可能会产生误导,并且可能不可靠。
平台中的标签偏差通常是用于分配标签的训练模式不平衡的结果,尤其是在过度使用“文本搜索”而使用“随机播放”模式不足的情况下。 但是,即使大量使用“随机”模式,这种情况仍可能发生。 在“训练标签”等模式下训练特定标签自然会导致所审核的数据稍微不平衡。 该平台可帮助您识别何时发生这种情况,并帮助您快速有效地解决该问题。
什么是“重新平衡”?如何使用它?
“重新平衡”是一种训练模式,可帮助减少模型标记方式方面的潜在不平衡,即标记偏差,这意味着已审核的数据并不能充分代表整个数据集。
“重新平衡”训练模式会显示审核集中人数不足的消息。
标记在此模式下显示的消息(就像在任何其他训练模式中一样)将有助于解决训练数据中的不平衡问题,并提高模型的平衡分数。
重要提示:经常使用且很少使用时,重新平衡通常是最有效的。 在此模式下标记少量消息(介于 10 到 20 之间),并允许模型在刷新和标记更多示例之前进行重新训练,这是最大限度地提高对模型平衡分数影响的最佳方法。
如果您发现 相似度得分 很高 ,但 平衡性评分仍然很低 ,这可能是因为您 没有在“随机播放”模式下标记足够的训练数据 。在这种情况下,平台会建议将随机选择的消息标记为建议的优先级操作。 在此模式下训练使平台更加确信数据集没有以有偏差的方式标记,并且训练数据是具有代表性的样本。
我应该使用多少“重新平衡”?
您应该继续迭代使用“重新平衡”,以提高模型的相似度分数,从而提高“平衡”评分。
一旦在“验证”中达到“良好”评分,在停止“重新平衡”中的训练之前,您可以根据需要将相似度分数提高多少。
您可以尽可能地优化此评分,但继续训练的收益将始终递减。 对于良好的模型,“良好”评级通常应视为可接受的性能级别。