Communications Mining 用户指南

上次更新日期 2024年12月20日

改善平衡并使用重新平衡

所需的用户权限：“查看来源”和“审核并注释”。

什么是平衡，它为何很重要?

验证中的模型评分中显示的平衡评分反映了数据集中已审核的数据（即训练数据）与整个数据集相比的平衡程度。

它考虑了许多影响因素（如下所示），包括：

已审核数据与 未审核数据 的相似度 (显示为百分比)
通过 随机抽样 审核的已审核数据所占比例（即“随机播放”模式）
已使用“ 重新平衡 ” 审核的数据比例 (有关详细信息，请参见下文)
使用“ 文本搜索 ”时已 审核的数据所占比例

模型评分的“余额”组件示例

重要的是，通过随机抽样审核的数据比例较高（最好是 20％以上） ，并且通过搜索注释的已审核数据比例较低。

但是，平衡评分受 相似度分数 的影响最大，该分数衡量 未审核数据与已审核数据的相似度。

此相似度分数由专有的注释偏差模型计算得出，该模型会比较已审核和未审核的数据，以确保带注释的数据能够代表整个数据集。如果数据不具有代表性，并且标注的方式存在偏差，则模型性能指标可能会产生误导，并且可能不可靠。

平台中的注释偏差通常是用于分配标签的训练模式不平衡的结果，尤其是在使用太多“文本搜索”而没有足够的“随机播放”模式的情况下。但是，即使大量使用“随机”模式，这种情况仍可能发生。在“训练标签”等模式下训练特定标签自然会导致所审核的数据稍微不平衡。该平台可帮助您识别何时发生这种情况，并帮助您快速有效地解决该问题。

什么是“重新平衡”？如何使用它?

“重新平衡”是一种训练模式，可帮助减少模型注释方式方面的潜在不平衡，即注释偏差，注释偏差意味着所审核的数据并不能很好地代表整个数据集。

“重新平衡”训练模式会显示审核集中人数不足的消息。

注释在此模式下显示的消息（就像在任何其他训练模式中一样）将有助于解决训练数据中的不平衡问题，并提高模型的平衡分数。

重要提示：经常使用且很少使用时，重新平衡通常是最有效的。在此模式下标注少量消息（介于 10 到 20 之间），并允许模型在刷新和标注更多示例之前进行重新训练，这是最大限度地提高对模型平衡分数影响的最佳方法。

演示数据集上的“重新平衡”训练模式