Communications Mining 用户指南

上次更新日期 2025年10月7日

改善平衡并使用重新平衡

注意：您必须以 Automation Cloud 用户身份分配“来源 - 读取和数据集 - 审核”权限，或者作为旧版用户分配“查看源”和“审核并批注”权限。

平衡：简介和重要性

验证中的模型评分中显示的“平衡” 评分反映了数据集中已审核的数据（即训练数据）与整个数据集相比的平衡程度。

它考虑了许多影响因素，包括：

已审核数据与未审核数据的相似度，以百分比分数显示。
通过随机抽样（即随机播放模式）审核的审核数据所占比例。
已使用“重新平衡”审核的数据比例。
使用“文本搜索”同时审核的数据所占比例。

模型评分的“余额”组件示例

请务必提高通过随机抽样审核的数据比例（理想情况下大于 20％），并且在审核的使用搜索功能添加批注的数据中所占比例较低。

但是，平衡性评分受相似度分数的影响最大，该分数用来衡量未审核数据与已审核数据的相似度。

此相似度分数由专有的批注偏差模型计算得出，该模型会比较已审核和未审核的数据，以确保已批注的数据能代表整个数据集。如果数据不具有代表性，并且批注的方式有偏差，则模型性能衡量指标可能会产生误导，并且可能不可靠。

平台中的批注偏差通常是用于分配标签的训练模式不平衡的结果，尤其是在使用过多“文本搜索”而使用不足的“随机播放”模式的情况下。但是，即使大量使用“随机”模式，这种情况仍可能发生。在“学习标签”等模式下训练特定标签自然会导致所审核数据略有不平衡。平台可帮助您识别何时发生这种情况，并帮助您快速有效地解决问题。

再平衡：简介与用法

“重新平衡”是一种训练模式，可帮助减少模型注释方式方面的潜在不平衡，即注释偏差，这意味着审核的数据并不能很好地代表整个数据集。

“重新平衡”训练模式会显示审核集中代表性不足的消息。

批注在此模式下显示的消息（就像在任何其他训练模式中一样）将有助于解决训练数据中的不平衡问题，并提高模型的平衡分数。