communications-mining
latest
false
重要 :
请注意,此内容已使用机器翻译进行了本地化。
Communications Mining 用户指南
上次更新日期 2024年12月20日
平衡
“平衡”是一个术语,用于描述模型的训练数据在多大程度上代表整个数据集。
当平台评估模型的 平衡 性时,它本质上是在寻找可能导致训练数据和整个数据集之间 不平衡 的 注释偏差 。
为此,它使用注释偏差模型来比较已审核和未审核的数据,以确保带注释的数据能够代表整个数据集。 如果数据不具有代表性,则模型性能衡量指标可能会产生误导,并且可能不可靠。
注释偏差通常是用于分配标签的训练模式不平衡的结果,尤其是在使用太多“文本搜索”而没有足够的“随机播放”时。
“重新平衡”训练模式会显示审核集中代表性不足的消息。 在此模式下标注示例将有助于快速解决数据集中的任何不平衡问题。