Communications Mining
最新
False
横幅背景图像
Communications Mining 用户指南
上次更新日期 2024年4月18日

改善平衡并使用“重新平衡”

所需的用户权限:“查看来源”和“审核并标记”。

什么是“平衡”?它为什么很重要?

验证中的 模型评分 中显示的 平衡 评分反映了数据集中已审核的数据(即训练数据)与整个数据集相比的平衡程度。

它考虑了许多影响因素(如下所示),包括:

  • 已审核数据与 未审核数据 的 相似度 (显示为百分比)
  • 通过 随机抽样 审核的已 审核 数据所占比例(即“随机播放”模式)
  • 已使用“ 重新平衡 ” 审核 的数据比例 (有关详细信息,请参见下文)
  • 使用“ 文本搜索 ”时已 审核 的数据所占比例
模型评分的“余额”组件示例

重要的是,通过随机抽样审核的数据所占比例较高(理想情况下为 20% 以上) ,而通过搜索标记的已审核数据所占比例较低

但是,平衡评分受 相似度分数 的 影响最大 ,该分数衡量 未审核数据与已审核数据的相似度 。

相似度分数由专有的标签偏差模型计算得出,该模型会比较已审核未审核的数据,以确保已标记的数据能够代表整个数据集。 如果数据不具有代表性,并且以有偏差的方式标记,则模型性能指标可能会产生误导,并且可能不可靠。

平台中的标签偏差通常是用于分配标签的训练模式不平衡的结果,尤其是在过度使用“文本搜索”而使用“随机播放”模式不足的情况下。 但是,即使大量使用“随机”模式,这种情况仍可能发生。 在“训练标签”等模式下训练特定标签自然会导致所审核的数据稍微不平衡。 该平台可帮助您识别何时发生这种情况,并帮助您快速有效地解决该问题

什么是“重新平衡”?如何使用它?

重新平衡”是一种训练模式,可帮助减少模型标记方式方面的潜在不平衡,即标记偏差,这意味着已审核的数据并不能充分代表整个数据集

重新平衡”训练模式会显示审核集中人数不足的消息。

标记在此模式下显示的消息(就像在任何其他训练模式中一样)将有助于解决训练数据中的不平衡问题,并提高模型的平衡分数

重要提示:经常使用且很少使用时,重新平衡通常是最有效的。 在此模式下标记少量消息(介于 10 到 20 之间),并允许模型在刷新和标记更多示例之前进行重新训练,这是最大限度地提高对模型平衡分数影响的最佳方法。

演示数据集上的“重新平衡”训练模式

如果您发现 相似度得分 很高 ,但 平衡性评分仍然很低 ,这可能是因为您 没有在“随机播放”模式下标记足够的训练数据 。在这种情况下,平台会建议将随机选择的消息标记为建议的优先级操作。 在此模式下训练使平台更加确信数据集没有以有偏差的方式标记,并且训练数据是具有代表性的样本。

我应该使用多少“重新平衡”?

您应该继续迭代使用“重新平衡”,以提高模型的相似度分数,从而提高“平衡”评分。

一旦在“验证”中达到“良好”评分,在停止“重新平衡”中的训练之前,您可以根据需要将相似度分数提高多少。

您可以尽可能地优化此评分,但继续训练的收益将始终递减。 对于良好的模型,“良好”评级通常应视为可接受的性能级别

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.