communications-mining
latest
false
重要 :
请注意,此内容已使用机器翻译进行了本地化。
Communications Mining 用户指南
Last updated 2024年10月3日
使用随机播放进行训练
需要的用户权限:“查看来源”和“审核并标记”。
“随机播放”是“探索”的第一步,其目的是为用户提供随机选择的邮件供他们审核。 在随机播放模式下,平台将显示具有涵盖所有标签的预测(以及没有标签的预测)的消息,因此,“随机播放”步骤与“探索”中的其他步骤不同,因为它并不专注于要训练的特定标签,而是涵盖所有标签。
为什么使用“随机”模式进行训练如此重要?
使用随机播放模式非常重要,以确保为模型提供足够的训练样本,这些样本在整体上可以代表数据集,并且不会因为只关注数据的非常特定区域而产生偏差。
总体而言,在数据集中完成的训练中,至少有 10%应在“随机播放”模式下进行。
在随机播放模式下批注本质上有助于确保分类很好地覆盖数据集中的数据,并防止您创建的模型无法非常准确地仅对数据集中的一小部分数据进行预测。
因此,在随机播放模式下查看消息是了解整个模型运行情况的简单方法,并且可以在整个训练过程中作为参考。 在训练有素的分类中,您应该能够随机播放任何未审核的邮件,并仅接受预测以进一步训练模型。 如果您发现很多预测都不正确,您可以查看哪些标签需要更多训练。
稍后在训练过程中浏览随机播放的多个页面也是一个好方法,可以检查是否存在分类法本应捕获而未捕获的意图或概念。 然后,您可以根据需要添加现有标签,或根据需要创建新标签。