维护生产中的模型
为什么模型维护很重要?
创建适合部署到生产环境中的模型需要时间投资,而持续分析的价值和通过自动化实现的效率节省可以很快得到回报。
如果模型未得到长期有效的维护,随着时间的推移,模型提供的优势可能会被消除,因为如果没有少量的补充训练,模型性能可能会下降。
这是由于“概念偏差”,这是指这样一种情况,即模型尝试预测的概念会随着时间的推移以不可预见的方式发生变化,从而使预测越来越不准确。
这本质上关系到企业随着时间的推移会发生的变化,以及企业内部以及与其他企业和客户的沟通方式。 如果模型的训练数据不再代表您目前的业务运营方式,则在尝试识别通信数据中的概念时,模型的性能会更差。
因此,对于在生产环境中使用的任何模型,有效维护以确保持续的高性能非常重要。
如何维护生产中的模型?
维护生产模型是一个简单且省力的过程。 在部署模型之前,我们已经完成了为模型创建训练数据所需的大部分工作。
有两种主要方法可以用于维护模型,这两种方法都可以确保为您的模型提供其他有用且具有代表性的训练示例:
- 异常训练
- 使用“重新平衡”模式
1. 异常训练
任何用于自动化的模型都应具有异常流程,用于识别哪些消息是平台无法确信或正确识别的异常(有关更多详细信息,请参阅此处)。
这一点很重要,因为它本质上允许您快速查找和注释平台难以处理的消息,从而提高模型预测未来类似消息的能力。
通常,自动化流程会设置为自动使用将消息标识为异常的用户属性来标记消息。 然后,您可以在“探索”中筛选这些消息,并使用正确的标签对其进行注释,以确保平台将来可以准确无误地识别类似消息。
这应该成为常规流程的一部分,旨在持续改进模型。 捕获和注释的异常越多,随着时间的推移,模型的性能就越好,从而最大限度地减少未来异常的数量,并最大程度地提高以自动化为中心的模型所实现的效率节省。
2. 使用平衡和“重新平衡”模式
理论上,如果一段时间内添加到数据集中的最新数据与用于训练模型的旧数据有显着不同,则将导致决定模型“平衡”评分的相似度分数下降。
在进行异常训练时,检查模型的相似度分数是否下降非常重要。 如果确实如此,则应解决此问题,因为这可能表明存在概念偏差,并且意味着生产中的性能最终会下降。
纠正相似度分数下降的最简单方法是使用“重新平衡”模式完成一些训练。
为确保训练代表今天收到的通信类型的最新数据,您还可以在“重新平衡”中训练时添加过去 3 或 6 个月的时间戳筛选器。 这可确保您的模型不仅仅是依赖于旧的训练数据,并且可能无法反映您业务中的任何变化。