精度和召回率
概述
当您通过批注数据构建分类时,您正在创建一个模型。 此模型将使用您已应用于一组数据的标签来识别其他消息中的类似概念和意图,并预测对其应用哪些标签。
这样,每个标签都将具有自己的精度分数和召回率分数。
假设作为分类的一部分,我们在平台中有一个名为“请求信息”的标签,精度和召回率将如何与之相关:
- 精度:对于每 100 条预测为具有“请求信息”标签的消息,精度是指正确预测“请求信息”的次数占预测总次数的百分比。 95% 的精度意味着每 100 条消息中,有 95 条会被正确注释为“请求信息”,而 5 条会被错误地注释(即,它们不应该使用该标签进行注释)
- 召回率:对于每 100 条本应注释为“请求信息”的消息,平台找到了多少条。 77% 的召回率意味着有 23 条消息本应预测为应用“请求信息”标签,但系统漏掉了这些消息
所有标签的“召回率”与模型的覆盖率直接相关。
如果您确信分类涵盖数据集中的所有相关概念,并且标签具有足够的精度,则对这些标签的召回将决定标签预测对数据集的覆盖程度。 如果所有标签都具有高召回率,则您的模型也将具有高覆盖率。
精度与召回率
我们还需要了解特定模型版本中精度和召回率之间的权衡。
特定模型版本中每个标签的精度和召回率统计信息由置信度阈值确定(即 模型应用此标签的可信度如何?)。
平台会在“验证” 页面中实时发布精度和召回率统计信息,用户可以使用可调整的滑块了解不同的置信度阈值如何影响精度和召回率分数。
随着置信度阈值的增加,模型会更加确定标签是否适用,因此,精度通常会增加。 同时,由于模型需要更有把握才能应用预测,因此它会进行更少的预测,召回率通常也会下降。 当您降低置信度阈值时,情况通常也会相反。
因此,根据经验,当您调整置信度阈值并且精度提高时,召回率通常会下降,反之亦然。
在平台中,在使用平台设置自动化时,了解这种权衡及其意味着非常重要。 用户必须为要构成自动化一部分的标签设置置信度阈值,并且需要调整此阈值,以提供该流程可以接受的精度和召回率统计信息。
某些流程可能看重高召回率(尽可能多地捕获事件的实例),而其他流程可能看重高精度(正确识别事件的实例)。