了解并增加覆盖率
所需的用户权限:“查看来源”和“审核并注释”。
覆盖是机器学习中经常使用的一个术语,表示模型“覆盖”用于分析的数据的程度。 在平台中,这与数据集中具有信息标签预测的消息所占比例相关,并在“验证” 中显示为百分比分数。
“ 信息标签 ”是平台通过查看 与其他标签一起分配的频率 ,认为 可用作独立标签 的标签。始终分配有另一个标签的标签,例如 在计算分数时,系统会降低从未单独分配的父标签或始终为其他标签分配“紧急”标签的父标签的权重。
下图显示了整个数据集的低覆盖率与高覆盖率的对比情况。 假设阴影圆圈是具有信息标签预测的消息。
作为指标,覆盖率是一种非常有用的方法,可以了解您是否已捕获数据集中的所有不同的潜在概念,以及是否已为它们提供足够多且多样化的训练示例,以便平台可以有效地进行预测。
几乎在所有情况下,模型的覆盖率越高,其性能就越好,但在检查模型性能时,不应单独考虑这一点。
同样非常重要的是,分类中的标签必须保持良好状态,这意味着它们具有较高的平均精度,并且没有其他性能警告,并且训练数据是整个数据集的均衡表示。
如果标签运行状况不佳或训练数据不能代表数据集,则平台计算的模型覆盖率将不可靠。
如果您使用模型来推动自动化流程,则具有高覆盖率的模型尤为重要。
因此,让我们考虑一下这在典型用例中的应用情况:自动路由企业中共享电子邮件收件箱收到的不同请求。
对于旨在帮助自动路由不同请求的模型,低覆盖率意味着大量请求未正确路由,或者由于模型无法识别而被发送以进行手动审核。
如果在邮箱中工作的团队管理着 10 个关键流程,但分类仅有效捕获了其中 7 个,则可能会导致覆盖分数较低。 或者,模型可能会像其他流程一样错误地预测剩余流程,因为尚未告知模型实际是什么。 这将导致覆盖分数虚高。
在自动化过程中,剩余的三个流程可能会被遗漏,被发送以进行手动审核,或被错误地分类为其他流程并路由到错误的位置。
同样重要的是,对于每个流程,都有足够多的训练示例来捕获讨论流程时使用的各种表达式。 否则,每个标签的召回率都会较低,模型的覆盖率也会较低。
下面的图表演示了此示例在实践中的外观- 我们有多个客户端通过电子邮件发送多种请求类型。 每个客户端可能会以不同的方式编写相同的请求类型:
显示三种不同的模型场景,每种场景对覆盖率都有不同的潜在影响:
并非所有请求类型(即 分类所涵盖的概念) -覆盖率可能较低 | |
覆盖所有请求类型,但有些标签运行状况不佳,并且可能没有足够的示例 –覆盖率可能较低,并且可能不可靠 | |
覆盖的所有请求类型和标签都运行正常 –覆盖率高,可能可靠 |
在“验证”中,“模型评分”功能提供了对最重要影响因素(包括覆盖率)的模型性能的详细细分。
系统会向用户提供 预计具有信息标签 (请参阅上文说明) 预测 的消息比例的 百分比分数 ,这反过来又与评分以及对整体模型评分的贡献相关联。
平台还提供了至少具有一个预测标签的消息所占比例,但这并不是决定此因素分数和评分的因素。
在下面的示例中,我们可以看到:
- 此模型的覆盖率为85.2%
- 换言之,此因素的评估评分为“良好”
- 这也有助于提高模型的整体评分 ( +3 )
务必要记住,将覆盖率作为一种性能指标,应始终与分类中标签的运行状况和数据集的平衡性结合起来理解。 在您认为平台提供的覆盖分数可靠之前, 您还应确保对影响 模型评分 的 其他因素 至少有“ 良好 ”的评分。
覆盖范围至少应足够高,以便平台提供“良好”评级。 如果达到此阶段,则您的模型性能良好,您可以根据用例的要求选择进一步优化。
就像人类一样,机器学习模型也有其局限性,因此您不应期望实现 100% 的覆盖率。您可能会接近此值,但前提是您的数据非常简单且重复,或者您注释了很大一部分数据集。
根据数据的不同, 达到“ 极好 ”的评分可能具有挑战性,并且根据用例, 并不总是必要 的。
对于以自动化为中心的用例,拥有高覆盖率尤为重要,因此在这些情况下,您可能希望尽可能地优化覆盖率并获得“优秀”评级。
对于以分析为中心的用例,拥有非常高的覆盖率并不是那么重要。 模型能够识别最常出现的概念通常就足够了,因为这些概念为更改和改进提供了最深入的见解以及潜在的机会。
值得注意的是,以分析为中心的模型通常会牺牲一些准确性,以便在其分类中广泛捕获非常广泛的概念。
与其他影响因素一样,平台提供了有用的推荐“下一个最佳操作” ,用户可以采取这些操作来提高模型的覆盖率(请参见上方和下方的图像)。
建议的操作充当链接,直接将您带到建议的训练模式。
对于覆盖率,平台通常会建议在“低可信度”模式下进行训练,因为此模式允许用户注释数据集中所有消息中“覆盖率”最低的消息。 有关使用此训练模式的更多详细信息,请参阅此处。
在推荐的训练模式下完成合理数量的训练后(完成多少取决于最初的覆盖率有多低),用户可以重新训练模型并更新验证后,查看改进情况。 如果需要,他们可以重复此过程,以继续提高分数。
当覆盖率非常低时(通常在训练过程的早期),平台可能还会推荐它认为有用的其他训练模式,例如在 “发现 ”中 注释相似消息的集群 (如下面的示例所示)。
在评估模型的覆盖率时,平台能够智能地识别分类中的哪些标签是“信息性”标签,并在“模型评分”中显示这些信息(如上所述)。
但是,如果您想评估 分类中一组特定标签 的预测可能涵盖 的数据集比例,则可以在“ 报告” 页面中执行此操作。
为此,您可以在“报告”的标签筛选器栏中选择所有相关标签(如下所示)。
报告中页面顶部的消息计数会根据应用的筛选器更新。 从标签筛选器中选择标签时,计数会更新,以显示可能预测了至少一个选定标签的消息数。
在仅与银行追加保证金流程相关的电子邮件示例数据集(包含 260,000 封电子邮件)中,您可以看到,260,000 封邮件中可能有 237,551 封邮件至少预测了一个选定标签。 表明覆盖率良好,约为 91.4%。
这不应该是您为测试模型整体覆盖率而进行的唯一检查。 整个数据集最可靠的覆盖度量在模型评分中显示(如上所述),并且应与分类中标签的整体性能结合考虑。