communications-mining
latest
false
重要 :
请注意,此内容已使用机器翻译进行了本地化。
UiPath logo, featuring letters U and I in white
Communications Mining 开发者指南
Last updated 2024年11月19日

一切尽在数字中 - 使用指标评估模型性能

在构建和训练机器学习模型时,了解性能至关重要。 根据训练数据和任务的不同,即使是最先进的模型也可能产生错误的预测,从而导致分析误导或自动化流程出错。

手动遍历示例来检查模型预测是不切实际的,尤其是对于具有数百万数据点的数据集。 相反,Communications Mining 会持续计算并显示多个指标,以帮助分析模型和发现故障。

但是,在某些情况下,指标可能会表现异常。 在本博文中,我们将讨论使用指标时出现的一些问题,以及 Communications Mining 用于简化该流程的一些解决方案。

实际应用中的 Communications Mining

​Communication Mining 允许用户为通信数据构建自定义机器学习模型。 要了解我们在此流程中如何使用指标,想象一个特定的用例会很有帮助。

考虑一家银行的共享邮箱,该银行每天可能会收到数千封电子邮件。 Communications Mining 用于自动对这些电子邮件进行分类,以帮助使用该邮箱的员工更高效地工作。

在实际用例中,邮箱的主题专家将创建数百个标签,以跟踪和自动化各种工作流。 出于我们的目的,我们将考虑一个简化的案例

  • 紧急电子邮件。 这些需要在员工的电子邮件客户端中检测并标记。

  • 自动生成的电子邮件。 应检测到此类邮件,并将其移至存档文件夹,以保持收件箱整洁。

用户为这些任务创建UrgentAuto Generated标签,并为一些示例电子邮件添加了批注。 Communications Mining 会自动训练 ML 模型,该模型会预测哪些标签适用于电子邮件。 然后,使用此模型自动执行实时数据的电子邮件分类任务。
在这种情况下,我们需要一个指标来表明模型在识别这两个标签方面的能力。
带有“自动生成”标签的电子邮件不包含有用的信息,系统会将其从邮箱中删除,以提高效率docs image
系统会向用户显示带有“紧急”标签的电子邮件,并确定电子邮件的优先级,以便快速响应docs image

比较预测

最低级别,指标会以用户创建的是/否标签注释的形式将标签预测与正确答案进行比较。

注意:模型置信度

Communications Mining 中的模型不提供有关标签是否存在的二元(是/否)预测。 相反,它们会返回一个 00 到 11 之间的数字。 这表示模型应用标签的可信度

使用阈值将模型置信度值转换为二进制标签预测。 这只是一个介于 00 和 11 之间的数字,用于对标签的可信度值进行分区。

  • 高于阈值时,预计将应用标签(“正”示例)。

  • 低于该阈值时,预计不会应用标签(“负”示例)。

使用注释、标签预测和阈值,我们可以将一组示例分为四个不同的组

  • 真例 (TP) 。 模型会预测标签,并且标签会应用。

  • 误报 (TP) 。 模型会预测标签,但该标签不适用。

  • 漏报 (FN) 。 模型不会预测标签,但标签会应用。

  • 真负例 (TN) 。 模型不会预测标签,并且标签不适用。

更改标签的阈值将影响属于这四个组的电子邮件,而这四个组将作为许多指标的起点。

准确度

我们可能想要查看模型的准确性。

docs image

在所有模型预测中,正确的比例是多少。

这似乎很合理,并且准确性通常被认为是 AI 性能的首选指标。 但是,在某些情况下,准确性可能具有误导性。

邮箱中可能很少有紧急电子邮件,实际上每 25 封电子邮件中只有 1 封属于此类。 对于从不预测任何电子邮件的Urgent标签的不良模型,我们得到的准确性分数为:
docs image
此分数很高,但我们的模型实际上表现不佳。 准确性可能会高估带有稀有标签(例如UrgentAuto Generated的任务的性能。

精度和 召回率

除了准确度,我们还可以使用两个值(精确率和召回率)来更好地衡量模型性能。

docs image
在模型预测为具有该标签的注释中,实际具有该标签的比例。

docs image
在实际具有标签的注释中,模型预测为具有标签的注释所占比例。
如果使用 25 条注释中有 1 个Urgent标签的相同示例,我们的模型将获得的精度和召回率值分别为 00。 这突显了此模型的性能有多糟糕。

这些指标在出现频率不同的标签上表现更好,称为类不平衡。 通信数据中的主题很少以相同的速率出现,因此 Communications Mining 中的指标必须考虑到这一点。

阈值变化时一组模型预测的精度、召回率和准确度docs image

不同的标签,不同的目标

​对于给定的阈值,我们可以计算精度和召回率值。 但是,这两个指标之间实际上需要权衡取舍

  • 高精度。 误报率极低。 这意味着阈值较高,因此只有模型置信度接近 1 的示例才是“正样本”。

  • 高召回率。 几乎不需要漏报。 这意味着阈值较低,因此只有模型置信度接近 0 的示例才是“负样本”。

通过分别将阈值设置为接近 00 或接近 11 的值,可以轻松获得良好的精度召回率分数。 设置阈值代表着两者之间的平衡,最佳折中方案取决于标签的用途。

平衡 成本

以银行业为例,将一封包含有用内容的电子邮件视为自动生成的电子邮件并错误地存档,这比在邮箱中保留一些自动生成的电子邮件要糟糕得多。 这意味着Auto Generated标签应具有高精度(很少误报)。
另一方面,模型不应错过紧急电子邮件,但某些非紧急电子邮件可以具有此标签。 这意味着“ Urgent ”标签应具有高召回率(很少漏报)。

标签的最佳阈值可最大限度地降低模型出错时的成本。

为方便讨论,假设银行为每封错过的紧急电子邮件(误报)损失了 5 英镑,为每封错误标记为自动生成的电子邮件(误报)损失 10 英镑。 该银行还向员工支付 20 英镑/小时的工资,请其以每小时 100 封的速度删除自动生成的不正确的紧急电子邮件和遗漏的电子邮件。

对于每天收到 1000 封电子邮件的邮箱,可以调整阈值以最大程度地降低每天的预期成本。

阈值变化时自动生成的电子邮件和紧急电子邮件的预计每日成本docs image

无阈值评分

​精度和召回率需要为每个标签设置一个阈值。 设置这些阈值的速度很慢,尤其是对于可能具有数百个标签的大型数据集。 没有最佳阈值的指标更有用。

为此,我们计算一系列阈值的精度和召回率。 然后,将这些值绘制为精度/召回率曲线,我们用它来检查模型性能。
“紧急”标签的指标。 该模型在阈值为 19.6% 时具有 90% 的精度和 92% 的召回率。 此标签的精度/召回率曲线显示在左侧docs image

完美 模型

考虑一个假设的“完美”模型,该模型可以正确预测每个标签。 存在一个阈值,使此模型具有 100% 的精度和召回率。

高于此阈值时,某些正例将被错误地识别为负例。 这会降低精度,但会使召回率保持在 100%。 同样,降低阈值也会将负数错误地标记为正数。 这会降低召回率,但会将精度保持在 100%。

按照这种逻辑,完美模型的精度/召回率曲线是一个方框形状,其角点为 (100%,100%)(100%,100%) 点。 任何不完美的模型都会在此完美模型下方具有曲线。

这意味着改进模型与增加精度/召回率曲线下的面积相同。

平均 精度

这导致了我们的最终指标:平均精度。
图 1.精度/召回率曲线下面积docs image
此值越接近 100%,模型就越好。

虽然我们确实让用户选择阈值并探索精度/召回率权衡,但平均精度才是我们在 Communications Mining 中对模型进行评分的主要指标。 平均而言,它效果很好,尤其是在误报和误报具有相似成本的情况下。 由于它使用了精度和召回率,因此对于类不平衡具有稳健性,但用户无需设置阈值即可计算精度和召回率。

我们在“验证”页面上以两种方式报告此指标

  • 平均精度。 为每个标签报告的单个标签的性能。

  • 平均精度。 每个标签的平均精度,所有标签的平均值。 该参数用于衡量数据集中所有标签的性能。

精度和召回率并不代表一切

​我们使用指标来估计模型性能,但此估计值仅与用于计算它的数据一样好。 即使我们在与训练模型所基于的测试集分开的测试集上评估模型,该测试集仍会从用户注释的示例中提取。 如果该数据不能代表目标任务,则我们的指标可能会产生误导。

以银行业为例,假设我们仅注释在星期一发送的紧急电子邮件,以及在星期五发送的自动生成的电子邮件。 从电子邮件发送之日起,基于这些示例训练的模型就可以完美预测标签。

该模型的平均精度较高,因为它会识别始终适用于用户注释数据的模式。 但是,自动生成的紧急电子邮件可以在任何一天发送。 对于实时电子邮件,该模式将不起作用,并且模型的性能将很差。

这就是为什么我们在 Communications Mining 中对模型进行评分时,不会只返回精度、召回率和平均精度值的原因。 相反,我们会计算模型评分

模型评分考虑许多不同的性能因素,而不仅仅是平均精度。 这种整体视图减少了使用单个指标的缺陷,同时提供了清晰的模型反馈。 在以后的帖子中,我们将更详细地探讨模型评分,以及如何使用它们在更短的时间内构建更好的模型。

摘要

  • ​精度和召回率可准确衡量具有不同频率的标签的性能。

  • 平均精度可在无需阈值的情况下衡量模型性能。

  • 没有哪个单一指标可以提供完整的情况。 当训练数据较少或收集不善时,即使是精度和召回率也存在盲点。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。