
Communications Mining 用户指南
了解和提高模型性能
link了解模型的整体性能
link机器学习模型的整体性能取决于许多影响因素,这些因素需要相互结合考虑。只考虑模型的标签是否具有较高的平均精度,或者仅查看预测本身覆盖了数据集的多少是不够的。
- 所有标签- 评估分类中所有标签的平均性能
- 表现不佳的标签- 评估存在最严重性能问题或整体运行状况最差的 10% 标签的性能
- 覆盖率- 评估预计至少具有一个信息量标签的消息所占比例
- 平衡- 评估审核的数据是否能有效、平衡地代表整个数据集
该平台将对这 4 个因素的评估整合为一个易于理解的专有模型评级。此评分是衡量模型性能的最佳方法,因为它考虑了评估标签模型时应依据的所有最重要因素,并按相对重要性进行加权。
模型评分是从 0 到 100 的分数,相当于“差” (0-49)、 “一般” (50-69)、 “良好” (70-89) 或“优秀” (90-100) 的评分。
“验证”还提供每个因素的细分 - 每个因素都有自己的定性评分,并显示构成该评分的指标。下文将更详细地讨论这些内容。
每个因素都可能对模型评分产生积极或消极影响,具体取决于其性能。对于每个因素的评分为“差”的模型,其整体评分很可能为零,尤其是在模型训练流程的早期阶段。
“模型版本”下拉列表可用于查看过去模型版本在给定数据集上的所有验证分数。您还可以为单个会话确定优先级或"星标",以便它们将来显示在列表顶部。在构建模型时,此工具可用于跟踪和比较进度。
下拉列表可确保您无需固定模型版本即可查看其验证分数。固定模型版本只需用于您希望能够通过 API 向下游调用的模型版本(例如,用于自动路由)。
因素
link如前所示,“验证” 中的“因素” 选项卡提供了计算 模型评分 时考虑的每个关键因素的细分。
每个因素卡都显示:
- 因素的评分及其定性描述
- 贡献者,是参与该因素评分的不同组件
- 按优先级顺序列出的建议操作,可帮助提高因素评分
全部标签
- 此因素评估分类中所有标签的平均性能,
- 它主要依赖于所有标签的平均精度(MAP),并按分配频率加权
- 当分类中的标签具有红色或黄色性能警告时,它还会考虑在内
- 针对此因素的建议操作通常旨在提高特定标签的平均精度,或消除其性能警告
效果不佳的标签
- 此因素用于评估分类中 10% 标签的性能,这些标签具有最严重的性能问题或整体标签“运行状况”最低(如果未返回警告)
- 如果最后 10% 的标签仍然表现良好,则这是您的模型运行良好的一个很好的信号
- 这取决于性能最低的标签的 MAP,以及这些标签是否存在任何重要的性能警告(即 红色或黄色警告)
- 针对此因素的建议操作通常旨在提高效果不佳的特定标签的平均精度,并删除任何其他单独的性能警告
覆盖
- 此因素评估预计具有至少一个信息量标签的消息比例。有关更多详细信息,请参阅验证的工作原理。
- 性能良好的模型必须使用信息丰富的标签预测“覆盖”尽可能多的数据集,这一点非常重要
- 针对此因素的建议操作旨在帮助提高数据集的覆盖率。这通常是在“低置信度”模式下进行训练。
- 有关覆盖率的更多详细信息,请参阅了解并提高覆盖率。
平衡
- 此因素用于评估审核的数据是否有效、平衡地表示整个数据集,旨在检测潜在的批注偏差。有关更多详细信息,请参阅验证的工作原理。
- 它依赖于相似度分数,该分数是通过将数据集中已审核的数据与数据集中的未审核数据进行比较得出的,以及注释数据时是否使用了足够的“随机播放”模式。
- 数据集中已审核的数据应与未经审核的数据尽可能相似,这一点很重要,以便平台可以尽可能可靠地识别数据。
- 针对此因素的建议操作旨在减少任何潜在的批注偏差,并提高已审核数据的相似度分数。
- 有关理解和改进数据集平衡的更多详细信息,请查看改进平衡性和使用重新平衡。
指标
“验证” 页面的“指标” 选项卡显示一些平均标签性能统计信息,以及显示每个标签的平均精度与其训练集大小的图表。该图表还标记了具有黄色或红色性能警告的标签。
显示的标签性能统计信息包括:
本质上, MAP分数越高,模型在预测准确性方面的整体性能就越好,但这会因数据类型和分类目标而异。
但是,MAP 并不能很好地衡量覆盖率或平衡性,也不应仅依赖它来确定模型是否符合预期。有关更多详细信息,请查看了解并且提升覆盖率和了解以及提升模型性能。
了解标签性能
link“验证” 页面的“指标” 选项卡中显示的标签性能图表以直观方式立即指示每个标签的性能。
要使标签显示在此图表上,平台在验证期间使用的训练集中必须至少存在 20 个固定示例。 为确保做到这一点,用户应确保为每个标签至少提供 25 个(通常更多)固定示例。
根据模型对标签性能的理解,每个标签将绘制为三种颜色中的一种。 下面,我们将解释这些含义:
为绩效指标添加标签
- 图表上绘制为蓝色的标签具有良好的性能级别。这基于许多影响因素,包括该标签的示例数量和类型、注释偏差以及平均精度。
- 绘制为黄色的标签的性能略差一些。它们的平均精度可能相对较低,训练示例不足,或者注释的方式可能带有偏差。这些标签需要进行一些训练/校正,以提高其性能或减少训练方式中的偏差。
- 绘制为红色的标签是效果不佳的标签。它们的平均精度可能非常低、训练示例不足,或其注释方式存在很大偏差。这些标签可能需要进行更多的训练/校正,才能将其性能提高到令人满意的水平,或显着减少训练方式中的偏差。
单个标签性能
link用户可以从标签筛选器栏中选择单个标签,也可以在“所有标签”图表上选择标签的图表,以查看标签的性能统计信息。特定标签视图还将显示任何性能警告和推荐的次最佳操作建议,以帮助提高其性能。
提高整体模型和单个标签的性能
link如果您的模型或特定标签存在性能警告,平台会推荐它认为有助于解决该警告的下一个最佳操作。这可以通过其中一个因素卡(如下所示)实现,也可以在您从分类或“所有标签”图表中选择特定标签时实现,如前所示。
对于一些平均精度非常低的标签,可能并不总是清楚它们表现不佳的原因。以下文章标签平均精度低的原因讨论了标签平均精度低的可能原因,以及改进方法。平台将始终提供其认为最佳的纠正措施来改进标签,并按优先级顺序列出。
当您不在“验证”页面中时,红色和黄色性能警告仍会显示在“探索”和“报告”的分类筛选器中,因此这些可以是检查验证以查看建议的纠正操作的有用指示器。
下一个最佳操作建议充当链接,您可以选择这些链接直接转到平台建议的训练视图,从而提高标签的性能或减少其偏差。系统会按照优先级最高的操作对建议进行智能排序,以改进首先列出的标签。
这些是帮助您了解模型性能的最重要工具,在尝试提高标签的性能时应定期用作指南。
了解标签阈值滑块
link%
数字,或者仅沿范围拖动滑块。
请注意,在上一个图像中,“报价” >“引擎” 标签的置信度阈值设置为 68.7%,从而提供 100% 的精度和 85% 的召回率。
然后,在下图中,已使用滑块将置信度阈值调整为 17%,从而将精度提高到 84%,但将召回率提高到 100%。
有关精度和召回率之间关系的更多详细信息,请参阅精度和召回率。
有关如何选择要在自动化中使用的阈值的更多详细信息,请参阅选择标签置信度阈值。