了解和提高模型性能
机器学习模型的整体性能取决于许多因素,这些因素需要结合考虑。 仅考虑模型标签的平均精度是否较高,或者仅查看预测本身覆盖了数据集的多少部分是不够的。
- 所有标签- 此因素评估分类中所有标签的平均性能
- 表现不佳的标签- 此因素用于评估存在最严重性能问题或整体运行状况最差的 10% 标签的性能
- 覆盖- 此因素评估预计具有至少一个信息标签的消息所占比例
- 平衡- 此因素用于评估已审核的数据是否有效且均衡地代表整个数据集
该平台将对这 4 个因素的评估合并到一个易于理解的专有“模型评分”中。 此评分是衡量模型性能的最佳方法,因为它考虑了评估标签模型时应考虑的所有最重要因素,并按相对重要性进行加权。
“模型评分”是从 0 到 100 的分数,相当于“差” (0-49)、“一般” (50-69)、“良好” (70-89) 或“优秀” (90- 100)。
验证还提供每个因素的细分- 每个因素都分配有自己的定性评分,并显示有助于该评分的指标。 这些将在下面进行更详细的讨论。
每个 因素 都可以对 模型评分 产生积极或消极 的影响,具体取决于其表现。对于 每个因子 都评分为“ 差 ”的模型,其整体 评分很可能为零 ,尤其是在模型训练流程的早期阶段。
模型评分特定于标签,不考虑一般字段的性能。 但是,验证也提供有关一般字段预测性能的详细指标(请参阅此处)。
使用位于模型评分上方的“模型版本”下拉列表,您可以查看给定数据集上过去模型版本的所有验证分数。 您还可以为单个任务确定优先级或“星标”,以便它们将来显示在列表顶部。 在您构建模型时,此工具可用于跟踪和比较进度。
下拉列表可确保您无需固定模型版本即可查看其验证分数。 固定模型版本(请参阅此处)仅适用于您希望能够通过 API 向下游调用的模型版本(例如,用于自动化路由)。
“验证”中的“因素”选项卡(如上所示)提供了计算模型评分时考虑的每个关键因素的细目分类。
每个因素卡都显示:
- 因素的评分及其定性描述
- 影响因素,即影响该因素评分的不同组件
- 建议操作, 按优先级顺序列出,可帮助提高因素评分
全部标签
- 此因素评估分类中所有标签的平均性能,
- 它主要依赖于所有标签的平均精度(MAP),并按分配频率加权
- 当分类中的标签具有红色或黄色性能警告时,它还会考虑在内
- 针对此因素的建议操作通常旨在提高特定标签的平均精度,或消除其性能警告
效果不佳的标签
- 此因素用于评估分类中 10% 标签的性能,这些标签具有最严重的性能问题或整体标签“运行状况”最低(如果未返回警告)
- 如果最后 10% 的标签仍然表现良好,则这是您的模型运行良好的一个很好的信号
- 这取决于性能最低的标签的 MAP,以及这些标签是否存在任何重要的性能警告(即 红色或黄色警告)
- 针对此因素的建议操作通常旨在提高效果不佳的特定标签的平均精度,并删除任何其他单独的性能警告
覆盖
- 此因素评估预计具有至少一个信息标签的消息所占比例(有关更多详细信息,请参阅此处)
- 性能良好的模型必须使用信息丰富的标签预测“覆盖”尽可能多的数据集,这一点非常重要
- 针对此因素的建议操作旨在帮助提高数据集的覆盖率。 这通常是在“低可信度”模式下进行训练
- 此处详细介绍了了解和增加数据集的覆盖率
平衡
- 此因素评估审核的数据是否能有效、平衡地表示整个数据集,并旨在检测潜在的注释偏差(有关更多详细信息,请参阅此处)
- 它依赖于“相似度分数”,该分数是通过将数据集中已审核的数据与未审核的数据进行比较以及批注数据时是否使用了足够的“随机播放”模式而得出的
- 数据集中已审核的数据应与未审核的数据尽可能相似,这一点很重要,这样平台才能尽可能可靠地识别其中的数据
- 针对此因素的建议操作旨在减少任何潜在的标注偏差,并提高所审核数据的相似度分数
- 此处详细介绍了如何了解和改善数据集的平衡性
请注意:即使因素的评分为“良好”或“优秀”,平台仍会尝试显示可改善该因素的次佳操作。 如果您想继续优化该因子的性能,则可以使用此选项。
指标
“验证”页面的“指标”选项卡显示一些平均标签性能统计信息,以及显示每个标签的平均精度与其训练集大小的图表。 该图表还会标记具有黄色或红色性能警告的标签。
显示的标签性能统计信息包括:
本质上,您的MAP分数越高,模型在预测准确性方面的整体表现就越好,但这会因数据类型和分类目标而异。
“验证”页面(见上文)的“指标”选项卡中显示的标签性能图表提供有关每个标签性能的即时可视化指示。
要使标签显示在此图表上,平台在验证期间使用的训练集中必须至少存在 20 个固定示例。 为确保做到这一点,用户应确保为每个标签至少提供 25 个(通常更多)固定示例。
根据模型对标签性能的理解,每个标签将绘制为三种颜色中的一种。 下面,我们将解释这些含义:
标签性能指标:
- 图表上绘制为蓝色的标签具有令人满意的性能水平。 这基于许多影响因素,包括示例的数量和种类、注释偏差以及该标签的平均精度。
- 绘制为 黄色 的标签的 性能 稍差 一些 。它们的平均精度可能相对较低,训练示例不足,或者注释方式可能存在偏差。 这些标签需要进行一些训练/校正,以提高其性能或减少训练方式中的偏差。
- 绘制为红色的标签是效果不佳的标签。它们的平均精度可能非常低,训练示例不足,或其注释方式存在很大偏差。 这些标签可能需要进行大量训练/更正,才能将其性能提高到令人满意的水平,或显着减少训练方式中的偏差。
请注意:您将在“探索”、“报告”和“验证”的标签筛选栏中看到黄色和红色绩效指标。 这有助于在使用分析功能时快速通知您哪些标签需要帮助,以及哪些标签的预测不应依赖(无需进行改进)。
用户可以从标签筛选器栏中选择单个标签(或通过单击“所有标签”图表上的标签图),以查看标签的效果统计信息。特定标签视图还将显示所有性能警告和推荐的下一个最佳操作建议,以帮助提高其性能。
如果您的模型或特定标签存在性能警告,平台会推荐其认为有助于解决该警告的下一个最佳操作。 这可以通过其中一个因素卡(如下所示)实现,也可以在您从分类或“所有标签”图表中选择特定标签(如上所示)时实现。
对于某些平均精度非常低的标签,可能并不总是清楚它们表现不佳的原因。 标签平均精度较低的可能原因以及如何改进,将在此处的以下文章中讨论。 平台将始终提供其认为最佳的纠正措施来改进标签,并按优先级顺序列出。
当您不在“验证”页面中时,红色和黄色性能警告仍会出现在“探索”和“报告”的分类筛选器中,因此这些可以作为检查“验证”以查看建议的纠正操作的有用指示器。
下一个最佳操作建议充当链接,单击该链接会将您定向到平台建议的训练视图,以提高标签的性能或减少其偏差。 建议会按照优先级最高的操作对建议进行智能排序,以改进首先列出的标签。
这些是帮助您了解模型性能的最重要工具,在尝试提高标签性能时应定期将其用作指南。
请注意:如果您选择了较旧的模型版本,您仍会看到警告和建议的操作,但如果您将鼠标悬停在信息图标上,则会弹出一个窗口,警告您无法更改这些特定的统计信息,因为是更新的模型版本(您可以使用)。
请注意:调整置信度阈值滑块实际上不会影响模型,它只是以可视化方式表示在选择特定置信度阈值时该标签的预测将受到的影响。 这可以帮助您为流选择合适的阈值,或使用预测进行下游自动化。
要调整标签的可信度阈值,用户可以在框中键入百分比数字,或者仅沿刻度拖动滑块。
请注意,在上图中,“报价 > 马达”标签的置信度阈值设置为 68.7%,从而提供 100% 的精度和 85% 的召回率。
然后,在下图中,使用滑块将置信度阈值调整为 17%,这使精度降低到 84%,但将召回率提高到 100%。