何时停止模型训练
借助平台全面的验证功能(包括模型评分功能),现在可以相对简单地了解何时停止训练模型。
模型所需的性能级别取决于您和您的企业,但平台的模型评分可让您很好地了解模型的性能,以及如何在需要时进行改进。
分数为70或更高的模型可归类为“良好”,而分数为90的模型才能归类为“优秀”。
无论用例如何,我们始终建议在停止训练之前确保以下内容:
- 您的模型至少具有可提供“良好”级别的总体分数,因为这意味着平台认为该模型整体上相对健康
- 每个单独的因素也至少具有“良好”的评分 (如下所示)
-
确保所有重要标签都没有红色或黄色性能警告
对于以分析为重点的模型,除了上面列出的因素外,模型训练者还应自行决定要在多大程度上优化模型性能。 性能要求可能取决于多种因素,包括用例的目标和模型训练器继续训练的能力。
如果要创建用于启用自动化的模型,建议为模型设置“优秀”评分,并且在将该模型部署到生产中之前,使用实时数据进行测试。
其他可选性能检查
虽然模型评分是一项全面的性能评估,但您可能需要完成一些其他检查,以确保您对模型的性能完全满意。
如果是这种情况,您可以使用建议的操作执行以下一些有用的检查。 值得注意的是,如果平台认为采取其中任何操作对您很重要,它也会在“验证”中推荐这些操作。
选中 | 流程 | 要执行的操作 |
---|---|---|
2 天经期预测审核 | 查看近期 1-2 天数据的预测:使用时间筛选器和下拉列表中的“最近”选择最近 2 天的数据。 查看预测,确保每条消息都具有相当高的可信度预测。 通过审核 1-2 天数据的预测,应确保涵盖所有潜在概念 |
如果有些消息没有预测或置信度不足,则将其注释为正常消息 • 然后以“随机播放”和“ 低置信 度”模式训练 更多内容 |
随机播放 | 在随机播放中查看至少 5 页的预测。 每条消息都应具有一个可信度较高的预测标签 |
如果有些消息没有预测或置信度不足,则将其注释为正常消息 • 然后以“随机播放”和“ 低置信 度”模式训练 更多内容 |
低可信度 | 低可信度模式会显示信息标签预测未充分涵盖的消息。 对于平台认为内容丰富的标签,这些消息将没有预测,或者预测的可信度非常低。 |
如果存在未覆盖的消息,请为其添加新标签,并正常训练 在找到现有标签消息的位置,照常应用该消息 |
“重新发现”” (见下文) | 返回到“发现” 可以显示应用任何标签的概率都很低的潜在新集群。 这应用于确保您没有错过任何潜在的标签,或者为现有标签提供更多样的示例,这与“低可信度”类似 |
如果存在预测值为零(或预测值非常低)的集群,则使用新标签或现有标签(如适用)注释该集群 • 照常训练出任何新标签 |
“重新发现”
“重新发现”是一个可以在训练过程中随时重新访问的步骤,但在检查您是否已完成足够的训练时也很有用。
此检查本质上只需要返回到“集群”模式下的“发现”页面,并查看其中的集群以检查其预测,并查看“发现”是否找到了训练可能遗漏的任何集群。
在平台中完成大量训练(180 个注释)或将大量数据添加到数据集中(1000 条消息或 1%,以较大者为准,并且至少 1 个注释),他们应该在整个训练过程中定期更新。
发现尝试查找标签预测未充分覆盖的集群。 如果“发现” 中的某些集群应预测某些标签,但没有预测,则您知道需要对这些标签进行更多训练。 有关如何在“发现”中注释集群的信息,请参阅此处。
如果您的模型训练有素,则“发现”将很难找到置信度较低或没有预测的集群。 如果您看到“发现” 中的每个集群都具有相当高的可信度和正确的预测,则可以很好地表明您的模型可以很好地覆盖数据集。