模型训练常见问题解答
- 常规模型训练
- 标签训练
训练模型的目的是创建一组尽可能具有整体数据集代表性的训练数据,以便平台可以准确且有把握地预测每条消息的相关标签和常规字段。 数据集中的标签和常规字段应与用例的整体目标有内在联系,并提供重要的业务价值。
数据上传到平台后,平台会立即开始一个称为无监督学习的过程,从而将消息分组到具有相似语义意图的集群中。 此过程最多可能需要几个小时,具体取决于数据集的大小。完成后系统将显示集群。
为了能够训练模型,您需要最少量的现有历史数据。 这可用作训练数据,以便为平台提供必要的信息,以便有把握地预测用于分析和/或自动化的每个相关概念。
对于任何用例,建议至少使用 12 个月的历史数据,以便正确捕获数据中的任何季节性或不规则性(例如 月末流程和旺季)。
不,您不需要在进行任何更改后保存模型。 每次根据数据训练平台时(即 注释任何消息),则将为您的数据集创建一个新的模型版本。 可以在“验证”中查看旧模型版本的性能统计信息。
请查看平台中的“验证”页面,该页面会报告各种性能指标,并提供整体模型运行状况评分。 此页面会在每次训练后更新,可用于识别模型可能需要更多训练示例或更正一些标签的领域,以确保一致性。
有关模型性能及其改进方法的完整说明,请参阅 “验证”页面。
集群是帮助您快速构建分类的有效方法,但用户将大部分时间都花在“探索”训练上,而不是“发现”训练上。
如果用户花费过多时间通过集群进行批注,则在进行预测时,模型可能会过度拟合以仅查找适合这些集群的消息。 每个标签的示例越多样化,模型就越能更好地找到表达同一意图或概念的不同方式。 这就是我们一次只显示 30 个集群的主要原因之一。
但是,一旦完成了足够的训练或将大量数据添加到平台中(请参阅此处),“发现” 就会重新训练。 重新训练时,它会考虑迄今为止的现有训练,并将尝试呈现当前分类法未涵盖的新集群。
有关“发现”的更多信息,请参见此处。
总共 30 个集群,每个集群包含 12 条消息。 在平台中,您可以以每页 6 到 12 之间的增量筛选页面上显示的消息数量。 我们的建议是一次注释 6 个消息,以确保降低对任何消息进行部分注释的风险。
精度和召回率是用于衡量机器学习模型性能的指标。 有关每个选项的详细说明,请参阅我们的操作指南的 “使用验证”部分。
您可以将鼠标悬停在“验证”页面左上角的“模型版本”上,以访问早期模型的验证概述。 这有助于在训练模型时跟踪和比较进度。
如果您需要将模型回滚到以前的固定版本,请参阅此处了解更多详细信息。