Communications Mining 用户指南
数据集状态
每次应用标签或查看数据集中的常规字段时,您的模型都将重新训练,并创建新的模型版本。 要了解有关使用不同模型版本的更多信息,请参阅此处。
当模型重新训练时,它会获取提供的最新信息,并重新计算数据集中的所有预测。 当您开始训练时,此过程将开始,通常当 Communications Mining 完成对一个模型版本的预测应用时,它已经在重新计算较新模型版本的预测。 当您在一段时间后停止训练时,Communications Mining 将很快赶上并应用反映数据集中最新完成的训练的预测。
此过程可能需要一些时间,具体取决于已完成的训练量、数据集的大小以及分类中的标签数量。 Communications Mining 具有实用的状态功能,可帮助用户了解其模型何时是最新版本,或者模型是否正在重新训练以及预计需要多长时间。
当您位于数据集中时,页面顶部的以下两个图标之一将指示其当前状态:
此图标表示数据集是最新的,并且已应用最新模型版本的预测。 | |
这表示模型正在重新训练,并且预测可能不是最新的。 |
如果您将鼠标悬停在图标上,则会看到有关状态的更多详细信息,如下所示:
- 模型训练
此流程涉及重新训练当前模型版本以创建新版本,并合并任何最近的更改(例如分类更新或数据注释)。 模型训练的速度通常很快,但持续时间可能会因多个因素而异
- 应用预测
此流程在模型训练后发生,平台会从经过训练的模型版本检索预测并将其应用于每条消息。 应用预测通常会比较慢,并且持续时间主要受数据集的大小和复杂性影响。
- 标签和字段分类的复杂性
影响:数据集中的标签和字段越多,训练模型和在消息中应用预测所需的时间就越长。
- 使用生成式提取
影响:生成式提取需要理解标签和字段之间的复杂关系,需要规模更大、功能更强大的模型,而模型可能会减慢训练速度。
- 数据集的大小(已批注的数据和未批注的数据)
影响:大量带批注的消息会增加模型在训练期间必须考虑的数据点,从而延长流程。 同样,大量未批注的消息会延长应用预测所需的时间。
注意:预测可用后会立即显示,因此您无需等待预测完成应用即可添加注释。 如果平台在上一个版本的预测完成之前进行训练,则平台将切换为应用最新经过训练的模型版本中的预测。 - 同时训练的数据集数量
影响:如果多个模型同时在 Communications Mining 环境中训练,则可能会导致速度暂时变慢,因为平台会负载平衡所需服务。
- 何时联系支持团队
- 训练:如果上述原因都无法解释训练速度较慢,并且训练已持续超过 4 个小时,请联系支持团队。
- 应用预测:对于大型复杂的数据集,应用预测预计需要很长时间。 仅当针对单个模型版本的此流程已持续超过 24 小时时,才联系支持团队。
注意:这不应阻止数据注释,因为您始终会从推出新预测中受益
如果您的模型在完成应触发训练的操作(例如使用标签或字段批注消息)后 1 小时内没有开始训练,请联系支持团队。
检查训练状态: 您可以通过检查数据集中任何页面右上角的数据集状态,来验证模型是否正在训练