Communications Mining 用户指南

上次更新日期 2025年2月10日

数据集状态

了解数据集的状态

每次应用标签或查看数据集中的常规字段时，您的模型都将重新训练，并创建新的模型版本。要了解有关使用不同模型版本的更多信息，请参阅此处。

当模型重新训练时，它会获取提供的最新信息，并重新计算数据集中的所有预测。当您开始训练时，此过程将开始，通常当 Communications Mining 完成对一个模型版本的预测应用时，它已经在重新计算较新模型版本的预测。当您在一段时间后停止训练时，Communications Mining 将很快赶上并应用反映数据集中最新完成的训练的预测。

此过程可能需要一些时间，具体取决于已完成的训练量、数据集的大小以及分类中的标签数量。 Communications Mining 具有实用的状态功能，可帮助用户了解其模型何时是最新版本，或者模型是否正在重新训练以及预计需要多长时间。

当您位于数据集中时，页面顶部的以下两个图标之一将指示其当前状态：

	此图标表示数据集是最新的，并且已应用最新模型版本的预测。
	这表示模型正在重新训练，并且预测可能不是最新的。

如果您将鼠标悬停在图标上，则会看到有关状态的更多详细信息，如下所示：

数据集状态模态

注意：您有时可能会注意到，尽管您没有应用任何标签或审核任何常规字段，但 Communications Mining 仍处于重新训练过程中，这可能是因为我们的团队正在对我们的平台和模型部署改进，这些改进可能要求模型重新训练。任何依赖于特定模型版本号的自动化都不会受到影响。

对模型训练速度慢进行故障排除

为什么我的模型训练速度很慢？

首先，区分两个经常混淆的不同流程至关重要：

模型训练
此流程涉及重新训练当前模型版本以创建新版本，并合并任何最近的更改（例如分类更新或数据注释）。模型训练的速度通常很快，但持续时间可能会因多个因素而异
应用预测
此流程在模型训练后发生，平台会从经过训练的模型版本检索预测并将其应用于每条消息。应用预测通常会比较慢，并且持续时间主要受数据集的大小和复杂性影响。

有几个因素可能会导致数据集的特定模型版本训练或应用预测所花费的时间长于预期。其中包括：

标签和字段分类的复杂性
影响：数据集中的标签和字段越多，训练模型和在消息中应用预测所需的时间就越长。
使用生成式提取
影响：生成式提取需要理解标签和字段之间的复杂关系，需要规模更大、功能更强大的模型，而模型可能会减慢训练速度。
数据集的大小（已批注的数据和未批注的数据）
影响：大量带批注的消息会增加模型在训练期间必须考虑的数据点，从而延长流程。同样，大量未批注的消息会延长应用预测所需的时间。

注意:预测可用后会立即显示，因此您无需等待预测完成应用即可添加注释。如果平台在上一个版本的预测完成之前进行训练，则平台将切换为应用最新经过训练的模型版本中的预测。
同时训练的数据集数量
影响：如果多个模型同时在 Communications Mining 环境中训练，则可能会导致速度暂时变慢，因为平台会负载平衡所需服务。
何时联系支持团队
- 训练：如果上述原因都无法解释训练速度较慢，并且训练已持续超过 4 个小时，请联系支持团队。
- 应用预测：对于大型复杂的数据集，应用预测预计需要很长时间。仅当针对单个模型版本的此流程已持续超过 24 小时时，才联系支持团队。
注意：这不应阻止数据注释，因为您始终会从推出新预测中受益