communications-mining
latest
false
重要 :
请注意,此内容已使用机器翻译进行了本地化。
Communications Mining 用户指南
Last updated 2024年11月19日
覆盖
覆盖是机器学习中经常使用的一个术语,表示模型“覆盖”用于分析的数据的程度。 在 Communications Mining™ 中,这与数据集中具有信息丰富的标签预测的消息的比例相关,并在验证中显示为百分比分数。
“ 信息标签 ”是平台通过查看 与其他标签一起分配的频率 ,认为 可用作独立标签 的标签。始终分配有另一个标签的标签,例如 在计算分数时,系统会降低从未单独分配的父标签或始终为其他标签分配“紧急”标签的父标签的权重。
下图显示了整个数据集的低覆盖率与高覆盖率的对比情况。 假设阴影圆圈是具有信息标签预测的消息。
作为指标,覆盖率是一种非常有用的方法,可以了解您是否已捕获数据集中的所有不同的潜在概念,以及是否已为它们提供足够多且多样化的训练示例,以便平台可以有效地进行预测。
几乎在所有情况下,模型的覆盖率越高,其性能就越好,但在检查模型性能时,不应单独考虑这一点。
同样非常重要的是,分类中的标签必须保持良好状态,这意味着它们具有较高的平均精度,并且没有其他性能警告,并且训练数据是整个数据集的均衡表示。
如果标签运行状况不佳或训练数据不能代表数据集,则平台计算的模型覆盖率将不可靠。
如果您使用模型来推动自动化流程,则具有高覆盖率的模型尤为重要。
有关模型覆盖率以及如何检查模型覆盖率的更多详细信息,请参见此处。