communications-mining
latest
false
使用“低可信度”进行训练
重要 :
请注意,此内容已使用机器翻译进行了本地化。
Communications Mining 用户指南
Last updated 2024年10月3日
使用“低可信度”进行训练
所需的用户权限:“查看来源”和“审核并注释”。
“探索”的最后一个关键步骤是使用“低置信度”模式进行训练,该模式会显示信息标签预测未充分涵盖的消息。 对于平台认为内容丰富的标签,这些消息将没有预测,或者预测的可信度非常低。
“ 信息标签 ”是平台通过查看 与其他标签一起分配的频率 ,认为 可用作独立标签 的标签。
对于提高模型的整体覆盖率,这是非常重要的一步。 如果您看到应具有为其预测的现有标签的消息,则表示您需要为这些标签完成更多训练。 如果您看到当前没有适用的标签的相关消息,则可能需要创建新标签来捕获这些消息。
您可以在此模式下为消息分配与任何其他探索模式相同的标签。
要访问此模式,请使用“探索”页面左上角的下拉列表:
用于访问“低可信度”的下拉菜单
对于此步骤,我应该进行多少训练?
此模式将一次显示 20 条消息,您应该在此模式下完成合理的训练量,遍历多页消息并应用正确的标签,以帮助提高模型的覆盖率(有关详细说明,请参阅此处覆盖率)。
您需要在“低可信度”下完成的训练总量取决于几个不同的因素:
- 您在“随机播放和学习”中完成的训练量- 您在“随机播放和学习”中进行的训练越多,训练集作为整个数据集的代表性样本就越多,“低可信度”中的相关消息就越少。
- 数据集的用途- 如果数据集旨在用于自动化并且需要非常高的覆盖率,则应以“低可信度”完成大部分训练,以识别每个标签的各种边缘情况。
您的目标是在此模式下至少标注 5 页消息。 稍后在“优化”阶段检查覆盖率时,您可能会发现需要完成更多“低可信度”训练,以进一步提高覆盖率。