模型训练和标注最佳实践
在开始训练模型之前,请务必阅读以下提示并避免常见陷阱。 这将有助于缩短训练时间并提高模型的性能。
训练 Communications Mining 模型时,要记住以下三件最重要的事情:
添加所有适用标签:记得添加适用于消息的所有标签。 对于新用户来说,对消息进行部分注释是一个常见的陷阱,因为他们只应用了他们关注的注释,而忘记添加所有其他适用的注释。 不应用标签与应用标签一样有效,您是在告诉模型,该消息并不像它那样简单。 因此,应用所有标签非常重要,因为稍后可能会混淆模型,从而可能导致性能下降。
一致地应用标签:添加标签时要保持一致。 例如,如果您向消息添加“房间” > “大小”标签,而忘记在另一个应该添加的地方添加,则模型会感到困惑。 与上面的前一个技巧一样,当您不应用标签时,它与应用标签一样有效。
标注您在眼前看到的内容:应用业务知识时不要做出假设。 如果消息主题或正文中没有任何内容表明应应用某个标签,则请勿应用该标签,否则模型将无法理解其适用的原因。
其他提示:
无需花费大量时间来决定标签名称:无需花费太长时间考虑正确的标签名称。 您可以在训练过程中的任何时候重命名标签。
命名标签时应尽可能具体:命名标签时应尽可能具体,并在最初时尽可能保持分类扁平化。 最好在一开始就提供尽可能具体的标签名称,因为您以后可以随时更改和重组层次结构。
例如,如果您选择应用标签来描述房间的清洁度,则可以应用“房间清洁度”。 如果您稍后决定更改标签并将清洁度作为子标签,则可以将其重命名为“房间 > 清洁度”。 在此阶段,您应该向消息添加尽可能多的标签,因为稍后您随时可以返回并合并。