communications-mining
latest
false
重要 :
请注意,此内容已使用机器翻译进行了本地化。
Communications Mining 用户指南
Last updated 2024年11月19日
分类设计最佳实践
我们建议您遵循以下最佳实践,以正确构建分类结构并确保模型具有高性能:
- 目标一致:确保每个标签都有特定的业务目的,并且与您定义的目标保持一致。
- 不同:每个标签必须明确其尝试捕获的内容,并且不与其他标签重叠,这一点很重要。
- “特定”:避免使用宽泛、模糊或令人困惑的概念,因为这些概念很可能表现不佳,并且提供业务价值的可能性较小。 如有可能,尝试将广泛的标签拆分为多个不同的标签。 最好一开始使用的标签过于具体(即更多的层次结构级别),然后在需要时将其合并,而不是手动分解非常广泛的标签。
- 可识别:确保每个标签都可以从所应用到的消息文本中清楚识别。
- 父标签:如果您希望有大量其他类似概念与这个更广泛的主题相关,请使用父标签。
- “子标签”:请确保嵌套在另一个标签下的每个标签都是该标签的子集。
- “层次结构级别”:随着模型的训练变得越来越复杂,一般来说,尽量不要添加超过四个层次结构级别。
- 标签名称:无需花费太多时间思考完美的标签名称,因为以后可以随时重命名标签。
- 标签说明:向标签添加标签说明(通过访问“设置”中的标签和常规字段)以确保注释的一致性,如果有多人训练模型,这将非常有用。
- Uninformative : 创建一些无价值的标签,例如 感谢电子邮件,这样您就可以告诉平台哪些分析重要/不重要。