
Communications Mining 用户指南
标签层次结构和最佳实践
为了实现您的业务目标,在开始训练模型之前,了解如何创建分类非常重要。 这包括如何命名和构建标签,以及标签应包含的内容。 有关更多详细信息,请查看构建分类结构。
>
分隔),以在标签概念是更广泛的父概念的子集时进行捕获。
标签结构示例:
- [父标签]
- [父标签] > [子标签]
- [父标签] > [分支标签] > [子标签]
您可以添加三个以上的层次结构,但我们不建议您经常这样做,因为训练模型会变得复杂。 要添加其他层次结构级别,您可以稍后在模型训练流程中重命名标签。
>
建立。
要了解层次结构的工作原理,请考虑“标签层次结构”部分图表中的“子标签 X”。
当模型预测“子标签 X”适用于消息时,它还会同时预测“分支标签 C”和“父标签 1”。 这是因为子标签 X 是两者的子集。
层次结构的每个级别都会增加特定性级别。 但是,与分配更具体的子标签相比,模型通常在分配父标签或分支标签时更具置信度。 这意味着模型可以为同一层次结构中的不同标签预测分配不同的概率。
举个例子,对于特定的消息,模型可以是:
- 父标签 1 适用的置信度为 99%。
- 分支标签 C 适用的置信度为 88%。
- 子标签 X 适用的置信度为 75%。
模型会独立预测每个标签,因此父标签必须代表真实的主题或概念,而不是抽象的主题或概念,这一点很重要。
例如,如果将特定流程进行分组,则使用“流程”作为父标签无效,因为流程过于抽象,模型无法预测。 相反,消息文本中的特定流程名称用作父标签效果更好,而分支标签和子标签则表示相关子流程。
有时,您可能需要就分类的结构做出艰难的选择。 例如,可能很难选择一个标签应该是父标签还是子标签。 发生这种情况是因为标签在逻辑上可以用作具有自己的子类别的广泛父类别,也可以是另一个更广泛的父类别的特定子类别。
例如,假设有一个旅馆评论数据集。 许多审核可能包括假期和产品各方面的定价,例如餐厅、酒吧、房间、活动等。
您可以考虑以下选择:
- 您可以将“定价” 作为父标签,并且可以让“定价” 的每个特定方面(即 餐厅)作为子标签。
- 但是,您也可以使用与特定方面(例如“餐厅”和“房间”)相关的父标签,并将“定价”作为每个父标签下的子标签。
在您做出决定时,请务必考虑以下事项:
- 您是否想要包含与此更广泛的主题相关的许多其他概念? 如果是,则它应该是父标签。
- 从管理信息或报告的角度来看,要跟踪的最重要的事情是什么? 考虑到我们的示例,在 Communications Mining 分析中清楚地查看有多少人在讨论定价及其子类别是否有用? 还是查看有关会议室、餐厅、活动等反馈的总体统计信息(定价只是其中一个方面)是否更有帮助?
在这些情况下,并不总是明确的正确或错误答案,这最终取决于什么对您和您的企业最重要。
到目前为止,我们已经讨论了如何为标签命名以及如何在层次结构中构建标签。 但是,您可能仍然想知道标签到底应捕获什么。
务必记住,Communications Mining 是一种自然语言处理 (NLP) 工具。 平台会读取并解释分配了标签的每条消息,并开始主要根据标签中的文本来了解如何识别标签概念。
当您为每个标签添加更多样且一致的示例时,模型会加深对该标签概念的理解。 一旦标签表现良好,请避免添加更多标签,因为该过程会产生收益递减。 此外,请避免接受一个标签的大量高可信度预测,因为这不会为模型提供新信息。
由于 Communications Mining 使用消息语言来理解和识别标签概念的构成,因此标签必须能够从所应用的消息文本中清楚识别。 对于电子邮件消息,这包括电子邮件的主题和正文。
Cancellation > Confirmation > Termination
标签:
您可以从电子邮件主题和正文中清楚地推断出标签名称。
虽然模型可以考虑某些元数据属性(例如 NPS 分数),但当模型针对客户反馈数据集进行训练以帮助理解情感时,消息文本仍然是 Communication Mining 模型最重要的数据。
这意味着每个标签必须特定于其旨在捕获的内容。 否则,模型将难以识别准确预测标签概念所必需的语言趋势和模式。
如果您使用非常广泛的标签(例如“常规查询”或“其他”)将多个不同的主题分组,并且提供给模型的示例之间没有明确的模式或共性,则这些标签可能不会有帮助。
为了使模型能够准确预测标签,需要标签捕获的每个概念的各种表达式的多个相似示例。 因此,非常广泛的标签需要大量示例才能有效进行预测。
最好将广泛的标签拆分为不同的标签,即使是“其他所有” > [各种子标签] 也是如此。
与非常广泛的父类别相比,如果模型可以更好地识别子标签,因为它更具体且可清晰识别,则它也可以显着增强预测父标签的能力。
“生成式批注”功能使用标签描述和标签名称自动训练专用模型。 因此,为每个标签添加清晰且信息丰富的描述性描述非常重要,以便模型可以生成准确的预测。
生成式 AI 模型使用描述作为输入,在后台预批注消息。 这会减少您花费在手动标注示例上的时间和精力。
“创建数据集” 流程创建标签说明后,您可以添加标签说明,也可以从“数据集设置” 中的“分类” 页面添加或编辑标签说明。
在整个模型构建过程中保持标签一致性的一种有效方法是为每个标签添加说明。 如果多个用户训练您的模型,这将非常有用,因为它可以确保所有用户对给定标签及其关联概念有相同的理解。 维护标签一致性的另一个好处是,如果您需要将模型转让给其他用户,可以提高切换流程的效率。