标签层次结构和最佳实践
在开始模型训练之前,了解 如何创建分类 非常 重要 ,包括 命名和构建标签 , 以及这些 标签应实际捕获 的内容。本文将从命名标签开始介绍每个主题。
下一篇文章将讨论为什么正确构建分类对实现业务目标(在这里)如此重要。
为标签确定名称似乎是一项令人生畏或耗时的工作,但事实并非如此。
首先,对于我们的模型,标签名称 是什么 并不重要 ,标签名称本身只是一个数字。重要的是,标签名称必须服务于业务目的,并且是对其旨在捕获的特定概念的有用描述。
您可以随时重命名标签(请参阅如何操作),也可以在需要时添加层次结构级别,因此在首次构建模型时,无需花费太多时间思考完美名称。
命名标签的一部分是确定其在分类中的层次结构。 标签可以具有多个层次结构级别,仅用“ > ”分隔,以便在标签概念是更广泛的父概念的子集时进行捕获。
因此,潜在的标签结构可能如下所示(另请参阅下图中的示例):
- [父标签]
- [父标签] > [子标签]
- [父标签] > [分支标签] > [子标签]
您可以添加三个以上的层次结构,但我们不建议经常这样做,因为训练起来会变得越来越复杂。 在某些情况下可能需要这样做,但这不应被视为最佳实践。
从概念上讲,嵌套在另一个标签下的每个标签必须是其上一个标签的子集,这一点很重要。 键入标签名称时,会使用“>”创建此嵌套(层次结构级别) 。
下面的图表使用维恩图说明了这一点:
同样,您可以稍后在模型训练过程中通过重命名标签来添加其他层次结构级别。
为理解这一点,我们以上面视觉对象中的“子标签 X ”为例。
当模型预测“子标签 X”适用于消息时,它 还会同时 预测 “ 分支标签 C ”和“ 父标签 1 ”。这是因为“子标签 X”是这些标签的子集。
但是,由于每个层次结构级别都增加了越来越多的特定性级别,因此与更特定的子标签相比,模型可以更确信父标签或分支标签适用。 这意味着模型可以为同一层次结构中的不同标签预测分配不同的概率。
因此,对于特定消息,模型可以是:
- “ 父标签 1” 适用的 置信度为 99%
- “ 分支标签 C ”适用的 置信度为 88%
- “ 子标签 X ”适用的 可信度为 75% 。
值得注意的是,如果为消息预测了子标签,则模型在预测 父 标签(和适用的 分支 标签)时应 始终 至少具有与 子标签 相同的置信度(如果不是更高的话)。
模型独立预测每个标签,这一事实是父标签应捕获真正的主题或概念,而不是抽象的主题或概念,这一点很重要的关键原因之一。
例如,如果使用“流程”等父标签将与特定流程相关的子标签分组,则不建议将父标签设为父标签。 “流程”本身是一个抽象概念,模型无法自行准确预测。 在业务上下文中,与某项内容相关的特定流程的名称(可以从消息文本中识别)将是一个有用的父标签。 有用的分支和子标签可以是主要父流程的相关子流程。
如何选择哪些概念应为父标签,哪些应为子标签?
有时,您可能需要对分类结构做出艰难的选择。 例如,选择一个标签是父标签还是子标签可能很困难,因为它在逻辑上可能是一个带有自己的子类别的广泛父类别,也可能是另一个更广泛父类别的特定子类别。
例如,假设一个由酒店评论组成的数据集 - 可能有许多评论讨论他们的假期和酒店的不同方面的定价 - 餐厅、酒吧、房间、活动等。
从逻辑上讲,您可以将“定价”作为父标签,并将定价的每个特定方面(例如 餐厅)作为子标签。
但是,您也可以设置与特定方面(如“餐厅”和“房间”)相关的父标签,并将“定价”作为每个标签下的子标签。
那么,您应该选择哪个呢?
做出决定时,考虑以下几点会有所帮助:
- 您是否可能还需要了解大量与这个更广泛的主题相关的其他概念? 如果是,则可能应该是父标签
- 从 MI 或报告的角度来看,要跟踪的最重要的事情是什么? 考虑到我们的示例,如果能够在 Communications Mining 分析中清楚地了解有多少人在谈论定价及其子类别,是否更有帮助? 或者查看有关客房、餐厅、活动等反馈的总体统计信息(其中包括定价)是否更有帮助?
在这些情况下,答案不一定是正确或错误的,这取决于什么对您和您的企业更重要。
到目前为止,我们已经讨论了如何命名标签以及在层次结构中构建标签,但您可能仍然想知道标签到底应该捕获什么?
请务必记住,Communications Mining 是一种自然语言处理工具。 平台会读取并解释已分配标签的每条消息,并开始了解如何主要根据标签概念中的文本来识别该标签概念。
当您为每个标签添加更多样且一致的示例时,模型会加深对标签概念的理解。 但是,一旦标签效果良好,添加更多标签是一个收益递减的过程。 接受标签的大量高可信度预测不会为模型提供新信息,这种做法应该避免。
由于 Communications Mining 使用消息的语言来理解和识别标签概念的构成,因此标签必须能够从所应用消息的文本(即语言)中清楚识别。 对于电子邮件消息,这包括电子邮件的主题和正文。
请参阅下面的此电子邮件示例,其中已应用标签“取消 > 确认 > 终止”。 此标签可以从电子邮件的 主题 和 正文 中 清楚推断 出来。
虽然模型在训练时可以考虑某些元数据属性,尤其是像 NPS 分数(用于客户反馈数据集)这样可以帮助模型理解情感的属性,但到目前为止,消息文本才是训练模型考虑的最重要的数据。 Communications Mining 模型。
该模型不会考虑电子邮件的特定发件人或收件人地址,因此在确定应将哪个标签应用于电子邮件消息时,不应使用此模型。
这一切都意味着,每个标签必须特定于其尝试捕获的内容,否则模型将无法识别语言中的趋势和模式,从而帮助预测标签概念。
如果使用非常广泛的标签(例如“一般查询”或“其他所有”)将大量不同的不同主题分组,并且提供给模型的示例之间没有明确的模式或共性,则这些标签的作用可能非常有限。
如果模型要很好地预测标签,则需要针对标签捕获的每个概念的不同表达式提供多个相似示例。 因此,要准确预测非常广泛的标签,就需要大量样本。
通常更好的做法是将广泛的标签拆分为不同的标签 - 即使您有“其他所有标签 > [各种子标签] ”。
如果模型能够更好地识别更具体、更清晰可识别的子标签(与非常广泛的父类别相比),则实际上也可以显着提高预测父标签的能力。