Communications Mining 用户指南
构建分类结构
分类的结构(包括其中每个标签捕获的内容)是一个至关重要的因素,它决定了模型的性能及其与业务目标的实现程度。
因此,在训练模型之前,请务必考虑目标分类结构。 话虽如此,随着您训练的进展,您应该有一定程度的灵活性来适应、扩展和增强它(根据需要)。 这就是我们所说的“以数据为主导”的训练方法。
最终,分类中的标签以及为每个标签提供的训练示例应从整体上创建数据集的准确且平衡的表示。 但是,每个标签也应该很有价值,因为它会以某种方式清楚地表示所预测的消息。
如果使用标签来捕获非常广泛、模糊或混淆的概念,则它们不仅很可能表现不佳,而且不太可能提供业务价值。 这可以提供有关该概念的有用见解,或帮助在下游实现流程的完全或部分自动化。
一家公司的不同收件箱每年会收到数百万封来自客户的电子邮件,其中涉及大量问题、查询、建议和投诉等。
该公司决定通过自动将客户的这些电子邮件转换为工作流工单,以提高运营效率、实现流程标准化以及业务动态的可见性。 然后,可以使用指定的流程在设定的时间表内跟踪这些事件并采取相应措施。
为此,他们决定使用该平台来解释这些入站非结构化通信,并提供有关与电子邮件相关的流程和子流程的分类。 此分类用于更新将使用自动化服务自动创建的工作流工单,并确保将其路由到正确的团队或个人。
为确保此用例尽可能成功,并将异常(错误分类或平台无法准确分类的电子邮件)的数量降到最低,每封入站电子邮件都应收到一个可信预测,该预测具有父标签和子标签,即 [流程 X] > [子流程 Y]。
鉴于我们的目标是使用“[流程]”和“[子流程]”对每封入站电子邮件进行分类,因此分类中的每个标签都应符合以下格式:
在此用例中,任何电子邮件如果父标签和子标签都不具有置信度预测,则可能会出现异常,将其发送以供手动审核并创建票证。 或者,如果它具有高置信度父标签预测,但没有置信度子标签预测,则仍可使用此预测来部分路由电子邮件或创建工单,并进行一些额外的手动工作来添加相关子流程。
如果我们假设前者为 true,并且每封没有以 [流程] > [子流程] 形式出现的高置信度预测的电子邮件都将成为手动异常,则当训练反映此格式的模型。
分类中的每个父标签都应与与电子邮件中的内容相关的广泛流程相关,例如 “开票”。 然后,每个子标签应该是位于父标签下的更具体的子流程,例如 “开具发票 >状态请求”。
请记住,每个标签必须明确其要捕获的特定内容,这一点很重要。 如果使用非常广泛的标签(例如“一般查询”或“其他所有”)将大量不同的不同主题分组,并且固定的示例之间没有明确的模式或共性,则这些标签可能非常没有帮助。
在此用例中,当创建工作流工单并将其分类为“一般查询”或“其他所有”工作流工单时,它们也不会提供太多业务价值。 有人仍需要仔细阅读,以了解其内容以及是否与其团队相关,然后才能采取行动。
这消除了任何节省时间的优势,并且不会为企业提供有用的 MI,了解团队实际正在完成的工作。
请注意:这只是如何为特定用例构建分类的一个示例,并非万能方法。 每个项目都需要唯一的标签分类,这在很大程度上取决于您的特定用例、数据集和目标。