- 入门指南
- 管理
- 管理来源和数据集
- 模型训练和维护
- 了解数据要求
- 训练
- 概述
- 使用集群进行训练
- 使用搜索(发现)进行训练
- 使用常规字段
- 生成式提取
- 使用分析和监控
- 自动化和 Communications Mining
- 许可证信息
- 常见问题及解答
Communications Mining 用户指南
使用集群进行训练
所需的用户权限:“查看来源”和“审核并注释”。
数据进入平台后,平台会将其认为具有相同概念或类似意图的30 个通信集群(消息)分组并显示。 这部分训练的目的是遍历每个集群,并标注每个集群中显示的数据。
此流程使您可以更轻松快捷地开始训练模型,因为您可以一次为多条类似的消息添加标签,也可以根据需要为单条消息添加/删除标签。
有关标注集群的有用提示:
- 不要花太多时间考虑标签名称。 您可以在训练过程中的任何时候重命名标签。
- 命名标签时应尽可能具体,并在最初时尽可能保持分类扁平化(不要添加太多子标签)。 最好在一开始就提供尽可能具体的标签名称,因为您以后可以随时更改和重组层次结构。 在此阶段,您应该向消息添加尽可能多的标签,因为以后可以随时返回并删除标签,这比展开现有标签更快更容易。
- 请记住,首先创建更具体、更精细的分类通常更容易。 如果分类过于详细,则以后很容易编辑和“修剪”您的分类。 这意味着添加更多而不是更少的标签和子标签
- 最好从扁平层次结构中的标签开始(不要添加太多子标签)– 稍后您可以随时将分类重新构建为更具层次结构的结构
- 每条消息都可以分配有多个标签 - 确保应用所有相关标签,否则您将指示模型不要将其与您省略的标签相关联
- 最好现在就花点时间仔细标注,以便机器日后快速准确地预测标签
- 并非所有集群都具有明显相似的意图,如果它们都不同,则可以继续
首次创建新数据集时,您可能会发现“发现”为空,如下所示。 别担心,这只是因为平台的算法正在后台忙于将您的消息分组到集群中。 根据数据源中的消息数量,这可能需要几个小时来处理。
发现的布局和示例集群如下所示。 在此示例中,平台已检测到这些消息具有共同的主题,即酒店床铺的舒适度:
布局说明:
A
- 用于在“集群”和“搜索”模式之间切换的“切换”按钮B
- 用于在不同集群之间切换的下拉菜单C
- 将标签应用于页面上显示的所有消息的按钮D
- 集群 #7 中显示的六条消息之一(每个集群包含 12 条消息)E
- 用于将标签应用于单条消息的按钮F
- 用于调整页面上显示的消息数量的下拉菜单(6 到 12 之间)G
- 用于调整和反转页面上消息选择的按钮H
- 用于取消选择消息的按钮,以将其从批量添加的标签中排除
如下图中突出显示的那样,“发现”会突出显示消息中最有助于该消息纳入集群的部分,以帮助您更快地识别常见主题:
探索高亮显示常见主题
- 深色线条表示跨度中更重要的部分(将鼠标悬停在其上时会说明)
- 颜色较浅的线表示对集群的贡献中等或稍弱
1.查看集群中的每条消息
2. 如果您认为存在某个标签适用于页面上的所有邮件消息,请选择“添加标签”
3.输入标签名称,然后按Enter键,或单击出现的“固定” 按钮(您可以通过这种方式一次添加多个标签,只需输入另一个标签,然后再次单击“固定” 按钮即可)。
4. 单击“应用标签”按钮为消息分配标签。 现在,分配的标签将显示在页面上每条消息的下方。
或者,也可以通过单击下方高亮显示的“添加标签 + ”按钮,向单则消息添加标签。
如果您要向页面上的一组消息添加标签,但希望排除一个或多个消息,则可以使用高亮显示的切换按钮(A) 取消选择它们。 然后,您可以使用顶部高亮显示的按钮反转选择或取消选择/重新选择全部 (B)。
您可以查看同一集群的不同页面 (A),并使用高亮显示的按钮调整每页的消息数量 (B)。 注释完集群后,您可以使用下面的下拉列表 (C) 将其移至新集群。
该模型将为您提供30 个集群,重要的是要完成这些任务,为“探索” 阶段打下坚实的基础。 但是,如果集群与您不相关,请跳过它。
在完成大量训练后,“发现” 活动开始重新训练。 在注释了 180 条消息(集群的一半)后,发现将重新训练和更新集群。 不要灰心,继续阅读这些步骤吧,直到您完成至少30 个步骤的审核。