Communications Mining 用户指南
了解数据要求
本文提供了优化训练体验并最大限度地利用分析和自动化提供的价值所需的通信数据量的准则。
- 投资回报率 (ROI)
- 复杂性
- 技术限制
充分利用 Communications Mining™。 实施,我们建议从大批量的用例开始。 这些案例受益于 Communications Mining 高效处理大量消息数据的能力,无论是用于历史分析和实时监控,还是自动化。
部署用例所需的工作量不会随着消息量的增加而显着增加。 因此,与小批量用例相比,大批量用例在实施工作方面往往会提供更好的投资回报。 这对于资源有限的组织或需要外部支持以进行实施的组织非常重要。
但是,如果您的业务量较小,但业务价值较高,则您也应考虑这些用例。 许多小批量用例在技术上是可行的,不应忽略。
许多用例都具有一定的复杂性(就要提取的标签和字段的数量和复杂性而言),这不太适合数量非常少的消息。 这是因为数据集中各种复杂概念或字段的示例可能不足,无法有效地微调和验证 Communications Mining 专用模型。 这适用于生成式批注提供的自动化训练,以及模型训练器批注的更多示例。
虽然某些用例在技术上可能可行,并且具有足够的示例,但使用量较低有时会导致模型训练器获得更差的注释体验。 数据池越大,Communications Mining 的主动学习模式更容易识别和显示要标注的有用示例。 较小的数据池在所有分类中创建的优质示例数量较少。 优质示例较少,导致用户只能依赖注释难以捕获或更复杂的示例。
在根据复杂性和 ROI 的注意事项继续资格审查和实施用例之前,考虑 Communications Mining 的技术限制非常重要。
为了生成集群,Communications Mining 要求数据集(可以由多个相似的源组成)中至少包含 2048 条消息。 小于 2048 条消息的数据集允许您使用所有 Comms Mining 功能,但集群和为集群生成的标签建议除外。
消息少于 2048 条的用例在标签/字段的数量和复杂性方面应该非常简单。 还可以预期的是,与更高数量的用例相比,出于微调和验证目的而需要注释的消息总数要高得多。 某些标签和/或字段如果不经常出现,则可能没有足够的示例来注释它们。
为确保验证数据有意义,Communications Mining 还要求每个标签和字段至少有 25 个已批注的示例。 因此,能够从可用数据中获取至少此数量的示例非常重要。
以下建议涉及数据量较少但高价值和/或低复杂性的用例。
通常,如果用例的复杂性与消息数据量相符,则用例应按预期运行。 非常低数量的用例通常应该非常简单,而大批量的用例可能更复杂。
在某些情况下,同步一年以上的历史数据有助于寻找足够的优质示例进行训练。 这也提供了趋势和警示方面更强大的分析功能。
在复杂性、ROI 以及支持和启用用例所需的工作方面,应仔细考虑消息少于 20,000 条(以历史数量或年吞吐量而言)的用例。 虽然基于这些注意事项,此类用例可能会被取消资格,但它们仍可提供足够的业务价值,可以继续使用。
每个用例都是唯一的,因此没有适合所有复杂性场景的准则。 在理解和提取方面,标签和字段本身可以非常简单,也可以非常复杂。
下表列出了用例复杂性的粗略准则。
复杂性 | 标签 | 提取字段 | 通用字段 |
---|---|---|---|
很低 | 〜2-5 | 不适用 | 1-2 |
低 | 〜5 - 15 | 1 - 2(部分标签) | 1 - 3 |
中 | 15 - 50 | 1 - 5 表示多个标签 | 1 - 5 * |
高 | 50+ | 1 - 8+ 表示高比例标签 | 1 - 5 * |
*含提取字段的用例应依赖于这些字段而非通用字段。 如果您未使用提取字段,通用字段会更多,但可能不会增加等效值。
消息数量 * | 限制 | 建议 |
---|---|---|
小于 |
| 只应该是:
|
2048 - 20,000 |
|
主要应为:
|
20,000 - 50,000 |
|
主要应为:
|
训练示例所来源的历史数据量通常只占总数据量的一小部分。 在数量较少和复杂性较高的用例中,这一比例通常较高。