
Communications Mining 用户指南
本节介绍了优化训练体验并最大限度地发挥分析和自动化提供的价值所需的通信数据量。
在决定用例的数据量时,请考虑以下因素:
- 投资回报率 (ROI)
- 复杂性
- 技术限制
投资回报率
为了充分利用您的 Communications Mining™ 实施,我们建议从大批量用例开始。这些案例受益于 Communications Mining 高效处理大量消息数据的功能,可用于历史分析和实时监控以及自动化。
部署用例所需的工作量不会随着消息量的增加而显着增加。 因此,与小批量用例相比,大批量用例在实施工作方面往往会提供更好的投资回报。 这对于资源有限的组织或需要外部支持以进行实施的组织非常重要。
但是,如果您的业务量较小,但业务价值较高,则您也应考虑这些用例。 许多小批量用例在技术上是可行的,不应忽略。
复杂性
就要提取的标签和字段的数量和复杂性而言,许多用例都具有一定的复杂性,这不太适合数量非常少的消息。这是因为数据集中可能没有足够的各种复杂概念或字段的示例,无法有效地微调和验证 Communications Mining™ 专用模型。这适用于生成式注释提供的自动化训练,也适用于模型训练器批注的更多示例。
虽然某些用例在技术上可能是可行的,并且拥有足够的示例,但使用量较低有时会导致模型训练者获得较差的注释体验。数据池越大,Communications Mining 的主动学习模式就越容易识别和显示有用的示例以进行注释。较小的数据池在整个分类中创建的质量示例较少。示例质量降低会导致用户依赖注释难以捕获或更复杂的示例。
技术限制
在根据基于复杂性和 ROI 的注意事项继续资格审查和实施用例之前,您应该考虑 Communications Mining™ 的技术限制。
为了生成集群,Communications Mining 要求数据集中至少包含 2048 条消息,这些消息可以由多个相似的来源组成。借助小于 2048 条消息的数据集,您可以使用所有 Communications Mining 功能,但集群和为集群生成的标签建议除外。
消息少于 2048 条的用例在标签或字段的数量和复杂性方面应该非常简单。与更高数量的用例相比,您还应该预计到总消息中更高的比例用于微调和验证目的。如果某些标签和/或字段不是经常出现,则可能没有足够的示例来标注它们和/或字段。
为确保验证数据有意义,Communications Mining 还希望每个标签和字段至少有 25 个已批注的示例。因此,请确保可以从可用数据中获取至少此数量的示例。
以下建议涉及数据量较少但高价值和/或低复杂性的用例。
通常,如果用例的复杂性与消息数据量相符,则用例应按预期运行。非常低数量的用例应该非常简单,而大批量的用例可能更复杂。
在某些情况下,同步一年以上的历史数据有助于获取足够的优质示例进行训练。这也提供了在趋势和警示方面进行更出色分析的优势。
在历史数量或年吞吐量方面,消息少于 20,000 条的用例应从复杂性、投资回报率以及支持和启用用例所需的工作方面仔细考虑。虽然基于这些注意事项,此类用例可能被取消资格,但它们仍可提供足够的业务价值,可以继续使用。
用例复杂性准则
每个用例都是唯一的,因此没有适合所有复杂性场景的准则。 在理解和提取方面,标签和字段本身可以非常简单,也可以非常复杂。
下表列出了用例复杂性的粗略准则。
| 复杂性 | 标签 | 提取字段 | 通用字段 |
|---|---|---|---|
| 很低 | 大约 2 到 5 个 | 不适用 | 1-2 |
| 低 | 约 5 - 15 个 | 1 - 2(部分标签) | 1 - 3 |
| 中 | 15 到 50 之间 | 1 - 5 表示多个标签 | 1 - 5 * |
| 高 | 超过 50 | 1 - 8 或更多(对于高比例标签) | 1 - 5 * |
*含提取字段的用例应依赖于这些字段而非通用字段。 如果您未使用提取字段,通用字段会更多,但可能不会增加等效值。
摘要
| 消息数量 * | 限制 | 建议 |
|---|---|---|
| 小于 2048 |
| 只应该是:
|
| 2048 - 20,000 |
|
主要应为:
|
| 20,000 - 50,000 |
|
主要应为:
|
*作为训练示例来源的历史数据量通常只占总数据量的一小部分。在数量较少和复杂性较高的用例中,这一比例通常较高。