communications-mining

latest

false

重要 :

Communications Mining 现在是 UiPath IXP 的一部分。有关更多详细信息，请查看用户指南中的简介。请注意，此内容已使用机器翻译进行了本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

Communications Mining 用户指南

上次更新日期 2025年3月25日

了解数据要求

概述

本文提供了优化训练体验并最大限度地利用分析和自动化提供的价值所需的通信数据量的准则。

在决定用例的数据量时，请考虑以下因素：

投资回报率 (ROI)
复杂性
技术限制

重要提示：本节中建议的数据量不是您为确保用例性能而需要注释的预期数据量。相反，这些数量代表的是来源充足且多样化的训练示例时通常所需的历史数据。通常，只需总消息中的一小部分需要进行注释以进行微调和验证。

投资回报率

充分利用 Communications Mining™。实施，我们建议从大批量的用例开始。这些案例受益于 Communications Mining 高效处理大量消息数据的能力，无论是用于历史分析和实时监控，还是自动化。

部署用例所需的工作量不会随着消息量的增加而显着增加。因此，与小批量用例相比，大批量用例在实施工作方面往往会提供更好的投资回报。这对于资源有限的组织或需要外部支持以进行实施的组织非常重要。

但是，如果您的业务量较小，但业务价值较高，则您也应考虑这些用例。许多小批量用例在技术上是可行的，不应忽略。

复杂性

许多用例都具有一定的复杂性（就要提取的标签和字段的数量和复杂性而言），这不太适合数量非常少的消息。这是因为数据集中各种复杂概念或字段的示例可能不足，无法有效地微调和验证 Communications Mining 专用模型。这适用于生成式批注提供的自动化训练，以及模型训练器批注的更多示例。

虽然某些用例在技术上可能可行，并且具有足够的示例，但使用量较低有时会导致模型训练器获得更差的注释体验。数据池越大，Communications Mining 的主动学习模式更容易识别和显示要标注的有用示例。较小的数据池在所有分类中创建的优质示例数量较少。优质示例较少，导致用户只能依赖注释难以捕获或更复杂的示例。

技术限制

在根据复杂性和 ROI 的注意事项继续资格审查和实施用例之前，考虑 Communications Mining 的技术限制非常重要。

为了生成集群，Communications Mining 要求数据集（可以由多个相似的源组成）中至少包含 2048 条消息。小于 2048 条消息的数据集允许您使用所有 Comms Mining 功能，但集群和为集群生成的标签建议除外。

消息少于 2048 条的用例在标签/字段的数量和复杂性方面应该非常简单。还可以预期的是，与更高数量的用例相比，出于微调和验证目的而需要注释的消息总数要高得多。某些标签和/或字段如果不经常出现，则可能没有足够的示例来注释它们。

为确保验证数据有意义，Communications Mining 还要求每个标签和字段至少有 25 个已批注的示例。因此，能够从可用数据中获取至少此数量的示例非常重要。

针对数据量较少的建议

以下建议涉及数据量较少但高价值和/或低复杂性的用例。

通常，如果用例的复杂性与消息数据量相符，则用例应按预期运行。非常低数量的用例通常应该非常简单，而大批量的用例可能更复杂。

在某些情况下，同步一年以上的历史数据有助于寻找足够的优质示例进行训练。这也提供了趋势和警示方面更强大的分析功能。

在复杂性、ROI 以及支持和启用用例所需的工作方面，应仔细考虑消息少于 20,000 条（以历史数量或年吞吐量而言）的用例。虽然基于这些注意事项，此类用例可能会被取消资格，但它们仍可提供足够的业务价值，可以继续使用。

用例复杂性准则

每个用例都是唯一的，因此没有适合所有复杂性场景的准则。在理解和提取方面，标签和字段本身可以非常简单，也可以非常复杂。

下表列出了用例复杂性的粗略准则。

表 1.用例复杂性准则
复杂性	标签	提取字段	通用字段
很低	〜2-5	不适用	1-2
低	〜5 - 15	1 - 2（部分标签）	1 - 3
中	15 - 50	1 - 5 表示多个标签	1 - 5 *
高	50+	1 - 8+ 表示高比例标签	1 - 5 *

*含提取字段的用例应依赖于这些字段而非通用字段。如果您未使用提取字段，通用字段会更多，但可能不会增加等效值。

摘要

以下汇总表概述了低数据用例的粗略准则：

表 2.
消息数量 *	限制	建议
小于 2048	无集群和标签建议数据不足，某些分析失去意义可能实现最小的 ROI	只应该是：测试
2048 - 20,000	由于数量较少，主动学习的价值可能更有限数据可能不足，无法支持复杂的用例很可能投资回报率较低	主要应为： POC 低复杂性用例 AI Center 迁移用例
20,000 - 50,000	数据可能无法满足非常复杂的用例（至少适用于某些复杂的字段/标签）视复杂性而定，ROI 可能会降低	主要应为：中低复杂性用例一些高复杂性用例 AI Center 迁移用例