communications-mining

latest

false

重要 :

Communications Mining 现在是 UiPath IXP 的一部分。有关更多详细信息，请查看用户指南中的简介。请注意，此内容已使用机器翻译进行了本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

Communications Mining 用户指南

上次更新日期 2025年3月25日

了解并增加覆盖率

所需的用户权限：“查看来源”和“审核并注释”。

覆盖是机器学习中经常使用的一个术语，表示模型“覆盖”用于分析的数据的程度。在平台中，这与数据集中具有信息标签预测的消息所占比例相关，并在“验证” 中显示为百分比分数。

“ 信息标签 ”是平台通过查看 与其他标签一起分配的频率 ，认为 可用作独立标签 的标签。始终分配有另一个标签的标签，例如在计算分数时，系统会降低从未单独分配的父标签或始终为其他标签分配“紧急”标签的父标签的权重。

下图显示了整个数据集的低覆盖率与高覆盖率的对比情况。假设阴影圆圈是具有信息标签预测的消息。

作为指标，覆盖率是一种非常有用的方法，可以了解您是否已捕获数据集中的所有不同的潜在概念，以及是否已为它们提供足够多且多样化的训练示例，以便平台可以有效地进行预测。

几乎在所有情况下，模型的覆盖率越高，其性能就越好，但在检查模型性能时，不应单独考虑这一点。

同样非常重要的是，分类中的标签必须保持良好状态，这意味着它们具有较高的平均精度，并且没有其他性能警告，并且训练数据是整个数据集的均衡表示。

如果标签运行状况不佳或训练数据不能代表数据集，则平台计算的模型覆盖率将不可靠。

如果您使用模型来推动自动化流程，则具有高覆盖率的模型尤为重要。

因此，让我们考虑一下这在典型用例中的应用情况：自动路由企业中共享电子邮件收件箱收到的不同请求。

对于旨在帮助自动路由不同请求的模型，低覆盖率意味着大量请求未正确路由，或者由于模型无法识别而被发送以进行手动审核。

如果在邮箱中工作的团队管理着 10 个关键流程，但分类仅有效捕获了其中 7 个，则可能会导致覆盖分数较低。或者，模型可能会像其他流程一样错误地预测剩余流程，因为尚未告知模型实际是什么。这将导致覆盖分数虚高。

在自动化过程中，剩余的三个流程可能会被遗漏，被发送以进行手动审核，或被错误地分类为其他流程并路由到错误的位置。

同样重要的是，对于每个流程，都有足够多的训练示例来捕获讨论流程时使用的各种表达式。否则，每个标签的召回率都会较低，模型的覆盖率也会较低。

下面的图表演示了此示例在实践中的外观- 我们有多个客户端通过电子邮件发送多种请求类型。每个客户端可能会以不同的方式编写相同的请求类型：

显示三种不同的模型场景，每种场景对覆盖率都有不同的潜在影响：

	并非所有请求类型（即分类所涵盖的概念） -覆盖率可能较低
	覆盖所有请求类型，但有些标签运行状况不佳，并且可能没有足够的示例 –覆盖率可能较低，并且可能不可靠
	覆盖的所有请求类型和标签都运行正常 –覆盖率高，可能可靠