communications-mining

latest

false

重要 :

请注意，此内容已使用机器翻译进行了本地化。

Communications Mining 开发者指南

Last updated 2024年11月19日

使用 Communications Mining 修复注释偏差

Communications Mining 使用机器学习模型来识别电子邮件、聊天和通话等通信数据中的模式。模型会推断这些模式，以对未来的类似数据进行预测，从而推动自动化和分析等下游流程。

要使此方法正常工作，用于训练模型的数据需要能够代表它将进行预测的通信数据。否则，模型将犯错误，从而严重影响依赖准确预测的系统的性能。

为了帮助用户构建可靠、性能良好的模型，我们构建了一个工具来确保用于训练的数据始终与用户的目标任务匹配。在这篇博文中，我们将讨论此工具的工作方式，以及我们在开发过程中解决的一些问题。

注释偏差问题

什么是注释偏差?

Communications Mining 中的模型基于用户审核的数据进行训练。用户为其关心的主题创建标签，然后使用适用的标签为示例添加注释。然后，系统会根据审核后的数据自动训练模型，以预测适用的标签。

标注数据既困难又耗时。 Communications Mining 利用主动学习来加快该过程，帮助用户在尽可能短的时间内标注信息最丰富的数据点。

由于主动学习会选择特定的数据点，因此它往往仅关注基础数据的子集。此外，在概念之间切换会带来认知开销。我们鼓励用户同时注释相似主题的多组示例，而不是不断更换主题。

这可能会导致某些主题在已审核数据中的出现频率高于或低于整个数据集的出现频率。我们将此称为标注偏差，因为用户标注的数据不再代表基础数据。

合成 2D 数据集的有偏和无偏注释的可视化。无偏标注从原始数据中均匀采样数据点。有偏差的注释会高估某些示例的频率，而完全忽略其他区域。

为什么要关心？

Communications Mining 在验证期间使用已审核的数据来评估模型性能。如果此数据偏向于某些主题，则验证结果可能会产生误导。

考虑一家跨国银行的共享邮箱，其中包含来自整个 EMEA 的电子邮件。 Communications Mining 的多语言模型可以理解混合使用多种语言的通信数据。但是，如果用户仅使用单一语言标记电子邮件，则模型可能会学习专注于该语言的特定功能。

在本例中，验证分数非常适合该模型，因为它在所有带注释的示例上都表现良好。另一方面，其他语言的电子邮件的性能可能会更差。用户不会意识到这一点，因为在审核的数据中没有示例突出显示这一点。这可能会导致依赖模型进行准确预测的任何流程效率低下。

标签偏差背后的数学原理

对于更喜欢数学知识的人，Communications Mining 会估计P (标签∣文档)。使用贝叶斯规则，我们可以将其分解为：

每个组件都是在训练期间根据部分或所有数据集估计得出的。

P （文档∣标签）对给定主题的文档范围进行建模。模型学习根据带注释的数据估计这一点，并使用其关于语言和世界的知识进行推断。
P （文档）对数据集中不同类型的文档及其相对频率进行建模。这与标签无关，可以根据所有示例（已审核和未审核）进行估计。
P （标签）对不同主题的出现频率进行建模。这只能根据带注释的数据估计，因为它特定于每个用例。

要找到P (标签∣文档)，这三个部分都是必需的。但是， P （标签）和P （文档∣标签）都在很大程度上取决于批注的数据。当存在注释偏差时，这些估计值可能与真实分布不匹配，从而导致P (标签∣文档) 不准确。

检测标注偏差

鉴于已审核的数据在训练和验证模型中发挥的至关重要作用，我们需要检测注释偏差，并在用户的数据不具有代表性时向用户发出警告。

从最简单的层面上讲，注释偏差是指经过用户审核的示例与未经用户审核的示例之间的差异。假设一个人被要求检查数据集中的注释偏差。此人可能会查看已审核数据中出现的常见主题，然后查看这些主题在未审核数据中出现的频率。

如果用户找到了区分这两组的可靠规则，我们就可以确信存在不平衡。另一方面，在没有注释偏差的数据集中，人们将无法准确预测是否会审核示例。此人的预测表现用于衡量数据集中存在标注偏差的程度。

我们以此概念为起点，设计了偏向标注模型。

构建注释偏差模型

可以使用机器学习模型自动化比较任务。此模型与 Communications Mining 的核心模型不同，后者可以预测哪些标签或常规字段适用于文档。相反，系统会训练模型以识别已审核的数据点。

模型的验证分数显示模型区分已审核示例和未审核示例的难易程度，从而显示数据集中存在多少标注偏差。

对已审核的示例进行分类

在综合数据集上训练的简单分类器模型的平均精度超过 80%。如果数据集是无偏的，我们预计模型的表现不会比随机机会更好，这与我们在审核的数据中看到的偏差相符。

在合成偏差数据集上训练的注释偏差模型的决策边界。模型会学习一个决策边界，这使其能够最好地区分已审核的示例和未审核的示例。

在真实数据集上训练的类似原生分类器模型也可以可靠地检测已审核的示例。这表明这些数据集中存在注释偏差，但确切来源未知。

对于合成数据集，可以很容易地在绘图数据中看到注释偏差的影响。真实数据集的情况并非如此，其中的数据存在二维以上，并且模式通常要复杂得多。

相反，我们可以在模型确信未审核的示例中查找模式。此方法表明，确信预测为未审核的电子邮件通常包含无文本的附件。如果数据中存在这些电子邮件，则在审核的示例中，这些电子邮件的代表性通常不足。

这构成了明显的注释偏差，并显示了分类器模型的前景。

偏差分类器选择的银行电子邮件地址示例。电子邮件仅包含附件的文件名。在审核的示例中，此类电子邮件的代表性通常不足。

检测有意义的偏差

标注偏差模型经过训练，可以区分已审核的数据和未审核的数据。在此设置中，模型会尝试通过识别用户注释数据中的模式来捕获用户。这种对抗性方法是检查已审核数据的有效方法，但也提出了两个有趣的问题。

细微差异

模型选取的已审核和未审核数据之间的差异应该对用户有意义。但是，当我们为初始偏差模型提供详细输入时，我们发现该模型有时会关注不重要的模式。

例如，在一个数据集中，系统会确信将包含.jpg文件（名称中包含GOCR ）的附件电子邮件预测为未审核。已审核集中没有此类示例，但未审核集中有 160 个此类示例，存在较小的注释偏差。

此功能组合对用户而言并不重要。没有下游流程依赖于文件名中是否存在GOCR ，这些示例只是数据集中仅包含附件的电子邮件的子集。实际上，所有这些电子邮件都对数据集的Auto-Generated标签进行了可信且正确的预测，这意味着这些功能对 Communications Mining 的注释模型也没有任何意义。但是，偏差模型正在使用这些功能进行预测。

用户不必为了获得良好的注释偏差分数而标记所有无意义功能的组合。对于几乎所有概念，我们不需要数千个示例即可完全捕获可能的数据点范围。相反，注释偏差模型应仅关注实际影响注释预测的差异。

不重要的主题

数据集可能包含用户从未注释过的数据点，因为这些数据点与目标任务无关。

回到我们的跨国银行业务示例，团队可以使用 Communications Mining 来推动特定国家/地区的用例。每个团队都将根据其目标任务构建一个自定义模型，所有模型都使用共享邮箱中的电子邮件。

这些用例可能因团队而异。欧洲国家/地区可能希望追踪英国退欧对其运营的影响，并会为此创建一组标签。另一方面，中东和非洲的团队可能不会使用与英国脱欧相关的电子邮件，因此会在模型中将其忽略。

不标注与“脱欧”相关的电子邮件就是标注偏差的一个示例。但是，这种偏差对于中东和非洲的用户来说并不重要。偏差模型应考虑到这一点，并且仅在团队认为有用的电子邮件中搜索注释偏差。

使用标签作为信号

我们需要让贴标签者更难专注于小功能，但要以用户认为有用的功能为指导。为此，我们可以更改传递到注释偏差模型的输入。

模型输入

注意：模型输入。我们的核心注释模型不直接处理文本。相反，我们使用语言模型将通信数据转换为模型输入（称为嵌入）。这些输入包含数据中存在的有用信息，但采用的是模型可以解释的形式。

核心注释模型的输入包含来自输入文本的大量信息。这使模型能够学习影响标签预测的复杂关系。但是，对于注释偏差模型，这也让模型专注于文件名等功能中微小的、无意义的差异。

降维是一种在保留原始输入有意义的属性的同时筛选信息的方法。使用减少的输入可防止偏差模型专注于小功能，同时保留数据集中的重要信息。

用户仅为他们想要跟踪的主题创建标签，因此在降维期间包括标签意味着我们保留最重要的输入特征。通过这种方法，我们的注释偏差模型不再关注小特征，并且在估计偏差时会考虑标签。

降维用于减小偏差模型的输入大小，同时保留有用的特征

在 Communications Mining 中标注偏差

我们将注释偏差模型用于 Communications Mining 中的两项主要任务。

平衡分数

检测和解决注释偏差对于获得可靠的模型验证分数至关重要。因此，我们会在模型评分中显示注释偏差模型的性能。

这是采用已审核数据和未审核数据之间相似性度量的形式。相似度分数低表示已审核的数据与未审核的数据之间存在较大差异，从而突出显示数据集中的注释偏差。

模型评分中的平衡因素会根据已审核数据和未审核数据之间的相似度给出分数

重新平衡

构建一组无偏差的已审核数据的最佳方法是标注随机选择的示例。这样，已审核的标签将始终与基础分布匹配。但是，以这种方式注释效率较低，尤其是对于稀有概念。

相反，Communications Mining 使用主动学习，通过针对最有用的示例来加快注释过程。这些目标示例并不总是与基础数据分布相符，这意味着注释偏差会随着时间的推移而逐渐形成。

无法保证主动学习会产生一组无偏差的已审核示例。但是，当检测到注释偏差时，我们可以使用注释偏差模型来解决任何不平衡问题。通过这种方式，我们可以从主动学习的训练时间缩短和随机抽样的低注释偏差中受益。

这是Rebalance视图的基础，该视图显示偏差模型确信其未经过审核，因此在数据集中所占比例不足的数据点。通过标注这些示例可快速解决数据集中的标注偏差问题。

平衡主动学习

为演示重新平衡如何提高 Communications Mining 的性能，我们模拟用户按照三种主动学习策略注释示例。

随机。标注随机选择的未审核示例。
标准。标注 Communications Mining 最不确定的示例或预测熵最高的示例。这是主动学习的常见方法，相当于仅在 Communications Mining 中使用Teach视图。
Communications Mining 。遵循 Communications Mining 的主动学习策略，该策略会建议用于改进当前模型的重要训练操作。这包括Rebalance视图。

我们在NLRK提供的开源路透数据集上运行了这些模拟，该数据集包含用 90 个标签中的一个或多个标签标记的新闻文章。每次运行时，都使用相同的随机选择的 100 个初始示例。对于每个模拟步骤，我们对注释主动学习策略选择的 50 个示例的用户进行建模。然后，Communications Mining 会重新训练并重复该过程。

下图显示了随着注释示例数量的增加，Communications Mining 注释模型在“路透”任务中的性能表现。同时还会显示平衡分数，表示数据集中存在的注释偏差的大小。

平衡在路透数据集上训练的不同主动学习策略的分数和平均精度。 docs image

遵循标准的主动学习策略，我们获得了与 Communications Mining 相似的平均精度，其中随机抽样在三种策略中得分最低。但是，标准主动学习也会导致严重的注释偏差，这意味着此方法的验证结果可能会产生误导。