ixp

latest

false

Communications Mining ガイド

最終更新日時 2025年11月10日

Communications Mining™ でアノテーションの偏りを修正する

Communications Mining では、マシンラーニングモデルを使用して、メール、チャット、通話などの通信データのパターンを識別します。モデルはこれらのパターンを推定して、将来の同様のデータを予測し、自動化や分析などのダウンストリームプロセスを推進します。

このアプローチを機能させるには、モデルのトレーニングに使用するデータが、予測を行う通信を表すものである必要があります。そうでない場合、モデルは正確な予測に依存するシステムのパフォーマンスに深刻な影響を与える可能性のある間違いを犯します。

ユーザーが堅牢でパフォーマンスの高いモデルを構築できるように、トレーニングに使用されるデータがユーザーのターゲットタスクと常に一致するようにするツールを構築しました。このブログ投稿では、このツールの仕組みと、その開発中に取り組んだいくつかの問題について説明します。

アノテーションバイアス問題

注釈バイアスとは何ですか?

Communications Mining のモデルは、ユーザーがレビューしたデータでトレーニングされます。ユーザーは、関心のあるトピックのラベルを作成し、適用するラベルで例に注釈を付けます。その後、このレビュー済みデータでモデルが自動的にトレーニングされ、適用されるラベルが予測されます。

データに注釈を付けることは困難で時間がかかります。 Communications Mining は、アクティブラーニングを活用してプロセスを高速化し、最も情報量の多いデータポイントに可能な限り最速の時間で注釈を付けられるようにします。

アクティブラーニングは特定のデータポイントを選択するため、基礎となるデータのサブセットにのみ焦点を当てる傾向があります。さらに、概念を切り替えると、認知的なオーバーヘッドが伴います。ユーザーは、テーマ間を絶えず変更するのではなく、類似したトピックの例のグループに同時に注釈を付けることをお勧めします。

これにより、一部のトピックがデータセット全体よりもレビュー済みデータに多かれ少なかれ頻繁に表示される可能性があります。ユーザーが注釈を付けたデータが基になるデータを表さなくなったため、これを注釈バイアスと呼びます。

合成2Dデータセットの偏りのある注釈と偏りのない注釈の視覚化。偏りのない注釈は、元のデータからデータポイントを均等にサンプリングします。偏った注釈付けは、いくつかの例の頻度を過大評価し、他の領域を完全に見逃しています。

なぜあなたは気にする必要がありますか?

Communications Mining は、™ 検証中に確認済みのデータを使用してモデルのパフォーマンスを評価します。このデータが特定のトピックに偏っている場合、検証結果は誤解を招く可能性があります。

EMEA全体からの電子メールを含む多国籍銀行の共有メールボックスを考えてみましょう。 Communications Mining の多言語モデルは、さまざまな言語で通信データを理解できます。ただし、ユーザーが 1 つの言語のメールにのみラベルを付ける場合、モデルはその言語に固有の機能に焦点を当てるように学習する可能性があります。

この場合、そのモデルの検証スコアは、注釈が付けられたすべての例で適切に実行されるため、適切です。一方、他の言語の電子メールのパフォーマンスは悪化する可能性があります。レビューされたデータでこれを強調する例がないため、ユーザーは気付かないでしょう。これにより、正確な予測をモデルに依存するプロセスが非効率になる可能性があります。

ラベリングバイアスの背後にある数学

数学に詳しいユーザーのために説明すると、Communications Mining™ は P(Label∣Document) を推定します。ベイズの法則を使用すると、これを次のように分解できます。

これらの各成分は、トレーニング中にデータセットの一部またはすべてから推定されます。

P(ドキュメント∣ラベル): 特定のトピックのドキュメントの範囲をモデル化します。モデルは注釈付きデータからこれを推定することを学習し、言語と世界に関する知識を使用して外挿します。
P(ドキュメント): データセット内のさまざまな種類のドキュメントとその相対頻度をモデル化します。これはラベルとは無関係であり、すべての例(レビュー済みと未レビューの両方)から推定できます。
P(ラベル)さまざまなトピックの頻度をモデル化します。これは、各ユースケースに固有のものであるため、注釈付きデータからのみ推定できます。

P(ラベル∣ドキュメント)を見つけるには、3つの部分すべてが必要です。ただし、 P(ラベル)と P(ドキュメント∣ラベル)はどちらも注釈付きデータに大きく依存します。注釈バイアスが存在する場合、これらの推定値は真の分布と一致しず、 P(Label∣Document)の不正確さにつながる可能性があります。

アノテーションバイアスの検出

レビューされたデータがモデルのトレーニングと検証で果たす重要な役割を考えると、注釈バイアスを検出し、データが代表的でない場合はユーザーに警告する必要があります。

最も単純なレベルでは、注釈バイアスは、ユーザーによってレビューされた例とレビューされていない例の間の不一致です。データセット内の注釈バイアスをチェックするように求められたとします。この担当者は、レビュー済みデータに表示される一般的なテーマを調べて、未レビューのデータでこれらが発生する頻度を確認する場合があります。

その人がこれら2つのグループを区別するための信頼できるルールを見つけた場合、不均衡があると確信できます。一方、注釈バイアスのないデータセットでは、例がレビューされているかどうかを正確に予測することはできません。この人物の予測パフォーマンスは、データセットに存在する注釈バイアスの量を測定します。

このアイデアを、アノテーションバイアスモデルの出発点として使用しました。

アノテーションバイアスモデルの構築

比較タスクは、マシンラーニングモデルを使用して自動化できます。このモデルは、ドキュメントに適用されるラベルまたは一般フィールドを予測する Communications Mining™ のコアモデルとは異なります。代わりに、モデルは確認済みのデータポイントを識別するようにトレーニングされます。

モデルの検証スコアは、モデルがレビューされた例とレビューされていない例をどれだけ簡単に区別できるか、したがってデータセットにどれだけ注釈バイアスが存在するかを示します。

レビュー済み例の分類

合成データセットでトレーニングされた単純な分類器モデルの平均適合率は 80% を超えます。データセットに偏りがない場合、モデルのパフォーマンスはランダムな偶然に過ぎないと予想されます。これは、確認済みのデータで確認できるバイアスと一致します。

合成バイアスデータセットでトレーニングされたアノテーションバイアスモデルの決定境界。モデルは、レビュー済みの例とレビューされていない例を最もよく区別できるように、決定境界を学習します。

実際のデータセットでトレーニングされた同様のナイーブ分類器モデルも、レビューされた例を確実に検出できます。これは、これらのデータセットにアノテーションバイアスが存在したが、正確なソースは不明であったことを示唆している。

合成データセットの場合、プロットされたデータにアノテーションの偏りの影響を簡単に確認できます。これは、データが 2 つ以上の次元にあり、パターンがはるかに複雑であることが多い実際のデータセットには当てはまりません。

代わりに、モデルがレビューされていないと確信している例のパターンを探すことができます。このアプローチでは、未レビューであると自信を持って予測された電子メールには、テキストのない添付ファイルが含まれていることがよくありました。これらの電子メールがデータに存在する場合、レビューされた例では通常過小評価されていました。

これは明確な注釈バイアスを構成し、分類子モデルの有望性を示しています。

バイアス分類子によって選択された銀行メールの例。電子メールには、添付ファイルのファイル名のみが含まれています。このタイプの電子メールは、レビューされた例では過小評価されることがよくありました。

意味のあるバイアスの検出

注釈バイアスモデルは、レビュー済みのデータとレビューされていないデータを区別するようにトレーニングされます。この設定では、モデルは注釈付きデータ内のパターンを識別することによってユーザーをキャッチしようとします。この敵対的アプローチは、レビューされたデータを検査する強力な方法ですが、2つの興味深い問題も提起します。

些細な違い

モデルによって取得されたレビュー済みデータと未レビュー済みデータの違いは、ユーザーにとって意味を持つ必要があります。しかし、単純なバイアスモデルに詳細な入力を提供すると、モデルが重要でないパターンに焦点を合わせることがあることがわかりました。

たとえば、あるデータセットでは、名前にGOCRを含む.jpgファイルを含む添付ファイルのみのメールが、未レビューであると確実に予測されていました。レビューされたセットにはそのような例はありませんでしたが、レビューされていないセットには160があり、小さな注釈バイアスを表しています。

この機能の組み合わせは、ユーザーにとって重要ではありませんでした。ファイル名に GOCR が含まれていることに依存する下流工程はなく、これらの例はデータセット内の添付ファイルのみのメールのサブセットにすぎませんでした。実際、これらのメールはすべて、データセットの Auto-Generated ラベルに対して信頼できる正しい予測を行っていたため、Communications Mining™ のアノテーションモデルにとっても、これらの特徴は重要ではありませんでした。ただし、バイアスモデルはこれらの特徴を使用して予測を行っていました。

ユーザーは、適切な注釈バイアススコアを取得するために、意味のない機能のすべての組み合わせにラベルを付ける必要はありません。ほとんどすべての概念について、可能なデータポイントの範囲を完全にキャプチャするために何千もの例は必要ありません。代わりに、注釈バイアスモデルは、注釈付けの予測に実際に影響を与える違いにのみ焦点を当てる必要があります。

重要でないトピック

データセットには、ターゲットタスクとは無関係であるため、ユーザーが注釈を付けることのないデータポイントが含まれている場合があります。

多国籍銀行の例に戻ると、チームは Communications Mining™ を使用して国固有のユースケースを推進できます。各チームは、ターゲットタスクに合わせてカスタマイズされたモデルを構築し、すべてのモデルで共有メールボックスのメールを使用します。

これらのユースケースは、チームによって異なる可能性があります。ヨーロッパ諸国は、ブレグジットが事業に与える影響を追跡し、この目的のために一連のラベルを作成する場合があります。一方、中東とアフリカのチームは、ブレグジット関連の電子メールを役に立たない可能性があり、モデルではそれらを無視します。

ブレグジット関連のメールに注釈を付けないことは、バイアスに注釈を付ける例です。ただし、これは中東とアフリカのユーザーにとって重要ではないバイアスです。バイアスモデルはこれを考慮に入れ、チームが有用と見なす電子メール内の注釈バイアスのみを検索する必要があります。

ラベルをシグナルとして使用する

ラベラーが小さな特徴に焦点を当てることをより困難にする必要がありますが、ユーザーが有用であると定義するものによってこれを導きます。これを行うには、アノテーションバイアスモデルに渡す入力を変更します。

モデル入力

手記：モデルの入力。私たちのコアアノテーションモデルは、テキストを直接操作することはできません。代わりに、言語モデルを使用して通信データをモデル入力に変換します (埋め込みと呼ばれます)。これらの入力には、データに存在する有用な情報が含まれていますが、モデルが解釈できる形式になっています。

コア注釈モデルへの入力には、入力テキストからの大量の情報が含まれています。これにより、モデルはラベルの予測に影響を与える複雑な関係を学習できます。ただし、注釈バイアスモデルの場合、これにより、モデルはファイル名などの機能の小さくて無意味な違いに焦点を当てることもできます。

次元削減は、元の入力の意味のあるプロパティを維持しながら、情報をフィルターで除外する方法です。入力を減らすと、バイアスモデルがデータセット内の重要な情報を保持しながら、小さな特徴に焦点を合わせるのを防ぐことができます。

ユーザーは追跡するトピックのラベルのみを作成するため、次元削減時にラベルを含めると、最も重要な入力フィーチャが保持されます。このアプローチにより、アノテーションバイアスモデルは小さな特徴に焦点を当てなくなり、バイアスを推定するときにラベルを考慮に入れます。

次元削減は、有用な機能を維持しながら、バイアスモデルへの入力のサイズを縮小するために使用されます

Communications Mining™ におけるアノテーションの偏り

アノテーションバイアスモデルは、Communications Mining の 2 つの主要なタスクに使用します。

バランススコア

注釈バイアスを検出して対処することは、信頼性の高いモデル検証スコアに不可欠です。このため、アノテーションバイアスモデルの性能をモデル評価に示します。

これは、レビュー済みデータと未レビュー済みデータの間の類似度測度の形式です。類似性スコアが低い場合は、レビュー済みデータと未レビューデータの間に大きな違いがあることを示し、データセット内の注釈バイアスが浮き彫りになります。

モデル評価のバランス係数は、レビュー済みデータと未レビューデータの類似性に基づいてスコアを提供します

リバランス

偏りのないレビュー済みデータのセットを構築する最善の方法は、ランダムに選択した例に注釈を付けることです。このようにして、レビューされたラベルは常に基になる分布と一致します。ただし、この方法で注釈を付けることは、特にまれな概念の場合、非効率的です。

代わりに、Communications Mining™ ではアクティブラーニングを使用し、最も有用な例を対象にすることでアノテーションプロセスを高速化します。これらのターゲットを絞った例は、基になるデータ分布と必ずしも一致するとは限らないため、アノテーションの偏りは時間とともに徐々に発展する可能性があります。

アクティブラーニングは、レビューされた例の偏りのないセットを生成することを保証するものではありません。ただし、注釈バイアスが検出された場合は、注釈バイアスモデルを使用して不均衡に対処できます。このようにして、アクティブラーニングのトレーニング時間の短縮とランダムサンプリングのアノテーションバイアスの低さというメリットがあります。

これは、バイアスモデルが確信しているデータポイントがレビューされていないため、データセットで過小評価されていることを示す Rebalance ビューの基礎です。これらの例に注釈を付けると、データセット内の注釈バイアスにすばやく対処できます。

バランスのとれたアクティブラーニング

リバランスによって Communications Mining™ のパフォーマンスがどのように向上するかを示すために、3 つのアクティブラーニング戦略に従って例にアノテーションを行うユーザーのシミュレーションを行いました。

ランダム。未レビューの例のランダム選択に注釈を付けます。
標準です。 Communications Mining が最も確信が持てない例、または予測エントロピーが最も高い例に注釈を付けます。これはアクティブラーニングの一般的なアプローチであり、Communications Mining で Teach ビューのみを使用する場合と同じです。
通信マイニング。 Communications Mining のアクティブラーニング戦略に従って、現在のモデルを改善するための上位のトレーニングアクションを提案します。これには、 Rebalance ビューも含まれます。

これらのシミュレーションは、 NLTK が提供するオープンソースのロイターデータセットで実行され、90のラベルの1つ以上でタグ付けされたニュース記事が含まれています。各実行について、ランダムに選択された100例の同じ初期セットを使用した。シミュレーションステップごとに、アクティブラーニング戦略によって選択された50の例に注釈を付けてユーザーをモデル化します。その後、Communications Mining が再トレーニングされ、このプロセスが繰り返されます。

次のプロットは、より多くの例にアノテーションを行った場合の、ロイタータスクに対する Communications Mining のアノテーションモデルのパフォーマンスを示しています。データセット内に存在するアノテーションの偏りの量を表すバランススコアも表示されます。

ロイターのデータセットでトレーニングされたさまざまなアクティブラーニング戦略のバランススコアと平均精度。 docs image

標準のアクティブラーニング戦略に従うと、Communications Mining™ と同様の平均適合率の平均適合率が得られ、ランダムサンプリングのスコアは 3 つの戦略の中で最も低くなります。ただし、標準的なアクティブラーニングではアノテーションの大きな偏りが生じるため、このアプローチの検証結果は誤解を招く可能性があります。

Communications Mining のアクティブラーニング戦略では、ランダムサンプリングと同様のバランススコアが生成されますが、同じモデルのパフォーマンスを生成するために必要な例は少なくなります。つまり、 リバランス によるアクティブラーニングは、標準的なアクティブラーニングとランダムサンプリングの両方を最大限に活用し、偏りのないレビューされた例と優れたモデルパフォーマンスをより短い時間で提供します。

概要

正確なモデル検証スコアを取得するには、注釈付きデータがデータセット全体を表す必要があります。
Communications Mining の注釈バイアスモデルは、レビュー済みのデータと未レビューのデータを比較して、データセットで過小評価されているトピックを特定します。
Rebalanceビューを使用すると、データセット内の注釈バイアスにすばやく対処できます。
Communications Mining のアクティブラーニングは、標準的なアプローチよりも注釈バイアスが少なく、ランダムサンプリングのみの場合よりも優れたパフォーマンスを発揮します。