communications-mining
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
UiPath logo, featuring letters U and I in white
Communications Mining 開発者ガイド
Last updated 2024年11月19日

Communications Mining による注釈バイアスの修正

Communications Mining では、マシン ラーニング モデルを使用して、メール、チャット、通話などの通信データのパターンを識別します。 モデルはこれらのパターンを推定して、将来の同様のデータを予測し、自動化や分析などのダウンストリームプロセスを推進します。

このアプローチを機能させるには、モデルのトレーニングに使用するデータが、予測を行う通信を表すものである必要があります。 そうでない場合、モデルは正確な予測に依存するシステムのパフォーマンスに深刻な影響を与える可能性のある間違いを犯します。

ユーザーが堅牢でパフォーマンスの高いモデルを構築できるように、トレーニングに使用されるデータがユーザーのターゲットタスクと常に一致するようにするツールを構築しました。 このブログ投稿では、このツールの仕組みと、その開発中に取り組んだいくつかの問題について説明します。

アノテーションバイアス問題

注釈バイアスとは何ですか?

Communications Mining のモデルは、ユーザーがレビューしたデータでトレーニングされます。 ユーザーは、関心のあるトピックのラベルを作成し、適用するラベルで例に注釈を付けます。 その後、このレビュー済みデータでモデルが自動的にトレーニングされ、適用されるラベルが予測されます。

データに注釈を付けることは困難で時間がかかります。 Communications Mining は、 アクティブ ラーニング を活用してプロセスを高速化し、最も情報量の多いデータ ポイントに可能な限り最速の時間で注釈を付けられるようにします。

アクティブラーニングは特定のデータポイントを選択するため、基礎となるデータのサブセットにのみ焦点を当てる傾向があります。 さらに、概念を切り替えると、認知的なオーバーヘッドが伴います。 ユーザーは、テーマ間を絶えず変更するのではなく、類似したトピックの例のグループに同時に注釈を付けることをお勧めします。

これにより、一部のトピックがデータセット全体よりもレビュー済みデータに多かれ少なかれ頻繁に表示される可能性があります。 ユーザーが注釈を付けたデータが基になるデータを表さなくなったため、これを注釈バイアスと呼びます。

合成2Dデータセットの偏りのある注釈と偏りのない注釈の視覚化。 偏りのない注釈は、元のデータからデータポイントを均等にサンプリングします。 偏った注釈付けは、いくつかの例の頻度を過大評価し、他の領域を完全に見逃しています。

なぜあなたは気にする必要がありますか?

Communications Mining では 、検証 中にレビュー済みのデータを使用してモデルのパフォーマンスを評価します。 このデータが特定のトピックに偏っている場合、検証結果が誤解を招く可能性があります。

EMEA全体からの電子メールを含む多国籍銀行の共有メールボックスを考えてみましょう。 Communications Mining の多言語モデルは、さまざまな言語で通信データを理解できます。 ただし、ユーザーが 1 つの言語のメールにのみラベルを付ける場合、モデルはその言語に固有の機能に焦点を当てるように学習する可能性があります。

この場合、そのモデルの検証スコアは、注釈が付けられたすべての例で適切に実行されるため、適切です。 一方、他の言語の電子メールのパフォーマンスは悪化する可能性があります。 レビューされたデータでこれを強調する例がないため、ユーザーは気付かないでしょう。 これにより、正確な予測をモデルに依存するプロセスが非効率になる可能性があります。

ラベリングバイアスの背後にある数学

より数学的な傾向のために、Communications Miningは P(Label∣Document)を推定します。 ベイズの法則を使用して、これを次のように分解できます。


これらの各成分は、トレーニング中にデータセットの一部またはすべてから推定されます。

  • P(ドキュメント∣ラベル): 特定のトピックのドキュメントの範囲をモデル化します。 モデルは注釈付きデータからこれを推定することを学習し、言語と世界に関する知識を使用して外挿します。
  • P(ドキュメント): データセット内のさまざまな種類のドキュメントとその相対頻度をモデル化します。 これはラベルとは無関係であり、すべての例(レビュー済みと未レビューの両方)から推定できます。
  • P(ラベル)さまざまなトピックの頻度をモデル化します。 これは、各ユースケースに固有のものであるため、注釈付きデータからのみ推定できます。

P(ラベル∣ドキュメント)を見つけるには、3つの部分すべてが必要です。ただし、 P(ラベル)と P(ドキュメント∣ラベル)はどちらも注釈付きデータに大きく依存します。 注釈バイアスが存在する場合、これらの推定値は真の分布と一致しず、 P(Label∣Document)の不正確さにつながる可能性があります。

アノテーションバイアスの検出

レビューされたデータがモデルのトレーニングと検証で果たす重要な役割を考えると、注釈バイアスを検出し、データが代表的でない場合はユーザーに警告する必要があります。

最も単純なレベルでは、注釈バイアスは、ユーザーによってレビューされた例とレビューされていない例の間の不一致です。 データセット内の注釈バイアスをチェックするように求められたとします。 この担当者は、レビュー済みデータに表示される一般的なテーマを調べて、未レビューのデータでこれらが発生する頻度を確認する場合があります。

その人がこれら2つのグループを区別するための信頼できるルールを見つけた場合、不均衡があると確信できます。 一方、注釈バイアスのないデータセットでは、例がレビューされているかどうかを正確に予測することはできません。 この人物の予測パフォーマンスは、データセットに存在する注釈バイアスの量を測定します。

このアイデアを、アノテーションバイアスモデルの出発点として使用しました。

アノテーションバイアスモデルの構築

比較タスクは、機械学習モデルを使用して自動化できます。 このモデルは Communications Mining のコア モデルとは異なり、ドキュメントに適用されるラベルや全般フィールドを予測します。 代わりに、レビュー済みのデータ ポイントを識別するようにモデルがトレーニングされます。

モデルの検証スコアは、モデルがレビューされた例とレビューされていない例をどれだけ簡単に区別できるか、したがってデータセットにどれだけ注釈バイアスが存在するかを示します。

レビュー済み例の分類

合成データセットでトレーニングされた単純な分類器モデルの平均精度は 80% を超えます。 データセットに偏りがない場合、モデルのパフォーマンスはランダムな偶然よりも優れていないと予想され、レビューされたデータで確認できるバイアスと一致します。

合成バイアスデータセットでトレーニングされたアノテーションバイアスモデルの決定境界。 モデルは、レビュー済みの例とレビューされていない例を最もよく区別できるように、決定境界を学習します。

実際のデータセットでトレーニングされた同様のナイーブ分類器モデルも、レビューされた例を確実に検出できます。 これは、これらのデータセットにアノテーションバイアスが存在したが、正確なソースは不明であったことを示唆している。

合成データセットの場合、プロットされたデータにバイアス注釈を付けることの影響を簡単に確認できます。 これは、データが2つ以上の次元にあり、パターンがはるかに複雑であることが多い実際のデータセットには当てはまりません。

代わりに、モデルがレビューされていないと確信している例のパターンを探すことができます。 このアプローチでは、未レビューであると自信を持って予測された電子メールには、テキストのない添付ファイルが含まれていることがよくありました。 これらの電子メールがデータに存在する場合、レビューされた例では通常過小評価されていました。

これは明確な注釈バイアスを構成し、分類子モデルの有望性を示しています。

バイアス分類子によって選択された銀行メールの例。 電子メールには、添付ファイルのファイル名のみが含まれています。 このタイプの電子メールは、レビューされた例では過小評価されることがよくありました。

意味のあるバイアスの検出

注釈バイアス モデルは、レビュー済みのデータとレビューされていないデータを区別するようにトレーニングされます。 この設定では、モデルは注釈付きデータ内のパターンを識別することによってユーザーをキャッチしようとします。 この敵対的アプローチは、レビューされたデータを検査する強力な方法ですが、2つの興味深い問題も提起します。

些細な違い

モデルによって取得されたレビュー済みデータと未レビュー済みデータの違いは、ユーザーにとって意味を持つ必要があります。 しかし、単純なバイアスモデルに詳細な入力を提供すると、モデルが重要でないパターンに焦点を合わせることがあることがわかりました。

たとえば、あるデータセットでは、名前にGOCRを含む.jpgファイルを含む添付ファイルのみのメールが、未レビューであると確実に予測されていました。レビューされたセットにはそのような例はありませんでしたが、レビューされていないセットには160があり、小さな注釈バイアスを表しています。
この機能の組み合わせは、ユーザーにとって重要ではありませんでした。 ファイル名に GOCR が存在することに依存するダウンストリームプロセスはなく、これらの例はデータセット内の添付ファイルのみの電子メールのサブセットにすぎませんでした。 実際、これらのメールはすべて、データセットの Auto-Generated ラベルに対して自信を持って正確な予測をしていたため、これらの機能も Communications Mining の注釈モデルにとって重要ではありませんでした。 ただし、バイアス モデルでは、これらの特徴を使用して予測を行っていました。

ユーザーは、適切な注釈バイアス スコアを取得するために、意味のない機能のすべての組み合わせにラベルを付ける必要はありません。 ほとんどすべての概念について、可能なデータポイントの範囲を完全にキャプチャするために何千もの例は必要ありません。 代わりに、注釈バイアス モデルは、注釈付けの予測に実際に影響を与える違いにのみ焦点を当てる必要があります。

重要でないトピック

データセットには、ターゲット タスクとは無関係であるため、ユーザーが注釈を付けることのないデータ ポイントが含まれている場合があります。

多国籍銀行の例に戻ると、チームはCommunications Miningを使用して、国固有のユースケースを推進できます。 各チームは、ターゲット タスクに合わせてカスタマイズされたモデルを構築し、すべてのモデルで共有メールボックスの電子メールを使用します。

これらのユース ケースは、チームによって異なる可能性があります。 ヨーロッパ諸国は、ブレグジットが事業に与える影響を追跡し、この目的のために一連のラベルを作成する場合があります。 一方、中東とアフリカのチームは、ブレグジット関連の電子メールを役に立たない可能性があり、モデルではそれらを無視します。

ブレグジット関連のメールに注釈を付けないことは、バイアスに注釈を付ける例です。 ただし、これは中東とアフリカのユーザーにとって重要ではないバイアスです。 バイアスモデルはこれを考慮に入れ、チームが有用と見なす電子メール内の注釈バイアスのみを検索する必要があります。

ラベルをシグナルとして使用する

ラベラーが小さな特徴に焦点を当てることをより困難にする必要がありますが、ユーザーが有用であると定義するものによってこれを導きます。 これを行うには、アノテーションバイアスモデルに渡す入力を変更します。

モデル入力

手記: モデルの入力。 私たちのコアアノテーションモデルは、テキストを直接操作することはできません。 代わりに、言語モデルを使用して通信データをモデル入力に変換します (埋め込みと呼ばれます)。 これらの入力には、データに存在する有用な情報が含まれていますが、モデルが解釈できる形式になっています。

コア注釈モデルへの入力には、入力テキストからの大量の情報が含まれています。 これにより、モデルはラベルの予測に影響を与える複雑な関係を学習できます。 ただし、注釈バイアス モデルの場合、これにより、モデルはファイル名などの機能の小さくて無意味な違いに焦点を当てることもできます。

次元削減は、元の入力の意味のあるプロパティを維持しながら、情報をフィルターで除外する方法です。 入力を減らすと、バイアス モデルがデータセット内の重要な情報を保持しながら、小さな特徴に焦点を合わせるのを防ぐことができます。

ユーザーは追跡するトピックのラベルのみを作成するため、次元削減時にラベルを含めると、最も重要な入力フィーチャが保持されます。 このアプローチにより、アノテーションバイアスモデルは小さな特徴に焦点を当てなくなり、バイアスを推定するときにラベルを考慮に入れます。

次元削減は、有用な機能を維持しながら、バイアスモデルへの入力のサイズを縮小するために使用されます

Communications Mining における注釈バイアス

アノテーション バイアス モデルは、Communications Mining の 2 つの主要なタスクに使用します。

バランススコア

注釈バイアスを検出して対処することは、信頼性の高いモデル検証スコアに不可欠です。 このため、アノテーションバイアスモデルの性能をモデル評価に示します。

これは、レビュー済みデータと未レビュー済みデータの間の類似度測度の形式です。 類似性スコアが低い場合は、レビュー済みデータと未レビューデータの間に大きな違いがあることを示し、データセット内の注釈バイアスが浮き彫りになります。

モデル評価のバランス係数は、レビュー済みデータと未レビューデータの類似性に基づいてスコアを提供します

リバランス

偏りのないレビュー済みデータのセットを構築する最善の方法は、ランダムに選択した例に注釈を付けることです。 このようにして、レビューされたラベルは常に基になる分布と一致します。 ただし、この方法で注釈を付けることは、特にまれな概念の場合、非効率的です。

代わりに、Communications Mining はアクティブ ラーニングを使用して、最も有用な例をターゲットにすることで注釈付けプロセスを高速化します。 これらのターゲット例は、基になるデータ分布と必ずしも一致しないため、注釈バイアスは時間の経過とともに徐々に発生する可能性があります。

アクティブラーニングは、レビューされた例の偏りのないセットを生成することを保証するものではありません。 ただし、注釈バイアスが検出された場合は、注釈バイアスモデルを使用して不均衡に対処できます。 このようにして、アクティブラーニングのトレーニング時間の短縮とランダムサンプリングのアノテーションバイアスの低さというメリットがあります。

これは、バイアスモデルが確信しているデータポイントがレビューされていないため、データセットで過小評価されていることを示す Rebalance ビューの基礎です。 これらの例に注釈を付けると、データセット内の注釈バイアスにすばやく対処できます。

バランスのとれたアクティブラーニング

リバランスによって Communications Mining のパフォーマンスがどのように向上するかを示すために、3 つのアクティブ ラーニング戦略に従って例に注釈を付けるユーザーをシミュレートしました。

  • ランダム。未レビューの例のランダム選択に注釈を付けます。
  • 標準です。 Communications Mining が最も確信が持てない例、または予測エントロピーが最も高い例に注釈を付けます。 これはアクティブ ラーニングの一般的なアプローチであり、Communications Mining で Teach ビューのみを使用する場合と同じです。
  • 通信マイニング。 Communications Mining のアクティブ ラーニング戦略に従って、現在のモデルを改善するための上位のトレーニング アクションを提案します。 これには、 Rebalance ビューも含まれます。

これらのシミュレーションは、 NLTK が提供するオープンソースのロイターデータセットで実行され、90のラベルの1つ以上でタグ付けされたニュース記事が含まれています。 各実行について、ランダムに選択された100例の同じ初期セットを使用した。 シミュレーションステップごとに、アクティブラーニング戦略によって選択された50の例に注釈を付けてユーザーをモデル化します。 その後、Communications Mining が再トレーニングされ、このプロセスが繰り返されます。

以下のプロットは、より多くの例に注釈が付けられた場合の、ロイター タスクに対する Communications Mining の注釈モデルのパフォーマンスを示しています。 データセットに存在するアノテーションバイアスの量を表すバランススコアも表示されます。

ロイターのデータセットでトレーニングされたさまざまなアクティブラーニング戦略のバランススコアと平均精度。docs image
標準的なアクティブ ラーニング戦略に従うと、Communications Mining と同等の平均精度が得られ、ランダム サンプリングのスコアは 3 つの戦略の中で最も低くなります。 ただし、標準的なアクティブラーニングは、大きなアノテーションバイアスにもつながるため、このアプローチの検証結果は誤解を招く可能性があります。

Communications Mining のアクティブ ラーニング戦略では、ランダム サンプリングと同様のバランス スコアが生成されますが、同じモデルのパフォーマンスを生成するために必要な例は少なくなります。 つまり、 リバランス によるアクティブラーニングは、標準的なアクティブラーニングとランダムサンプリングの両方を最大限に活用し、偏りのないレビューされた例と優れたモデルパフォーマンスをより短い時間で提供します。

概要

  • 正確なモデル検証スコアを取得するには、注釈付きデータがデータセット全体を表す必要があります。
  • Communications Mining の注釈バイアス モデルは、レビュー済みのデータと未レビューのデータを比較して、データセットで過小評価されているトピックを特定します。
  • Rebalanceビューを使用すると、データセット内の注釈バイアスにすばやく対処できます。
  • Communications Mining のアクティブ ラーニングは、標準的なアプローチよりも注釈バイアスが少なく、ランダム サンプリングのみの場合よりも優れたパフォーマンスを発揮します。

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.