- API ドキュメント
- CLI
- 連携ガイド
- ブログ
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining による注釈バイアスの修正
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 会話型データ インテリジェンスのための Communications Mining と Google AutoML の比較
Communications Mining による注釈バイアスの修正
Communications Mining では、マシン ラーニング モデルを使用して、メール、チャット、通話などの通信データのパターンを識別します。 モデルはこれらのパターンを推定して、将来の同様のデータを予測し、自動化や分析などのダウンストリームプロセスを推進します。
このアプローチを機能させるには、モデルのトレーニングに使用するデータが、予測を行う通信を表すものである必要があります。 そうでない場合、モデルは正確な予測に依存するシステムのパフォーマンスに深刻な影響を与える可能性のある間違いを犯します。
ユーザーが堅牢でパフォーマンスの高いモデルを構築できるように、トレーニングに使用されるデータがユーザーのターゲットタスクと常に一致するようにするツールを構築しました。 このブログ投稿では、このツールの仕組みと、その開発中に取り組んだいくつかの問題について説明します。
注釈バイアスとは何ですか?
Communications Mining のモデルは、ユーザーがレビューしたデータでトレーニングされます。 ユーザーは、関心のあるトピックのラベルを作成し、適用するラベルで例に注釈を付けます。 その後、このレビュー済みデータでモデルが自動的にトレーニングされ、適用されるラベルが予測されます。
データに注釈を付けることは困難で時間がかかります。 Communications Mining は、 アクティブ ラーニング を活用してプロセスを高速化し、最も情報量の多いデータ ポイントに可能な限り最速の時間で注釈を付けられるようにします。
アクティブラーニングは特定のデータポイントを選択するため、基礎となるデータのサブセットにのみ焦点を当てる傾向があります。 さらに、概念を切り替えると、認知的なオーバーヘッドが伴います。 ユーザーは、テーマ間を絶えず変更するのではなく、類似したトピックの例のグループに同時に注釈を付けることをお勧めします。
これにより、一部のトピックがデータセット全体よりもレビュー済みデータに多かれ少なかれ頻繁に表示される可能性があります。 ユーザーが注釈を付けたデータが基になるデータを表さなくなったため、これを注釈バイアスと呼びます。
なぜあなたは気にする必要がありますか?
Communications Mining では 、検証 中にレビュー済みのデータを使用してモデルのパフォーマンスを評価します。 このデータが特定のトピックに偏っている場合、検証結果が誤解を招く可能性があります。
EMEA全体からの電子メールを含む多国籍銀行の共有メールボックスを考えてみましょう。 Communications Mining の多言語モデルは、さまざまな言語で通信データを理解できます。 ただし、ユーザーが 1 つの言語のメールにのみラベルを付ける場合、モデルはその言語に固有の機能に焦点を当てるように学習する可能性があります。
この場合、そのモデルの検証スコアは、注釈が付けられたすべての例で適切に実行されるため、適切です。 一方、他の言語の電子メールのパフォーマンスは悪化する可能性があります。 レビューされたデータでこれを強調する例がないため、ユーザーは気付かないでしょう。 これにより、正確な予測をモデルに依存するプロセスが非効率になる可能性があります。
ラベリングバイアスの背後にある数学
これらの各成分は、トレーニング中にデータセットの一部またはすべてから推定されます。
- P(ドキュメント∣ラベル): 特定のトピックのドキュメントの範囲をモデル化します。 モデルは注釈付きデータからこれを推定することを学習し、言語と世界に関する知識を使用して外挿します。
- P(ドキュメント): データセット内のさまざまな種類のドキュメントとその相対頻度をモデル化します。 これはラベルとは無関係であり、すべての例(レビュー済みと未レビューの両方)から推定できます。
- P(ラベル)さまざまなトピックの頻度をモデル化します。 これは、各ユースケースに固有のものであるため、注釈付きデータからのみ推定できます。
P(ラベル∣ドキュメント)を見つけるには、3つの部分すべてが必要です。ただし、 P(ラベル)と P(ドキュメント∣ラベル)はどちらも注釈付きデータに大きく依存します。 注釈バイアスが存在する場合、これらの推定値は真の分布と一致しず、 P(Label∣Document)の不正確さにつながる可能性があります。
レビューされたデータがモデルのトレーニングと検証で果たす重要な役割を考えると、注釈バイアスを検出し、データが代表的でない場合はユーザーに警告する必要があります。
最も単純なレベルでは、注釈バイアスは、ユーザーによってレビューされた例とレビューされていない例の間の不一致です。 データセット内の注釈バイアスをチェックするように求められたとします。 この担当者は、レビュー済みデータに表示される一般的なテーマを調べて、未レビューのデータでこれらが発生する頻度を確認する場合があります。
その人がこれら2つのグループを区別するための信頼できるルールを見つけた場合、不均衡があると確信できます。 一方、注釈バイアスのないデータセットでは、例がレビューされているかどうかを正確に予測することはできません。 この人物の予測パフォーマンスは、データセットに存在する注釈バイアスの量を測定します。
このアイデアを、アノテーションバイアスモデルの出発点として使用しました。
比較タスクは、機械学習モデルを使用して自動化できます。 このモデルは Communications Mining のコア モデルとは異なり、ドキュメントに適用されるラベルや全般フィールドを予測します。 代わりに、レビュー済みのデータ ポイントを識別するようにモデルがトレーニングされます。
モデルの検証スコアは、モデルがレビューされた例とレビューされていない例をどれだけ簡単に区別できるか、したがってデータセットにどれだけ注釈バイアスが存在するかを示します。
レビュー済み例の分類
合成データセットでトレーニングされた単純な分類器モデルの平均精度は 80% を超えます。 データセットに偏りがない場合、モデルのパフォーマンスはランダムな偶然よりも優れていないと予想され、レビューされたデータで確認できるバイアスと一致します。
実際のデータセットでトレーニングされた同様のナイーブ分類器モデルも、レビューされた例を確実に検出できます。 これは、これらのデータセットにアノテーションバイアスが存在したが、正確なソースは不明であったことを示唆している。
合成データセットの場合、プロットされたデータにバイアス注釈を付けることの影響を簡単に確認できます。 これは、データが2つ以上の次元にあり、パターンがはるかに複雑であることが多い実際のデータセットには当てはまりません。
代わりに、モデルがレビューされていないと確信している例のパターンを探すことができます。 このアプローチでは、未レビューであると自信を持って予測された電子メールには、テキストのない添付ファイルが含まれていることがよくありました。 これらの電子メールがデータに存在する場合、レビューされた例では通常過小評価されていました。
これは明確な注釈バイアスを構成し、分類子モデルの有望性を示しています。
注釈バイアス モデルは、レビュー済みのデータとレビューされていないデータを区別するようにトレーニングされます。 この設定では、モデルは注釈付きデータ内のパターンを識別することによってユーザーをキャッチしようとします。 この敵対的アプローチは、レビューされたデータを検査する強力な方法ですが、2つの興味深い問題も提起します。
些細な違い
モデルによって取得されたレビュー済みデータと未レビュー済みデータの違いは、ユーザーにとって意味を持つ必要があります。 しかし、単純なバイアスモデルに詳細な入力を提供すると、モデルが重要でないパターンに焦点を合わせることがあることがわかりました。
GOCR
を含む.jpg
ファイルを含む添付ファイルのみのメールが、未レビューであると確実に予測されていました。レビューされたセットにはそのような例はありませんでしたが、レビューされていないセットには160があり、小さな注釈バイアスを表しています。
GOCR
が存在することに依存するダウンストリームプロセスはなく、これらの例はデータセット内の添付ファイルのみの電子メールのサブセットにすぎませんでした。 実際、これらのメールはすべて、データセットの Auto-Generated
ラベルに対して自信を持って正確な予測をしていたため、これらの機能も Communications Mining の注釈モデルにとって重要ではありませんでした。 ただし、バイアス モデルでは、これらの特徴を使用して予測を行っていました。
ユーザーは、適切な注釈バイアス スコアを取得するために、意味のない機能のすべての組み合わせにラベルを付ける必要はありません。 ほとんどすべての概念について、可能なデータポイントの範囲を完全にキャプチャするために何千もの例は必要ありません。 代わりに、注釈バイアス モデルは、注釈付けの予測に実際に影響を与える違いにのみ焦点を当てる必要があります。
重要でないトピック
データセットには、ターゲット タスクとは無関係であるため、ユーザーが注釈を付けることのないデータ ポイントが含まれている場合があります。
多国籍銀行の例に戻ると、チームはCommunications Miningを使用して、国固有のユースケースを推進できます。 各チームは、ターゲット タスクに合わせてカスタマイズされたモデルを構築し、すべてのモデルで共有メールボックスの電子メールを使用します。
これらのユース ケースは、チームによって異なる可能性があります。 ヨーロッパ諸国は、ブレグジットが事業に与える影響を追跡し、この目的のために一連のラベルを作成する場合があります。 一方、中東とアフリカのチームは、ブレグジット関連の電子メールを役に立たない可能性があり、モデルではそれらを無視します。
ブレグジット関連のメールに注釈を付けないことは、バイアスに注釈を付ける例です。 ただし、これは中東とアフリカのユーザーにとって重要ではないバイアスです。 バイアスモデルはこれを考慮に入れ、チームが有用と見なす電子メール内の注釈バイアスのみを検索する必要があります。
ラベラーが小さな特徴に焦点を当てることをより困難にする必要がありますが、ユーザーが有用であると定義するものによってこれを導きます。 これを行うには、アノテーションバイアスモデルに渡す入力を変更します。
モデル入力
コア注釈モデルへの入力には、入力テキストからの大量の情報が含まれています。 これにより、モデルはラベルの予測に影響を与える複雑な関係を学習できます。 ただし、注釈バイアス モデルの場合、これにより、モデルはファイル名などの機能の小さくて無意味な違いに焦点を当てることもできます。
次元削減は、元の入力の意味のあるプロパティを維持しながら、情報をフィルターで除外する方法です。 入力を減らすと、バイアス モデルがデータセット内の重要な情報を保持しながら、小さな特徴に焦点を合わせるのを防ぐことができます。
ユーザーは追跡するトピックのラベルのみを作成するため、次元削減時にラベルを含めると、最も重要な入力フィーチャが保持されます。 このアプローチにより、アノテーションバイアスモデルは小さな特徴に焦点を当てなくなり、バイアスを推定するときにラベルを考慮に入れます。
バランススコア
注釈バイアスを検出して対処することは、信頼性の高いモデル検証スコアに不可欠です。 このため、アノテーションバイアスモデルの性能をモデル評価に示します。
これは、レビュー済みデータと未レビュー済みデータの間の類似度測度の形式です。 類似性スコアが低い場合は、レビュー済みデータと未レビューデータの間に大きな違いがあることを示し、データセット内の注釈バイアスが浮き彫りになります。
リバランス
偏りのないレビュー済みデータのセットを構築する最善の方法は、ランダムに選択した例に注釈を付けることです。 このようにして、レビューされたラベルは常に基になる分布と一致します。 ただし、この方法で注釈を付けることは、特にまれな概念の場合、非効率的です。
代わりに、Communications Mining はアクティブ ラーニングを使用して、最も有用な例をターゲットにすることで注釈付けプロセスを高速化します。 これらのターゲット例は、基になるデータ分布と必ずしも一致しないため、注釈バイアスは時間の経過とともに徐々に発生する可能性があります。
アクティブラーニングは、レビューされた例の偏りのないセットを生成することを保証するものではありません。 ただし、注釈バイアスが検出された場合は、注釈バイアスモデルを使用して不均衡に対処できます。 このようにして、アクティブラーニングのトレーニング時間の短縮とランダムサンプリングのアノテーションバイアスの低さというメリットがあります。
Rebalance
ビューの基礎です。 これらの例に注釈を付けると、データセット内の注釈バイアスにすばやく対処できます。
リバランスによって Communications Mining のパフォーマンスがどのように向上するかを示すために、3 つのアクティブ ラーニング戦略に従って例に注釈を付けるユーザーをシミュレートしました。
- ランダム。未レビューの例のランダム選択に注釈を付けます。
- 標準です。 Communications Mining が最も確信が持てない例、または予測エントロピーが最も高い例に注釈を付けます。 これはアクティブ ラーニングの一般的なアプローチであり、Communications Mining で
Teach
ビューのみを使用する場合と同じです。 - 通信マイニング。 Communications Mining のアクティブ ラーニング戦略に従って、現在のモデルを改善するための上位のトレーニング アクションを提案します。 これには、
Rebalance
ビューも含まれます。
これらのシミュレーションは、 NLTK が提供するオープンソースのロイターデータセットで実行され、90のラベルの1つ以上でタグ付けされたニュース記事が含まれています。 各実行について、ランダムに選択された100例の同じ初期セットを使用した。 シミュレーションステップごとに、アクティブラーニング戦略によって選択された50の例に注釈を付けてユーザーをモデル化します。 その後、Communications Mining が再トレーニングされ、このプロセスが繰り返されます。
以下のプロットは、より多くの例に注釈が付けられた場合の、ロイター タスクに対する Communications Mining の注釈モデルのパフォーマンスを示しています。 データセットに存在するアノテーションバイアスの量を表すバランススコアも表示されます。
Communications Mining のアクティブ ラーニング戦略では、ランダム サンプリングと同様のバランス スコアが生成されますが、同じモデルのパフォーマンスを生成するために必要な例は少なくなります。 つまり、 リバランス によるアクティブラーニングは、標準的なアクティブラーニングとランダムサンプリングの両方を最大限に活用し、偏りのないレビューされた例と優れたモデルパフォーマンスをより短い時間で提供します。