- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining
- ライセンス情報
- よくある質問など
カバレッジを理解して拡大する
必要なユーザー権限:「ソースの表示」および「確認とアノテーション」
カバレッジは機械学習で頻繁に使用される用語であり、分析対象のデータをモデルがどの程度網羅しているかに関連します。このプラットフォームでは、データセット内の、有益なラベルがあると予測されたメッセージの割合に関連し、[検証] ページで割合のスコアとして表示されます。
「有益なラベル」とは、他のラベルと一緒に割り当てられている頻度を調べることで、スタンドアロンのラベルとして有用であるとプラットフォームが理解したラベルのことです。常に別のラベルとともに割り当てられているラベル (単独で割り当てられることのない親ラベルや、常に別のラベルとともに割り当てられている場合の「緊急」) は、スコアの計算時に重み付けが下げられます。
次の図は、データセット全体でカバレッジが低い場合とカバレッジが高い場合にどのような状態になるかを示しています。濃い色の円が有益なラベル予測を持つメッセージであると想像してください。
カバレッジは、データセット内のさまざまな潜在的な概念をすべて捉えているかどうかを理解する場合や、十分に多様なトレーニング例を提供し、プラットフォームがその概念を効果的に予測できるようにしているかどうかを理解する場合に、メトリックとして非常に役に立ちます。
ほとんどの場合、モデルのカバレッジが高いほどパフォーマンスが高くなりますが、モデルのパフォーマンスを確認する際にカバレッジを単独で考慮しないでください。
また、タクソノミーのラベルが健全であること、つまり、平均適合率が高くパフォーマンスに関する警告がほかにないこと、およびトレーニング データがデータセット全体をバランスよく代表していることも非常に重要です。
ラベルが異常である場合や、トレーニング データがデータセットを代表していない場合、プラットフォームによって計算されるモデルのカバレッジは信頼できません。
モデルのカバレッジが高いことは、そのモデルを使用して自動化プロセスを推進する場合に特に重要です。
では、これが一般的なユース ケースにどうあてはまるかを考えてみましょう。ここでは、会社の共有メール受信トレイで受信したさまざまなリクエストを自動的にルーティングするユース ケースを取り上げます。
さまざまなリクエストを自動的にルーティングするように設計されたモデルの場合、カバレッジが低いということは、多数のリクエストが不正確にルーティングされたか、モデルがリクエストを識別できなかったために手動での確認に送られたことを意味します。
このメールボックスで作業しているチームが管理している主要なプロセスは 10 個あるにもかかわらず、タクソノミーでは事実上そのうちの 7 個しかキャプチャされていない場合、カバレッジ スコアが不良になる可能性があります。また、モデルは残りのプロセスが実際に何であるかを教えられていないため、残りのプロセスを誤って別のプロセスとして予測する可能性もあります。この場合、カバレッジ スコアは不自然に高くなります。
オートメーションの実行時に、残りの 3 つのプロセスが見逃されたり、手動での確認に送られたり、誤って別のプロセスとして分類されて間違った場所にルーティングされたりする可能性があります。
また、各プロセスに対して多様なトレーニング例が十分にあり、その例により、プロセスについての会話で使われる多様な表現がキャプチャされることも重要です。例が十分にない場合、各ラベルの再現率が低下し、モデルのカバレッジも低くなります。
以下の図は、この例が実際にどのように見えるかを示しています。この例では、複数のクライアントが複数のリクエストの種類をメールで送信しています。同じリクエストの種類がクライアントごとに異なる方法で記述されている可能性があります。
3 つの異なるモデル シナリオが示されており、それぞれがカバレッジに異なる影響を及ぼします。
一部のリクエストの種類 (概念) がタクソノミーで網羅されていない - カバレッジが低い可能性が高い | |
すべてのリクエストの種類が網羅されているが、一部のラベルに異常があり、十分な例がない可能性がある – カバレッジが低く、信頼できない可能性がある | |
網羅されているすべてのリクエストの種類とラベルがすべて正常である – カバレッジが高く、信頼できる可能性がある |
[検証] の [モデルの評価] 機能は、カバレッジなどの最も重要な要因にわたって、モデルのパフォーマンスの詳細な内訳を提供します。
ユーザーには、有益なラベル (上記の説明を参照) の予測があると予測されるメッセージの割合を示す割合のスコアが提供され、これが、評価、およびモデルの総合評価への寄与度に関連付けられます。
ラベルが 1 つ以上予測されたメッセージの割合も提供されていましたが、これは、この要因のスコアと評価を決定するものではありません。
以下の例では、次のことがわかります。
- このモデルのカバレッジは 85.2% である
- ここから、この要因の評価が「良好」になっている
- さらにこれが、+3 というモデルの総合評価にプラスに寄与している
パフォーマンスの指標としてのカバレッジは、常に、タクソノミー内のラベルの健全性、およびデータセットのバランスと併せて理解する必要があることを覚えておくことが重要です。プラットフォームによって提供されるカバレッジ スコアを信頼できると見なす前に、モデルの評価に寄与する他の要因の評価も「良好」以上であることを確認する必要があります。
少なくとも、カバレッジは、「良好」の評価が提供される十分な高さでなければなりません。この段階になったら、モデルのパフォーマンスは非常に良く、ユース ケースの要件に基づいてさらに最適化できます。
人間と同じように、マシン ラーニング モデルにも限界があるため、100% のカバレッジを達成することを期待するべきではありません。これに近づけることはできますが、データが非常に単純で反復的である場合か、データセットの非常に高い割合にアノテーションを行った場合に限ります。
「優秀」の評価に到達することは、データによっては困難な可能性があります。また、ユース ケースによっては必ずしも必要ではありません。
自動化に重点を置いたユース ケースでは、高いカバレッジを確保することが特に重要であるため、このようなケースでは、カバレッジを可能な限り最適化して「優秀」の評価を達成する必要があります。
分析に重点を置いたユース ケースでは、非常に高いカバレッジを確保することはそれほど重要ではありません。多くの場合、モデルが最もよく出現する概念を識別できれば十分です。これによって、変更と改善について最大の洞察と潜在的な機会が得られるためです。
分析に重点を置いたモデルでは、通常、正解率を多少犠牲にして、タクソノミー内の非常に幅広い概念を広範にキャプチャします。
他の要因と同様に、有益な推奨される「次の操作」がプラットフォームによって提供されます。ユーザーは、この操作を実行してモデルのカバレッジを改善できます (上の図と下の図を参照)。
推奨されるアクションはリンクとして機能し、推奨されるトレーニング モードに直接移動できます。
カバレッジの場合は、「信頼度が低い」モードでのトレーニングが推奨されることがほとんどです。このモードを使うと、データセット内のすべての逐語データの中で最も「網羅されていない」メッセージにアノテーションを行うできるためです。このトレーニング モードの使用方法について詳しくは、こちらをご覧ください。
推奨されるトレーニング モードで妥当な量のトレーニングを完了した後 (トレーニングの量は開始時のカバレッジの低さによって異なります)、モデルが再トレーニングされて [検証] が更新されたら、改めて改善の度合いを確認できます。必要に応じて、このプロセスを繰り返すことで、継続してスコアを改善できます。
カバレッジが非常に低い場合、通常はトレーニング プロセスの早い段階で、有益と思われる他のトレーニング モードも推奨されることがあります。たとえば、[発見] で類似するメッセージのクラスターにアノテーションを行うことなどです (以下の例を参照)。
このプラットフォームでは、モデルのカバレッジを評価する際に、タクソノミー内のどのラベルが「有益」であるかをインテリジェントに識別し、[モデルの評価] で提示できます (前述の説明を参照)。
ただし、タクソノミー内の特定のラベル セットの予測で網羅される可能性が高いデータセットの割合を評価したい場合は、[レポート] ページで評価できます。
これを行うには、[レポート] のラベル フィルター バーで対象となるすべてのラベルを選択します (以下を参照)。
[レポート] のページ上部に表示されるメッセージの数は、適用したフィルターに基づいて更新されます。ラベル フィルターからラベルを選択すると、この数が更新され、選択したラベルの少なくとも 1 つが予測される可能性が高いメッセージの数が表示されます。
この例では、データセットは、ある銀行のマージン コール プロセスに関連するメールだけで構成されており (260,000 通のメールが含まれます)、260,000 個のメッセージの中の 237,551 個で、選択したラベルが 1 つ以上予測される可能性が高いことがわかります。カバレッジは約 91.4% で良好であることを示しています。
この方法だけでモデルの全体的なカバレッジをテストしないでください。データセット全体のカバレッジの最も信頼性の高い指標は [モデルの評価] で提示され (前述の説明を参照)、これをタクソノミー内のラベルの全体的なパフォーマンスと併せて考慮する必要があります。