Communications Mining
最新
バナーの背景画像
Communications Mining ガイド
最終更新日 2024年2月29日

カバレッジを理解および拡大する

必要なユーザー権限: 「ソースの表示」と「レビューとラベル付け」。

カバレッジとは何ですか?

カバレッジ は機械学習で頻繁に使用される用語であり、モデルが分析に使用される データをどの程度「カバー」 するかに関連しています。 プラットフォームでは、これはデータセット内の逐語的なラベル予測を持つ割合に関連し、検証ではパーセンテージ スコアとして表示されます。

[有益なラベル] とは、プラットフォームが、他のラベルと一緒に割り当てられている頻度を調べることで、スタンドアロンのラベルとして有用であると理解したラベルのことです。常に別のラベルとともに割り当てられているラベル (単独で割り当てられることのない親ラベルや、常に別のラベルとともに割り当てられている場合の「緊急」) は、スコアの計算時に重み付けが下げられます。

次の図は、データセット全体で低カバレッジと高カバレッジがどのように見えるかを示しています。影付きの円が、有益なラベル予測を持つ逐語データであると想像してください。



カバレッジがメトリックとして非常に役立つのは、データセット内のさまざまな潜在的な概念をすべて捉えているかどうかや、十分に多様なトレーニング例を提供し、プラットフォームがその概念を効果的に予測できるようにしたかどうかを理解する場合です。

ほとんどの場合、モデルのカバレッジが高いほどパフォーマンスは高くなりますが、モデルのパフォーマンスを確認する場合、カバレッジ単独で考慮しないでください

また、タクソノミーのラベルが正常であること、つまり平均適合率が高く、パフォーマンスに関する警告がほかにないこと、およびトレーニング データがデータセット全体をバランスよく反映していることも非常に重要です。

ラベルが異常な場合、またはトレーニング データがデータセットを反映していない場合、プラットフォームが計算するモデルのカバレッジ信頼できません

モデルのカバレッジが高いことは、そのモデルを自動化プロセスの推進に使用する場合に特に重要です

コンテキスト内のカバレッジ

それでは、これが典型的なユースケースでどのように適用されるかを考えてみましょう-ビジネスの共有メール受信トレイによって受信されたさまざまなリクエストを自動的にルーティングします。

異なる要求を自動的にルーティングするように設計されたモデルの場合、 カバレッジが低い ということは、 多くの要求が不正確にルーティングされたか、モデルがそれらを識別できなかったために 手動レビューのために送信された ことを意味します。

メールボックスで作業しているチームによって管理されている 10 個の主要なプロセスがあるが、分類によってそのうちの 7 個しか効果的にキャプチャされない場合、 カバレッジ スコアが低下する可能性があります。 あるいは、残りのプロセスが実際に何であるかが学習されていないため、 モデルが残りのプロセスを他のプロセスとして誤って予測する場合があります。 これにより、人為的に高いカバレッジスコアが得られます。

自動化時には、残りの 3 つのプロセスが見落とされたり、手動によるレビューに送られたり、別のプロセスとして誤って分類されて間違った場所にルーティングされたりする可能性があります。

また、プロセスごとに、 プロセスについて話し合うときに使用されるさまざまな表現をキャプチャするさまざまなトレーニング例が十分にあることも重要です。 存在しない場合、各ラベルの 再現率 が低くなり、モデルのカバレッジが低くなります。

以下のビジュアルは、この例が実際にどのように見えるかを示しています 。複数のクライアントが複数の要求タイプを電子メールで送信しています。 各クライアントは、同じ要求タイプを異なる方法で記述できます。



示されている 3 つの異なるモデル シナリオがあり、それぞれがカバレッジに与える影響が異なります。

docs imageすべての要求の種類 (つまり、 概念) がタクソノミーの対象となる - カバレッジが低い可能性が高い
docs imageすべてのリクエストタイプがカバーされていますが、一部のラベルは正常ではなく、十分な例がない可能性があります –カバレッジが低く、信頼性が低い可能性があります
docs imageカバーされるすべての要求の種類とラベルはすべて正常です – 信頼できる可能性が高い高いカバレッジ

モデルのカバレッジを確認する方法

検証では、モデル評価機能は、 カバレッジ を含む最も重要な要因にわたる モデル のパフォーマンスの詳細な内訳を提供します。

ユーザーには、有益なラベル (上記の説明 を参照) 予測 があると予測される逐語的割合の パーセンテージ スコア が提供され、これは評価とモデル全体の評価への貢献度に関連付けられます。

プラットフォームは、少なくとも1つのラベルが予測された逐語の割合も提供しましたが、これはこの要因のスコアと評価を決定するものではありません。

以下の例では、次のことがわかります。

  • このモデルのカバレッジは85.2%です
  • これは、この要因の評価が「良い」に変換されます
  • これは、+3の全体的なモデル評価へのプラスの貢献にもつながります
検証に示されているカバレッジの内訳の例

パフォーマンスの尺度としてのカバレッジは、常に、分類内のラベルの健全性およびデータセットのバランスと併せて理解する必要があることを覚えておくことが重要です。 プラットフォームによって提供されるカバレッジ スコアが信頼できると考える前に、 モデル評価 に寄与する 他の要因 に対して少なくとも " 良い " 評価があることを確認する必要があります。

モデルのカバレッジはどのくらい高くする必要がありますか?

少なくとも、 カバレッジは、プラットフォームが「良い」評価を提供するのに十分高くなければなりません。 この段階に達すると、モデルのパフォーマンスは 良好であり、ユースケース の要件に基づいてさらに最適化 することを選択できます。

人間と同じように、機械学習モデルにも限界があるため、 100%のカバレッジを達成することを期待するべきではありません。 これに近づくかもしれませんが、データが非常に単純で反復的である場合、またはデータセットの非常に高い割合にラベルを付ける場合に限ります。

優秀」評価に到達することは、 データによっては困難な場合があり、ユースケースによっては 必ずしも必要ではありません

自動化に重点を置いたユース ケースでは、高いカバレッジを確保することが特に重要になるため、そのようなケースでは、カバレッジを可能な限り最適化して「優秀」の評価を達成する必要があります。

分析に重点を置いたユースケースでは、カバレッジが非常に高いことは少し重要ではありません。モデルが最も頻繁に発生する概念を識別できれば、変更と改善のための最大の洞察と潜在的な機会が得られるため、多くの場合十分です。

分析に重点を置いたモデルでは、通常、分類法の非常に幅広い概念を広くキャプチャするために、ある程度の精度が犠牲になります。

モデルのカバレッジをどのように拡大しますか?

他の要因と同様に、プラットフォームは、モデルのカバレッジを向上させるためにユーザーが実行できる便利な 推奨される「次善のアクション」 を提供します(上下の画像を参照)。

推奨されるアクションは、推奨されるトレーニングモードに直接移動する リンクとして機能します

カバレッジの場合、プラットフォームはほとんどの場合、「 低信頼度 」モードでのトレーニングを 推奨 します。このモードでは、ユーザーはデータセット 内のすべての逐語的要素の中で最も「カバーされていない」ものにラベルを付ける ことができるためです。このトレーニング モードの使用方法の詳細については、 こちらをご覧ください

推奨されるトレーニング モードで適度な量のトレーニングを完了した後 (どの程度のトレーニングを開始するかはカバレッジの 低さによって異なります )、 モデルが再トレーニングされ、検証が更新された後に、ユーザーはチェックインして改善の様子を確認できます必要に応じて、このプロセス を繰り返し てスコアを向上させ続けることができます。

カバレッジが非常に低い場合、通常はトレーニングプロセスの早い段階で、プラットフォームは、 Discover で類似した逐語的な クラスターにラベルを付ける など、有益と思われる他のトレーニングモードを推奨することもあります (以下の例を参照)。

モデルのカバレッジが低いことを示す因子カードの例と推奨されるアクション

特定のラベルのカバレッジチェック

プラットフォームは、モデルのカバレッジを評価する際に、タクソノミー内のどのラベルが「有益」であるかをインテリジェントに識別し、これをモデル評価に表示できます(前述のとおり)。

ただし、 タクソノミー内の特定のラベル セット に対する 予測でカバーされる可能性が高い データセットの割合を評価する場合は、[ レポート ] ページで評価できます。

これを行うには、レポートのラベルフィルターバーで該当するすべてのラベルを選択します(以下を参照)。

レポートのフィルター バーで選択したラベル

レポートのページ上部に表示される逐語的なカウントは、適用されたフィルターに基づいて更新されます。 ラベル フィルターからラベルを選択すると、カウントが更新され、選択したラベルの 少なくとも 1 つ が予測される可能性が高い逐語的な数が表示されます。

レポートの逐語的なカウント

銀行のマージンコールプロセスのみに関連する電子メールのこのデータセットの例では(260,000通の電子メールが含まれています)、260,000の逐語のうち237,551の逐語的に、選択したラベルの少なくとも1つが予測される 可能性が高い ことがわかります。 約91.4%の良好なカバレッジを示しています。

これは、モデルの全体的なカバレッジをテストするための唯一のチェックではありません。 データセット全体のカバレッジの最も信頼性の高い尺度は (前述の とおり) モデルの評価 に表示され、分類法のラベルの全体的なパフォーマンスと併せて検討する必要があります。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.