ixp
latest
false
UiPath logo, featuring letters U and I in white

Communications Mining ガイド

最終更新日時 2025年8月11日

カバレッジを理解して拡大する

手記: Automation Cloud ユーザーとして [ソース] - [読み取り ] 権限と [データセット - 確認 ] 権限、またはレガシ ユーザーとして [ ソースの表示 ] 権限と [ 確認とアノテーション] 権限を割り当てている必要があります。

カバレッジはマシン ラーニングで頻繁に使用される用語であり、分析対象のデータをモデルがどの程度網羅しているかに関連します。このプラットフォームでは、データセット内の、有益なラベルがあると予測されたメッセージの割合に関連し、[検証] ページで割合のスコアとして表示されます。

有益なラベルとは、他のラベルと一緒に割り当てられている頻度を調べることで、スタンドアロンのラベルとして有用であるとプラットフォームが理解したラベルのことです。常に別のラベルとともに割り当てられているラベル (単独で割り当てられることのない親ラベルや、常に別のラベルとともに割り当てられている場合の「緊急」) は、スコアの計算時に重み付けが下げられます。

次の図は、データセット全体でカバレッジが低い場合とカバレッジが高い場合にどのような状態になるかを示しています。濃い色の円が有益なラベル予測を持つメッセージであると想像してください。



カバレッジは、データセット内のさまざまな潜在的な概念をすべて捉えているかどうかを理解する場合や、十分に多様なトレーニング例を提供し、プラットフォームがその概念を効果的に予測できるようにしているかどうかを理解する場合に、メトリックとして非常に役に立ちます。

ほとんどの場合、モデルのカバレッジが高いほどパフォーマンスが高くなりますが、モデルのパフォーマンスを確認する際にカバレッジを単独で考慮しないでください。

注:

また、タクソノミーのラベルが健全であること、つまり、平均適合率が高くパフォーマンスに関する警告がほかにないこと、およびトレーニング データがデータセット全体をバランスよく代表していることを確認してください。

ラベルが異常である場合や、トレーニング データがデータセットを代表していない場合、プラットフォームによって計算されるモデルのカバレッジは信頼できません。

モデルのカバレッジが高いことは、そのモデルを使用して自動化プロセスを推進する場合に特に重要です。

コンテキストに沿ったカバレッジ

会社の共有メール受信トレイで受信したさまざまなリクエストを自動的にルーティングするようなユース ケースにカバレッジがどうあてはまるかを考えてみましょう。

さまざまなリクエストを自動的にルーティングするように設計されたモデルの場合、カバレッジが低いということは、多数のリクエストが不正確にルーティングされたか、モデルがリクエストを識別できなかったために手動での確認に送られたことを意味します。

このメールボックスで作業しているチームが管理している主要なプロセスは 10 個あるにもかかわらず、タクソノミーでは事実上そのうちの 7 個しかキャプチャされていない場合、カバレッジ スコアが不良になる可能性があります。また、モデルは残りのプロセスが実際に何であるかを教えられていないため、残りのプロセスを誤って別のプロセスとして予測する可能性もあります。この場合、カバレッジ スコアは不自然に高くなります。

オートメーションの実行時に、残りの 3 つのプロセスが見逃されたり、手動での確認に送られたり、誤って別のプロセスとして分類されて間違った場所にルーティングされたりする可能性があります。

It's also important that for each of the processes, there are sufficient varied training examples that capture the varied expressions used when discussing the process. If there are not, each label will have lower recall and the model's coverage will be low.

以下の図は、この例が実際にどのように見えるかを示しています。この例では、複数のクライアントが複数のリクエストの種類をメールで送信しています。同じリクエストの種類がクライアントごとに異なる方法で記述されている可能性があります。



3 つの異なるモデル シナリオが示されており、それぞれがカバレッジに異なる影響を及ぼします。

docs image一部のリクエストの種類 (概念) がタクソノミーで網羅されていない - カバレッジが低い可能性が高い
docs imageすべてのリクエストの種類が網羅されているが、一部のラベルに異常があり、十分な例がない可能性がある – カバレッジが低く、信頼できない可能性がある
docs image網羅されているすべてのリクエストの種類とラベルがすべて正常である – カバレッジが高く、信頼できる可能性がある

モデルのカバレッジを確認する

[検証] の [モデルの評価] 機能は、カバレッジなどの最も重要な要因にわたって、モデルのパフォーマンスの詳細な内訳を提供します。

ユーザーには、有益なラベルの予測があると予測されるメッセージの割合を示す割合のスコアが提供され、これが、評価、およびモデルの総合評価への寄与度に関連付けられます。

ラベルが 1 つ以上予測されたメッセージの割合も提供されていましたが、これは、この要因のスコアと評価を決定するものではありません。

次の例では、次のことがわかります。

  • このモデルのカバレッジは 85.2% である
  • ここから、この要因の評価が「良好」になっている
  • さらにこれが、+3 というモデルの総合評価にプラスに寄与している

[検証] に表示されるカバレッジの内訳の例

パフォーマンスの指標としてのカバレッジは、常に、タクソノミー内のラベルの健全性、およびデータセットのバランスと併せて理解する必要があることを覚えておくことが重要です。プラットフォームによって提供されるカバレッジ スコアを信頼できると見なす前に、モデルの評価に寄与する他の要因の評価も「良好」以上であることを確認する必要があります。

モデルに必要なカバレッジ

少なくとも、カバレッジは、「良好」の評価が提供される十分な高さでなければなりません。この段階になったら、モデルのパフォーマンスは非常に良く、ユース ケースの要件に基づいてさらに最適化できます。

人間と同じように、マシン ラーニング モデルにも限界があるため、100% のカバレッジを達成することを期待するべきではありません。これに近づけることはできますが、データが非常に単純で反復的である場合か、データセットの非常に高い割合にアノテーションを行った場合に限ります。

優秀」の評価に到達することは、データによっては困難な可能性があります。また、ユース ケースによっては必ずしも必要ではありません。

自動化に重点を置いたユース ケースでは、高いカバレッジを確保することが特に重要であるため、このようなケースでは、カバレッジを可能な限り最適化して「優秀」の評価を達成する必要があります。

分析に重点を置いたユース ケースでは、非常に高いカバレッジを確保することはそれほど重要ではありません。多くの場合、モデルが最もよく出現する概念を識別できれば十分です。これによって、変更と改善について最大の洞察と潜在的な機会が得られるためです。

分析に重点を置いたモデルでは、通常、正解率を多少犠牲にして、タクソノミー内の非常に幅広い概念を広範にキャプチャします。

モデルのカバレッジを拡大する

他の要因と同様に、有益な推奨される「次の操作」がプラットフォームによって提供されます。ユーザーは、この操作を実行してモデルのカバレッジを改善できます。詳細については、このセクションの画像と前の画像の参照をご覧ください。

推奨されるアクションはリンクとして機能し、推奨されるトレーニング モードに直接移動できます。

In the case of coverage, the platform will most often recommend training in Low Confidence mode, as this mode allows users to annotate the least covered of all the messages in the dataset. For more details, check Training using Low confidence.

推奨されるトレーニング モードで妥当な量のトレーニングを完了した後 (トレーニングの量は開始時のカバレッジの低さによって異なります)、モデルが再トレーニングされて [検証] が更新されたら、改めて改善の度合いを確認できます。必要に応じて、このプロセスを繰り返すことで、継続してスコアを改善できます。

カバレッジが非常に低い場合、通常はトレーニング プロセスの早い段階で、有益と思われる他のトレーニング モードも推奨されることがあります。たとえば、以下の例に示すように、[発見] で類似するメッセージのクラスターにアノテーションを行うことなどです。

モデルのカバレッジが低いことを示す要因カードと推奨されるアクションの例



特定のラベルのカバレッジの確認

このプラットフォームでは、モデルのカバレッジを評価する際に、タクソノミー内のどのラベルが「有益」であるかをインテリジェントに識別し、[モデルの評価] で提示できます。

ただし、タクソノミー内の特定のラベル セットの予測で網羅される可能性が高いデータセットの割合を評価したい場合は、[レポート] ページで評価できます。

これを行うには、[レポート] のラベル フィルター バーで対象となるすべてのラベルを選択します (以下を参照)。



[レポート] のページ上部に表示されるメッセージの数は、適用したフィルターに基づいて更新されます。ラベル フィルターからラベルを選択すると、この数が更新され、選択したラベルの少なくとも 1 つが予測される可能性が高いメッセージの数が表示されます。

[レポート] のメッセージの数

この例では、データセットは、ある銀行のマージン コール プロセスに関連するメールだけで構成されており (260,000 通のメールが含まれます)、260,000 個のメッセージの中の 237,551 個で、選択したラベルが 1 つ以上予測される可能性が高いことがわかります。カバレッジは約 91.4% で良好であることを示しています。

この方法だけでモデルの全体的なカバレッジをテストしないでください。データセット全体のカバレッジの最も信頼性の高い指標は [モデルの評価] で提示され、これをタクソノミー内のラベルの全体的なパフォーマンスと併せて考慮する必要があります。

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo
信頼とセキュリティ
© 2005-2025 UiPath. All rights reserved.