- はじめに
- アクセス制御と管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining™
- 開発者
- データをアップロードする
- データのダウンロード
- Exchange と Azure サービス ユーザーとの連携
- Exchange と Azure アプリケーション認証の統合
- Exchange と Azure Application Authentication and Graph の統合
- Migration Guide: Exchange Web Services (EWS) to Microsoft Graph API
- Python を使用した Tableau のデータのフェッチ
- Elasticsearch との連携
- 一般的なフィールド抽出
- セルフホストの Exchange 統合
- UiPath® Automation Framework
- UiPath® 公式アクティビティ
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining™ でアノテーションの偏りを修正する
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する
- ライセンス
- よくある質問など

Communications Mining ガイド
それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
機械学習モデルを構築してトレーニングするときは、パフォーマンスを理解することが不可欠です。 トレーニング データとタスクによっては、最も高度なモデルであっても誤った予測が生成される可能性があり、その結果、誤解を招く分析や誤った自動化フローが発生する可能性があります。
例を手動で調べてモデルの予測を確認するのは、特に何百万ものデータ ポイントを含むデータセットの場合は現実的ではありません。代わりに、Communications Mining™ は複数のメトリックを継続的に計算して表示し、モデルの分析と障害の特定を支援します。
ただし、状況によっては、メトリックが予期しない動作をすることがあります。 このブログ投稿では、メトリックの使用時に発生するいくつかの問題と、プロセスを簡素化するために Communications Mining が使用するいくつかのソリューションについて説明します。
Communications Mining™ の活用例
Communications Mining を使用すると、ユーザーはコミュニケーション データ用のカスタム マシン ラーニング モデルを構築できます。このプロセスでメトリックがどのように使用されるかを理解するには、特定のユース ケースをイメージすると役立ちます。
毎日何千もの電子メールを受信する可能性のある銀行の共有メールボックスを考えてみましょう。 Communications Mining を使用してこれらのメールを自動的にトリアージし、メールボックスを使用する従業員がより効率的に作業できるようにします。
実際のユース ケースでは、メールボックスの対象分野の専門家は、さまざまなワークフローを追跡および自動化するために何百ものラベルを作成します。 ここでは、単純化されたケースを検討します
- 緊急のメール。これらは、従業員のメール クライアントで検出してフラグを付ける必要があります。
- メールが自動生成されます。これらは検出してアーカイブ フォルダーに移動し、受信トレイをクリアに保つ必要があります。
ユーザーは、これらのタスクの Urgent ラベルと Auto Generated ラベルを作成し、いくつかのサンプルメールに注釈を付けます。 Communications Mining は、メールに適用されるラベルを予測する ML モデルを自動的にトレーニングします。 このモデルは、ライブ データの電子メールのトリアージ タスクを自動化するために使用されます。
このコンテキストでは、モデルがこれら 2 つのラベルをどの程度認識できるかを示すメトリックが必要です。
自動生成ラベルの付いた電子メールには有用な情報が含まれていないため、効率を向上させるためにメールボックスから削除されます
Urgent ラベルが付いたメールはユーザーに表示され、迅速な対応のために優先順位が付けられます
予測を比較する
最も低いレベルでは、メトリックはラベルの予測と正解を、ユーザーが作成した「はい/いいえ」のラベル注釈の形式で比較します。
モデルの信頼度 Communications Mining™ のモデルでは、ラベルの存在に関するバイナリ (はい/いいえ) の予測は提供されません。代わりに、00 から 11 までの数値を返します。これは、ラベルが適用されるというモデルの 信頼度 を表します。モデルの信頼度の値は、しきい値を使用してバイナリ ラベルの予測に変換されます。これは単に 00 から 11 までの数値で、ラベルの信頼度値を分割します。
- しきい値を超えると、ラベルが適用されると予測されます(「肯定的な」例)。
- しきい値を下回ると、ラベルが適用されると予測されません(「否定的な」例)。
注釈、ラベル予測、およびしきい値を使用して、一連の例を 4 つの異なるグループに分割できます
- 真陽性 (TP)。モデルはラベルを予測し、ラベルが適用されます。
- 偽陽性 (FP)。モデルはラベルを予測しますが、ラベルは適用されません。
- 偽陰性(FN)。モデルはラベルを予測しませんが、ラベルは適用されます。
- 真陰性 (TN)。モデルはラベルを予測しておらず、ラベルは適用されません。
ラベルのしきい値を変更すると、どのメールがこれら 4 つのグループのそれぞれに分類されるかに影響し、多くのメトリックの開始点として機能します。
精度
モデルの精度を見たくなるかもしれません。

すべてのモデル予測のうち、どの部分が正しいか。
これは合理的であるように思われ、精度はAIパフォーマンスの頼りになる指標と見なされることがよくあります。 ただし、場合によっては、精度が欺瞞的になることがあります。
緊急の電子メールはメールボックスではまれであり、実際にこのクラスに属するのは25通に1通の電子メールだけです。 メールの Urgent ラベルを予測しない不適切なモデルの場合、精度スコアは次のようになります。

このスコアは高いですが、モデルのパフォーマンスは実際には低くなっています。 精度は、 Urgent や Auto Generatedなどのまれなラベルを持つタスクのパフォーマンスを過大評価する可能性があります。
適合率と再現率
精度の代わりに、精度と再現率と呼ばれる2つの値を使用して、モデルのパフォーマンスをより適切に測定できます。

モデルがラベルを持つと予測するコメントのうち、実際にそのラベルを持つ割合。

実際にラベルが付いているコメントのうち、モデルがラベルを持っていると予測する割合。
25のコメントで1つの Urgent ラベルの同じ例を使用すると、モデルは精度と再現率の値を00に取得します。 これは、このモデルのパフォーマンスがいかに低いかを示しています。
これらのメトリックは、クラスの不均衡と呼ばれる、異なる頻度で発生するラベルでパフォーマンスが向上します。コミュニケーション データのトピックが同じレートで発生することはめったにないため、Communications Mining™ のメトリックでこの割合を考慮することが重要です。
しきい値が変化した場合の一連のモデル予測の適合率、再現率、精度
異なるラベル、異なる目標
特定のしきい値について、適合率と再現率の値を計算できます。ただし、実際には、これら 2 つのメトリックの間にはトレードオフがあります
- 高精度。誤検知がほとんど必要ありません。つまりしきい値が高いため、モデルの信頼度が 1 に近い例のみが「陽性」になります。
- 再現率が高い偽陰性はほとんど必要ありません。つまりしきい値は低いため、モデルの信頼度が 0 に近い例のみが「否定的」になります。
適合率または再現率で適切なスコアを簡単に取得できます (しきい値をそれぞれ 00 または 11 に近づけます)。しきい値の設定はこの 2 つのバランスを表し、最適なトレードオフはラベルの使用目的によって異なります。
コストのバランスをとる
銀行の例では、有用なコンテンツを含む電子メールを自動生成されたものとして扱い、誤ってアーカイブする方が、自動生成された電子メールをメールボックスにいくつか残すよりもはるかに悪いです。 つまり、 Auto Generated ラベルの精度を高くする必要があります (誤検知はほとんどありません)。
一方、このモデルでは緊急のメールを見逃すことはありませんが、緊急でないメールにはこのラベルを付けることができます。 これは、 Urgent ラベルの再現率が高い(偽陰性が少ない)必要があることを意味します。
ラベルの最適なしきい値は、モデルが間違いを犯した場合のコストを最小限に抑えます。
議論のために、銀行が緊急の電子メールを見逃すたびに5ポンド(偽陰性)、誤って自動生成としてマークされた電子メール(誤検知)ごとに10ポンドかかると仮定します。 銀行はまた、従業員に時給20ポンドを支払い、誤った緊急および見逃された自動生成された電子メールを1時間あたり100の割合で削除します。
1 日に 1000 通の電子メールを受信するメールボックスの場合、しきい値を調整して、1 日あたりの予想されるコストを最小限に抑えることができます。
自動生成メールと緊急メールの予想される日次コスト (しきい値が異なる場合)
しきい値なしのスコアリング
適合率と再現率には、各ラベルにしきい値が必要です。これらのしきい値の設定は、特に数百個のラベルがある可能性があるサイズの大きいデータセットでは、時間がかかります。最適なしきい値なしで機能するメトリックの方が便利です。
これを行うために、精度を計算し、しきい値の範囲を呼び出します。 次に、これらの値は精度/再現率曲線としてプロットされ、モデルのパフォーマンスを確認するために使用されます。
この図は、緊急ラベルのメトリックを示しており、このラベルの適合率と再現率の曲線を示しています。また、しきい値 19.6% で適合率 90%、再現率 92% のモデルの図も表示されます。
完璧なモデル
すべてのラベルを正しく予測する架空の「完璧な」モデルを考えてみましょう。 このモデルの精度と再現率が 100% のしきい値があります。
このしきい値を超えると、一部の陽性が誤って陰性として識別されます。 これにより精度は低下しますが、再現率は 100% に保たれます。 同様に、しきい値を下げると、ネガティブが誤ってポジティブとしてタグ付けされます。 これにより、再現率は低下しますが、精度は 100% に保たれます。
このロジックにより、完全モデルの精度/再現率曲線は、角が点(100%,100%)(100%,100%)にあるボックス形状になります。 不完全なモデルは、この完全なモデルの下に曲線を持ちます。
つまり、モデルを改善することは、適合率/再現率曲線下の 面積 を増やすことと同じです。
平均適合率
これにより、最終的なメトリックである平均精度が得られます。
図 1.適合率/再現率曲線の下の領域
この値が 100% に近いほど、モデルが優れています。
ユーザーがしきい値を選択して適合率/再現率のトレードオフを調べることはできますが、平均適合率は Communications Mining でモデルのスコアリングに使用する主要なメトリックです™。これは、特に偽陽性と偽陰性のコストが類似している場合に、平均してうまく機能します。適合率と再現率を使用するため、クラスのアンバランスに対して堅牢ですが、ユーザーは計算するためにしきい値を設定する必要はありません。
この指標は、次の 2 つの方法で [検証] ページで報告します
- 平均適合率。ラベルごとにレポートされる、個々のラベルのパフォーマンスです。
- 平均適合率の平均値各ラベルの平均適合率です。すべてのラベルを平均した値です。これにより、データセット内のすべてのラベルのパフォーマンスが測定されます。
精度と再現率がすべてではありません
UiPath ではメトリックを使用してモデルのパフォーマンスを推定しますが、この推定値の精度は計算に使用するデータと同程度です。トレーニング時のテスト セットとは別のテスト セットでモデルを評価する場合でも、そのテスト セットはユーザーがアノテーションを行った例から抽出されます。そのデータがターゲット タスクを代表していない場合、このメトリックは誤解を招く可能性があります。
銀行の例では、月曜日に送信された緊急メールと金曜日に送信された自動生成されたメールにのみ注釈を付けるとします。 これらの例でトレーニングされたモデルは、メールが送信された日からラベルを完全に予測できます。
モデルの平均精度は、ユーザーが注釈を付けたデータに対して常に機能するパターンを識別するため、高くなります。 ただし、緊急および自動生成された電子メールはいつでも送信できます。 ライブメールでは、パターンは機能せず、モデルのパフォーマンスが低下します。
このため、Communications Mining™ でモデルをスコアリングするときに、適合率、再現率、平均適合率の値だけが返されるわけではありません。代わりに、 モデルの評価を計算します。
モデルの評価では、平均精度だけでなく、さまざまなパフォーマンス要因が考慮されます。 この全体的なビューにより、単一のメトリックを使用することの落とし穴が軽減され、明確なモデルフィードバックが提供されます。 今後の投稿では、モデルの評価についてさらに詳しく説明し、より短い時間でより良いモデルを構築するためにそれらがどのように使用されているかについて説明します。
概要
- 適合率と再現率は、周波数の異なるラベルのパフォーマンスを正確に測定します。
- 平均精度は、しきい値を必要とせずにモデルのパフォーマンスを測定します。
- 単一のメトリックで全体像を把握できるものはありません。 精度と再現率でさえ、トレーニングデータが不十分または不十分に収集されている場合、盲点があります。