- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining
- ライセンス情報
- よくある質問など
適合率と再現率
概要
データにアノテーションを行いタクソノミーを構築すると、モデルが作成されます。このモデルは、一連のデータに適用したラベルを使用して、他のメッセージ内の類似する概念と意図を識別し、それらに適用されるラベルを予測します。
その際に、ラベルごとに専用の適合率スコアと再現率スコアが設定されます。
タクソノミーの一部として、プラットフォーム内に「情報のリクエスト」というラベルがあるとします。適合率と再現率はこれにどう関係するのでしょうか。
- 適合率: 「情報のリクエスト」ラベルを持つと予測されているメッセージが全部で 100 個ある場合、適合率とは、「情報のリクエスト」が予測された合計回数のうち、そのラベルが正しく予測された回数の割合です。95% の適合率とは、100 個のメッセージすべてについて、95 個に正しく「情報のリクエスト」としてアノテーションを行い、5 個に間違ってアノテーションを行っている (つまり、そのラベルにアノテーションが行われるべきではない) ことを意味します。
- 再現率: 「情報のリクエスト」としてアノテーションが行われるべきであったメッセージが全部で 100 個ある場合、再現率とは、実際にプラットフォームによって識別された数です。77% の再現率とは、「情報のリクエスト」ラベルが適用されると予測するべきであったのに見逃されたメッセージが 23 個あったことを意味します。
ラベル全体の「再現率」は、モデルのカバレッジに直接関係します。
タクソノミーがデータセット内の関連する概念をすべて網羅していると確信を持って判断することができ、ラベルの適合率が十分である場合は、データセットがラベルの予測によってどの程度十分に網羅されているかは、そのラベルの再現率によって決まります。すべてのラベルの再現率が高い場合、モデルのカバレッジは高くなります。
適合率 vs 再現率
特定のモデル バージョン内の適合率と再現率のトレードオフを理解する必要もあります。
特定のモデル バージョンの各ラベルの適合率と再現率の統計情報は、信頼度のしきい値 (このラベルが適用されたことをモデルがどの程度確信を持って判断しているか) によって決まります。
適合率と再現率の統計情報は [検証] ページでライブで公開されます。ユーザーは、調整可能なスライダーを使用して、さまざまな信頼度のしきい値が適合率と再現率のスコアにどう影響するかを理解できます。
信頼度のしきい値を上げると、モデルはラベルが適用されることをさらに確信を持って判断するため、通常は適合率が向上します。同時に、モデルはさらに確信を持って予測を適用する必要があるため、実行する予測が減り、通常は再現率が下がります。信頼度のしきい値を下げた場合、通常はこの逆もあてはまります。
したがって、経験則として、信頼度のしきい値を調整して適合率が改善すると、通常は再現率が下がります。その逆も同様です。
このプラットフォームを使用してオートメーションを設定する際は、このトレードオフと、その意味を理解することが重要です。ユーザーは、オートメーションの一部を形成するラベルに信頼度のしきい値を設定する必要があります。また、このしきい値を調整して、プロセスで許容できる適合率と再現率の統計情報を提供する必要があります。
高い再現率 (イベントのインスタンスをできるだけ多く捉える) を重視するプロセスもあれば、高い適合率 (イベントのインスタンスを正しく識別する) を重視するプロセスもあります。