- はじめに
- アクセス制御と管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining™
- 開発者
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining™ でアノテーションの偏りを修正する
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する
- ライセンス
- よくある質問など

Communications Mining ガイド
[検証] ページには抽出のパフォーマンスの概要が表示され、各抽出の個々のパフォーマンスにドリルダウンできます。
検証の詳細には 、[検証] の [ 抽出] タブでアクセスできます。[抽出] タブは、データセットに抽出フィールドが定義されている場合にのみ使用できます。
[検証] の [ 抽出データ] タブの既定のページには、[ すべて] フィルターを使用した概要が表示されます。このページには、データセット内の抽出データの全体的なパフォーマンスに関する次の要約統計量が表示されます。
- 抽出データの平均 F1 スコア
- 抽出データの平均適合率
- 抽出データの平均再現率
信頼度レベルの仕組みは、使用する基になる LLM モデルによって異なります。
CommPath LLM を使用する場合
CommPath LLM を使用する場合、各予測に一連の信頼度スコア (%) が割り当てられます。
CommPath は以下を計算して返します。
-
発生の信頼度: 検出された発生が、割り当てられたラベルに対応する可能性です。
-
抽出結果の信頼度: 抽出された内容の正確性の信頼度です。
これらの信頼度の値により、信頼度レベルが設定したラベルのしきい値を満たさない抽出結果を下流のオートメーションでフィルター処理して除外できます。適切なしきい値を設定すると、目的の信頼度レベルを満たす予測のみがワークフローで使用されるようにすることができます。
Preview LLM を使用する場合
生成 AI による抽出の Preview LLM では、ラベルの発生に関する信頼度の値が抽出結果ごとに 1 つ提供され、発生の信頼度と抽出結果の信頼度の両方を置き換えます。このアプローチは CommPath とは異なります。CommPath では、抽出結果ごとに個別の信頼度の値が返されます。
ラベルの信頼度が返されることで、必要に応じて下流で抽出結果をフィルター処理して除外し、一部の結果の精度を向上させることができます。
このセクションでは、[ストリームの結果を取得] アクティビティの出力について説明します。Communications Mining™ Dispatcher Framework について詳しくは、こちらをご覧ください。
生成 AI による抽出でのオートメーションには、まず抽出の出力内容を理解する必要があります。
発生の信頼度とは、メッセージに対する要求が発生する可能性のあるインスタンスの数 (つまり、抽出の発生回数) に関するモデルの信頼度を示します。
たとえば、請求書を下流のシステムで処理するには、常に請求書 ID、請求書番号、支払金額、および期限日が必要です。
次の画像で発生の信頼度の例を確認してください。この下流工程が必要になる潜在的な発生が 2 つ存在することを、モデルがどのようにして確実に特定するかを示しています。
抽出結果の信頼度
抽出結果の信頼度は、モデルの予測に関する信頼度です。これには、ラベルのインスタンスとその関連フィールドの予測に関する正確さも含まれます。また、フィールドの欠落の正確な予測に関するモデルの信頼度も含まれます。
前と同じ例を考えてみましょう。請求書を下流のシステムで処理するには、常に請求書 ID、請求書番号、支払金額、および期限日が必要です。
ただし、今回は、メッセージに請求書番号も期限日もなく、開始日しかありません。
この例の抽出結果の信頼度とは、ラベルに関連付けられた各フィールドに値が存在するかどうかの識別に関するモデルの信頼度です。また、フィールドの欠落の正確な予測に関するモデルの信頼度も含まれます。
この場合、必要とされるすべてのフィールドを完全に抽出するために必要なフィールドがすべて揃っているわけではありません。
ペイロードの例
ストリームとは、Communications Mining で設定したしきい値と、メッセージがそのしきい値を満たしているかどうかのことです。
このルートでは、しきい値に基づいて予測をフィルター処理するのではなく、しきい値を満たした予測の信頼度が返されます。
つまり、しきい値が満たされている場合は、ストリームが返されます。そうでない場合、この値は空です。
- 前の画像に含まれているのは、さまざまなコンポーネントについて説明するためのサンプル スニペットであり、生成 AI による抽出の応答の完全な出力ではありません。また、複数の抽出データがある場合は、それ以前の抽出データで条件付けされています。抽出フィールドのないラベルの場合、発生の信頼度はユーザー インターフェイスで確認できるラベルの信頼度と同じです。
- フィールドが多すぎるためにモデルがメッセージ内のすべてのフィールドを正常に抽出できなかった場合は、発生の信頼度と抽出結果の信頼度の値が 0 のストリームの応答で抽出が返されます。