- はじめに
- アクセス制御と管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining™
- 開発者
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining™ でアノテーションの偏りを修正する
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する
- ライセンス
- よくある質問など

Communications Mining ガイド
[探索] ページにはさまざまなトレーニング モードがあり、このフェーズでは主にそのうちの 3 つに焦点を当てます。
- シャッフル - ランダムに選択されたメッセージを表示し、ユーザーがアノテーションを行います。より広範なデータセットを代表する例のトレーニング セットを作成するために、「 シャッフル」で大量のトレーニングを完了するようにしてください。
- 教える - 未確認のメッセージに使用します。ラベルに対して妥当な予測が行われるようになったらすぐに、既定の 「教え る」モード (未確認のメッセージが対象) でメッセージを確認することで、より多様な例に対してラベルを予測する能力を向上させることができます。これにより、選択したラベルが適用されるかどうかをプラットフォームが判断できないメッセージが表示されます。
- 信頼度が低い - 有益なラベル予測で十分に網羅されていないメッセージを表示します。このようなメッセージは、プラットフォームによって有益であると認識されたラベルの予測がまったくないか、信頼度が非常に低い予測しかありません。
このセクションでは、[ 発見] で検索を使用した トレーニングと同様に、[ 探索] で検索を使用したトレーニングについても説明します 。
確認済みのメッセージを対象とした「教える」は、探索のもう 1 つのトレーニング モードです。詳しくは、「 モデルを改良する」および「検証を使用する」をご覧ください。
前の画像のレイアウトを次の表に示します。
| 1 | 表示されるメッセージの日付範囲または期間を調整します。 |
| 2 | メッセージのメタデータに基づいて、他のさまざまなフィルターを追加します。たとえば、スコアまたは送信者。 |
| 3 | 一般フィールド フィルターを追加します。 |
| 4 | すべてのメッセージから、確認済みのメッセージまたは未確認のメッセージに切り替えます。また、ピン留めされているラベル数と予測されているラベル数を調整します。 |
| 5 | ラベル フィルターを追加します。 |
| 6 | タクソノミー内の特定のラベルを検索します。 |
| 7 | ラベルを追加します。 |
| 8 | メッセージのメタデータを展開します。 |
| 9 | 現在のクエリを更新します。 |
| 10 | 「最近」「シャッフル」「教える」「信頼度が低い」などの異なるトレーニング モードを切り替え、並べ替えの基準にするラベルを選択します。 |
| 11 | 特定の単語や語句を含むメッセージをデータセットで検索します。 |
| 12 | このページのすべてのメッセージをダウンロードするか、データセットを、適用されているフィルターとともに CSV ファイルとしてエクスポートします。 |
各ラベルを正確に予測するために必要な例の数は、ラベルの概念の幅や特異性によって大きく異なります。
ラベルが一般的に、非常に具体的で簡単に識別できる単語、語句、意図に関連付けられている場合があります。この場合、プラットフォームは比較的少数のトレーニング例で一貫性を持ってそのラベルを予測できます。また、ラベルが幅広いトピックをキャプチャし、そのトピックに関連する言語のさまざまなバリエーションがある場合もあります。この場合、ラベルを適用すべきインスタンスを一貫性を持って識別できるようにするには、はるかに多くのトレーニング例が必要になる可能性があります。
多くの場合は、例が 5 つほどあればラベルの予測を開始できますが、ラベルのパフォーマンス、つまりプラットフォームがどれだけ適切に予測できるかを正確に推定するには、各ラベルに少なくとも 25 個の例が必要です。
[探索] でアノテーションを行う場合、各ラベルの横にある小さな赤いダイヤルは、ラベルのパフォーマンスを正確に推定するためにさらに例が必要かどうかを示します。トレーニング例をさらに提供するとダイヤルが消え始め、例が 25 個になると完全に消えます。
これは、例が 25 個あればすべてのラベルを正確に予測できるという意味ではありませんが、少なくとも各ラベルをどの程度適切に予測できるかを検証し、追加のトレーニングが必要な場合は警告することができます。
探索フェーズでは、前述の手順 (主に 「シャッフル」および 「教える 」および 「未確認」) を組み合わせて、注目すべきすべてのラベルに対して少なくとも 25 個の例を提供していることを確認してください。
改良フェーズにおいて、特定のラベルのパフォーマンスを改善するためにさらにトレーニングが必要であることが明らかになる場合があります。詳しくは、「 モデルを改良する」および「検証を使用する」をご覧ください。
[探索] で、1 つのラベルに対してピン留めされた例が 25 個に達すると、トレーニング ダイヤルの代わりに、次のいずれかのラベルのパフォーマンス インジケーターが表示される場合があります。
- 灰色 は、プラットフォームがそのラベルのパフォーマンスの計算中であることを示します。つまり、計算が終わると、消えるか、琥珀色または赤色の円に更新されます。
- 琥珀色 は、ラベルのパフォーマンスが十分なレベルをわずかに下回っており、改善が可能であることを示します。
- 赤 は、ラベルのパフォーマンスが良くなく、追加のトレーニングまたは是正措置によって改善する必要があることを示します。
- 円がない場合、ラベルのパフォーマンスは十分なレベルですが、ユース ケースと必要な精度のレベルによってはまだ改善が必要な場合があります。
- ラベルのパフォーマンスとその改善方法について詳しくは、「 モデルのパフォーマンスを理解および改善する」をご覧ください。
次の図に示すように、ラベル フィルター バーの上部にあるチェックマーク アイコンを選択してフィルターを適用し、確認済みのメッセージに絞り込むと、そのラベルが適用されている確認済みのメッセージの数が表示されます。
コンピューターのアイコンを選択してフィルターを適用し、未確認のメッセージに絞り込むと、そのラベルの予測の合計数が表示されます。これには確認済みの例の数も含まれます。
[探索] では、確認済みまたは未確認のメッセージのどちらも選択していない場合は、既定で、ラベルにピン留めされたメッセージの合計数が表示されます。[レポート] では、既定で、予測された合計数が表示されます。
- このモデルは、アノテーションが行われたメッセージが数個あれば予測できますが、信頼できる予測を行うには、ラベルあたり少なくとも 25 個のメッセージをラベル付けする必要があります。場合によっては、これ以上のラベル付けが必要なこともあります。これは、データの複雑さ、ラベル、およびラベルの適用時の一貫性によって異なります。
- [探索] では、モデルがラベルを誤って予測したメッセージも探してみる必要があります。間違ったラベルを削除し、正しいラベルを適用する必要があります。このプロセスは、モデルが今後同様の誤った予測を行うのを防ぐのに役立ちます。