- はじめに
- アクセス制御と管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining™
- 開発者
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining™ でアノテーションの偏りを修正する
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する
- ライセンス
- よくある質問など

Communications Mining ガイド
- 一般的なモデルのトレーニング
- ラベルのトレーニング
モデルをトレーニングする目的は何ですか?
モデルをトレーニングする目的は、データセット全体を可能な限り代表する一連のトレーニング データを作成し、各メッセージに関連するラベルと一般フィールドをプラットフォームが確信を持って正確に予測できるようにすることです。データセット内のラベルと一般フィールドは、本質的にユース ケースの全体的な目的に関連させて、多大なビジネス価値が得られるものにする必要があります。
プラットフォームにデータをアップロードしたばかりのときに [発見] に何も表示されないのはなぜですか?
データがプラットフォームにアップロードされるとすぐに、教師なし学習と呼ばれるプロセスが開始され、メッセージは意味的に類似する意図を持つクラスターにグループ化されます。データセットのサイズによっては、このプロセスに最大で数時間かかる場合があります。完了するとクラスターが表示されます。
モデルのトレーニングにはどのくらいの履歴データが必要ですか?
モデルをトレーニングできるようにするには、最小限の量の既存の履歴データが必要です。これをトレーニング データとして使用し、分析や自動化に関連する各概念を確実に予測するために必要な情報をプラットフォームに提供します。
どのユース ケースでも、データの季節性や不規則性 (例: 月末処理や繁忙期) を適切にキャプチャするために、最低 12 か月分の履歴データを推奨します。
変更を加えるたびにモデルを保存する必要がありますか?
いいえ、変更を加えた後にモデルを保存する必要はありません。データでプラットフォームをトレーニングするたびに、つまりメッセージにアノテーションを行うたびに、データセットに対して新しいモデル バージョンが作成されます。古いモデル バージョンのパフォーマンス統計情報は、[検証] ページで確認できます。
モデルのパフォーマンスを確認するにはどうすればよいですか?
プラットフォームの [検証] ページを確認します。このページでは、さまざまなパフォーマンス指標がレポートされ、モデルの包括的な健全性の評価を確認できます。このページはトレーニング イベント後に毎回更新されます。このページを使用して、モデルにさらにトレーニング例が必要な領域やラベルの修正が必要な領域を特定し、一貫性を確保することができます。
モデルのパフォーマンスとその改善方法の詳しい説明については、「 検証」 をご覧ください。
利用可能なクラスターはなぜ 30 個だけなのですか? また、なぜクラスターを個別に設定できるのですか?
クラスターは、タクソノミーを素早く構築するのに役立ちますが、ユーザーがほとんどの時間を費やすのは、[発見] ではなく [探索] ページでのトレーニングです。
クラスターを使用したアノテーションに時間をかけすぎると、モデルが過学習し、予測の際にそのクラスターにのみ適合するメッセージを検索してしまうリスクがあります。各ラベルに対して多様な例が多数あるほど、モデルは、異なる表現の同じ意図や概念を効率的に見つけることができます。これが、一度に 30 個のクラスターしか表示されない主な理由の 1 つです。
ただし、十分なトレーニングが完了したか、大量のデータがプラットフォームに追加された場合は、[発見] で再トレーニングが行われます。再トレーニング時には、これまでの既存のトレーニングが考慮され、現在のタクソノミーで十分に網羅されていない新しいクラスターの提示が試行されます。
詳しくは、「発見」をご覧ください。
各クラスターにはメッセージがいくつありますか?
合計 30 個のクラスターがあり、それぞれに 12 件のメッセージが含まれています。このプラットフォームでは、ページに表示されるメッセージの数をページあたり 6 から 12 件ずつ段階的にフィルター処理できます。部分的にしかメッセージのアノテーションを行わないリスクを減らすために、一度に 6 件にアノテーションを行うことをお勧めします。
適合率および再現率とはどういう意味ですか?
適合率と再現率は、マシン ラーニング モデルのパフォーマンスの測定に使用されるメトリックです。それぞれの詳細については、使用ガイドの検証の使用に関するセクションをご覧ください。
以前のバージョンのモデルに戻すことはできますか?
以前のモデルの検証の概要にアクセスするには、[検証] ページの [モデル バージョン] にホバーします。これは、モデルのトレーニング中に進行状況を追跡および比較するのに役立ちます。
モデルをピン留めされた以前のバージョンにロールバックする必要がある場合について詳しくは、「モデルのロールバック」をご覧ください。
アノテーションを行うメッセージの数を確認するにはどうすればよいですか?
アノテーションを行ったメッセージの数など、データセットに関する情報はデータセットの設定ページに表示されます。アクセス方法について詳しくは、「 データセットの設定を修正する」をご覧ください。
ラベルの 1 つのパフォーマンスが低いのですが、どうすれば改善できますか?
[検証] ページでラベルのパフォーマンスが低いことが分かった場合は、さまざまな方法でパフォーマンスを改善できます。詳しくは、「モデルのパフォーマンスを理解および改善する」をご覧ください。
ラベルや一般フィールドの横にある赤いダイヤルは何を示していますか? どうすれば取り除けますか?
各ラベル/一般フィールドの横にある小さな赤いダイヤルは、プラットフォームがラベル/一般フィールドのパフォーマンスを正確に推定するためにさらに例が必要かどうかを示します。トレーニング例をさらに提供するとダイヤルが消え始め、例の数が 25 個になると完全に消えます。
この後、プラットフォームは特定のラベルや一般フィールドのパフォーマンスを有効に評価できるようになり、ラベルや一般フィールドが健全でない場合はパフォーマンス警告を返すことができます。
空のメッセージや有益ではないメッセージにアノテーションを行うのは避けるべきですか?
このプラットフォームは、正しくアノテーションを行う限り、空のメッセージや有益ではないメッセージから学習できます。ただし、最適なパフォーマンスを確保するために、有益ではないラベルではかなりの数のトレーニング例が必要になるほか、概念ごとに大まかにグループ化しなければならない可能性があることに注意してください。
- 一般的なモデルのトレーニング
- モデルをトレーニングする目的は何ですか?
- プラットフォームにデータをアップロードしたばかりのときに [発見] に何も表示されないのはなぜですか?
- モデルのトレーニングにはどのくらいの履歴データが必要ですか?
- 変更を加えるたびにモデルを保存する必要がありますか?
- モデルのパフォーマンスを確認するにはどうすればよいですか?
- 利用可能なクラスターはなぜ 30 個だけなのですか? また、なぜクラスターを個別に設定できるのですか?
- 各クラスターにはメッセージがいくつありますか?
- 適合率および再現率とはどういう意味ですか?
- 以前のバージョンのモデルに戻すことはできますか?
- ラベルのトレーニング
- ラベルの名前を後から変更できますか?
- アノテーションを行うメッセージの数を確認するにはどうすればよいですか?
- ラベルの 1 つのパフォーマンスが低いのですが、どうすれば改善できますか?
- ラベルや一般フィールドの横にある赤いダイヤルは何を示していますか? どうすれば取り除けますか?
- 空のメッセージや有益ではないメッセージにアノテーションを行うのは避けるべきですか?