- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining
- ライセンス情報
- よくある質問など
- アクセスとユーザー管理に関するよくある質問
- データのアップロードと管理に関するよくある質問
- モデル トレーニングに関するよくある質問
- 分析に関するよくある質問
- 自動化に関するよくある質問
- アクティビティ
Communications Mining ガイド
モデル トレーニングに関するよくある質問
- 一般的なモデルのトレーニング
- ラベルのトレーニング
モデルをトレーニングする目的は、データセット全体を可能な限り代表する一連のトレーニング データを作成し、各メッセージに関連するラベルと一般フィールドをプラットフォームが確信を持って正確に予測できるようにすることです。データセット内のラベルと一般フィールドは、本質的にユース ケースの全体的な目的に関連させて、多大なビジネス価値が得られるものにする必要があります。
データがプラットフォームにアップロードされるとすぐに、教師なし学習と呼ばれるプロセスが開始され、メッセージは意味的に類似する意図を持つクラスターにグループ化されます。データセットのサイズによっては、このプロセスに最大で数時間かかる場合があります。完了するとクラスターが表示されます。
モデルをトレーニングできるようにするには、最小限の量の既存の履歴データが必要です。これをトレーニング データとして使用し、分析や自動化に関連する各概念を確実に予測するために必要な情報をプラットフォームに提供します。
どのユース ケースでも、データの季節性や不規則性 (例: 月末処理や繁忙期) を適切にキャプチャするために、最低 12 か月分の履歴データを推奨します。
いいえ、変更を加えた後にモデルを保存する必要はありません。データでプラットフォームをトレーニングする (メッセージにアノテーションを行う) たびに、データセットに対して新しいモデル バージョンが作成されます。古いモデル バージョンのパフォーマンス統計情報は、[検証] で確認できます。
プラットフォームの [検証] ページを確認してください。このページでは、さまざまなパフォーマンス指標がレポートされ、モデルの包括的な健全性の評価を確認できます。このページはトレーニング イベント後に毎回更新されます。このページを使用して、モデルにさらにトレーニング例が必要な領域やラベルの修正が必要な領域を特定し、一貫性を確保することができます。
モデルのパフォーマンスと改善方法の詳しい説明については、検証に関するページをご覧ください。
クラスターは、タクソノミーをすばやく構築するのに役立ちますが、ユーザーがほとんどの時間を費やすのは、[発見] ではなく [探索] でのトレーニングです。
クラスターを使用したアノテーションに時間をかけすぎると、モデルが過学習し、予測の際にそのクラスターにのみ適合するメッセージを検索してしまうリスクがあります。各ラベルに対して多様な例が多数あるほど、モデルは、異なる表現の同じ意図や概念を効率的に見つけることができます。これが、一度に 30 個のクラスターしか表示されない主な理由の 1 つです。
ただし、十分なトレーニングが完了したか、大量のデータがプラットフォームに追加された場合は (こちらを参照)、[発見] で再トレーニングが行われます。再トレーニング時には、これまでの既存のトレーニングが考慮され、現在のタクソノミーで十分に網羅されていない新しいクラスターの提示が試行されます。
[発見] について詳しくは、こちらをご覧ください。
合計 30 個のクラスターがあり、それぞれに 12 件のメッセージが含まれています。このプラットフォームでは、ページに表示されるメッセージの数をページあたり 6 から 12 件ずつ段階的にフィルター処理できます。部分的にしかメッセージのアノテーションを行わないリスクを減らすために、一度に 6 件にアノテーションを行うことをお勧めします。
適合率と再現率は、マシン ラーニング モデルのパフォーマンスの測定に使用されるメトリックです。それぞれの詳細については、使用ガイドの検証の使用に関するセクションをご覧ください。
以前のモデルの検証の概要にアクセスするには、[検証] ページの左上隅にある [モデル バージョン] にホバーします。これは、モデルのトレーニング中に進行状況を追跡および比較するのに役立ちます。
モデルをピン留めされた以前のバージョンにロールバックする必要がある場合について詳しくは、こちらをご覧ください。
はい、簡単に変更できます。各ラベルの設定に移動して、いつでも名前を変更できます。方法については、こちらをご覧ください。
アノテーションを行ったメッセージの数など、データセットに関する情報はデータセットの設定ページに表示されます。アクセス方法については、こちらをご覧ください。
[検証] ページでラベルのパフォーマンスが低いことが分かった場合は、さまざまな方法でパフォーマンスを改善できます。詳しくは、こちらをご覧ください。
各ラベル/一般フィールドの横にある小さな赤いダイヤルは、プラットフォームがラベル/一般フィールドのパフォーマンスを正確に推定するためにさらに例が必要かどうかを示します。トレーニング例をさらに提供するとダイヤルが消え始め、例の数が 25 個になると完全に消えます。
この後、プラットフォームは特定のラベル/一般フィールドのパフォーマンスを有効に評価できるようになり、ラベル/一般フィールドが健全でない場合はパフォーマンス警告を返すことができます。
- 一般的なモデルのトレーニング
- モデルをトレーニングする目的は何ですか?
- プラットフォームにデータをアップロードしたばかりのときに [発見] に何も表示されないのはなぜですか?
- モデルのトレーニングにはどのくらいの履歴データが必要ですか?
- 変更を加えるたびにモデルを保存する必要がありますか?
- モデルのパフォーマンスを確認するにはどうすればよいですか?
- 利用可能なクラスターはなぜ 30 個だけなのですか? また、なぜクラスターを個別に設定できるのですか?
- 各クラスターにはメッセージがいくつありますか?
- 適合率および再現率とはどういう意味ですか?
- 以前のバージョンのモデルに戻すことはできますか?
- ラベルのトレーニング
- ラベルの名前を後から変更できますか?
- アノテーションを行うメッセージの数を確認するにはどうすればよいですか?
- ラベルの 1 つのパフォーマンスが低いのですが、どうすれば改善できますか?
- ラベルや一般フィールドの横にある赤いダイヤルは何を示していますか? どうすれば取り除けますか?
- 空のメッセージや有益ではないメッセージにアノテーションを行うのは避けるべきですか?