- はじめに
- アクセス制御と管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining™
- 開発者
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining™ でアノテーションの偏りを修正する
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する
- ライセンス
- よくある質問など

Communications Mining ガイド
バランス:導入と重要性
ここでは、以下を含む多くの要因が考慮されます。
- 確認済みのデータと未確認のデータの類似性 (パーセンテージ スコアで表示)
- ランダム サンプリング (シャッフルモード) で確認した確認済みのデータの割合
- 「リバランス」を使用して確認したデータの割合
- 「テキスト検索」を使用して確認したデータの割合
ランダム サンプリングで確認したデータの割合が高く (理想的には 20%+)、検索を使用してアノテーションを行った確認済みのデータの割合が低いことが重要です。
ただし、バランスの評価は、未確認のデータと確認済みのデータの類似性を測定する類似性スコアの影響を最も大きく受けます。
この類似性スコアの計算には、独自のアノテーションの偏りモデルを用いて、確認済みのデータと未確認のデータを比較し、アノテーションが行われたデータがデータセット全体を代表していることを確認します。データが代表的ではなく、偏った方法でアノテーションが行われている場合、モデルのパフォーマンス指標は誤解を招くものになり、信頼できない可能性があります。
このプラットフォームでのアノテーションの偏りは通常、ラベルの割り当てに使用したトレーニング モードのバランスがとれていなかった結果であり、特に「テキスト検索」を使用しすぎて「シャッフル」モードを十分に使用していない場合にあてはまります。ただし、「シャッフル」モードの使用割合が高い場合にも発生する可能性があります。「ラベルを教える」などのモードで特定のラベルをトレーニングすると、当然、確認済みのデータにわずかなアンバランスが生じる可能性があります。このプラットフォームでは、このような状況が発生した場合に特定し、迅速かつ効果的に対処できます。
リバランス: はじめにと使用方法
リバランスは、モデルのアノテーションの実施方法の潜在的なアンバランス、すなわちアノテーションの偏りを減らすのに役立つトレーニング モードです。アノテーションの偏りとは、確認済みのデータがデータセット全体を可能な限り代表していないことを意味します。
リバランス トレーニング モードは、確認済みのセット内の代表性の低いメッセージを示します。
このモードで提示されたメッセージにアノテーションを行うと (他のトレーニング モードの場合と同様の方法)、トレーニング データのアンバランスに対処し、モデルのバランス スコアを改善できます。
類似性スコアが高いにもかかわらずバランスの評価が低い場合、シャッフル モードで十分な数のトレーニング データにアノテーションを行っていないことが原因である可能性があります。この場合、ランダムに選択されたメッセージにアノテーションを行うことが、優先度の高い推奨されるアクションとして提案されます。このモードでトレーニングすることにより、プラットフォームは、データセットに偏った方法でアノテーションが行われていないこと、およびトレーニング データが代表性の高いサンプルであることについて追加の確信を持つことができます。
使用するリバランスの量
リバランスを継続的に繰り返し使用してモデルの類似性スコアを向上させる必要があります。その結果、[バランス] の評価が向上します。
[検証] で評価が「良好」になった後、類似性スコアをどこまで高めてから「リバランス」でのトレーニングを中止するかは、ユーザーの判断に任されています。
この評価をできる限り最適化することを目標にすることはできますが、トレーニングを継続していくと必ず、効果が徐々に薄れていきます。一般的には、評価が「良好」になったら、良好なモデルとして許容できるパフォーマンス レベルであると見なすことをお勧めします。