- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining
- ライセンス情報
- よくある質問など
バランスを改善する、および「リバランス」を使用する
必要なユーザー権限:「ソースの表示」および「確認とアノテーション」
バランスとは何か、およびバランスが重要な理由
ここでは、以下を含む多くの要因が考慮されます (以下を参照)。
- 確認済みのデータと未確認のデータの類似性 (パーセンテージ スコアで表示)
- ランダム サンプリング (「シャッフル」モード) で確認した確認済みのデータの割合
- 「リバランス」を使用して確認したデータの割合 (詳細は以下を参照)
- 「テキスト検索」を使用して確認したデータの割合
ランダム サンプリングで確認したデータの割合が高く (理想的には 20%+)、検索を使用してアノテーションした確認済みのデータの割合が低いことが重要です。
ただし、バランスの評価は、未確認のデータと確認済みのデータの類似性を測定する類似性スコアの影響を最も大きく受けます。
この類似性スコアの計算には、独自のアノテーションの偏りモデルを用いて、確認済みのデータと未確認のデータを比較し、アノテーションされたデータがデータセット全体を代表していることを確認します。データが代表的ではなく、偏った方法でアノテーションされている場合、モデルのパフォーマンス指標は誤解を招くものになり、信頼できない可能性があります。
このプラットフォームでのアノテーションの偏りは通常、ラベルの割り当てに使用したトレーニング モードのバランスがとれていなかった結果であり、特に「テキスト検索」を使用しすぎて「シャッフル」モードを十分に使用してない場合にあてはまります。ただし、「シャッフル」モードの使用割合が高い場合にも発生する可能性があります。「ラベルを教える」などのモードで特定のラベルをトレーニングすると、当然、確認済みのデータにわずかなアンバランスが生じる可能性があります。このプラットフォームでは、このような状況が発生した場合に特定し、迅速かつ効果的に対処できます。
「リバランス」とは何か、および「リバランス」の使用方法
「リバランス」は、モデルのラベル付け方法の潜在的なアンバランス、すなわちアノテーションの偏りを減らすのに役立つトレーニング モードです。ラベル付けの偏りとは、確認済みのデータがデータセット全体を可能な限り代表していないことを意味します。
「リバランス」トレーニング モードは、確認済みのセット内の代表制の低いメッセージを示します。
このモードで提示されたメッセージにアノテーションすると (他のトレーニング モードの場合と同様の方法)、トレーニング データのアンバランスに対処し、モデルのバランス スコアを改善できます。
重要なヒント: リバランスは一般的に、少しずつ頻繁に使用した場合に最も効果があります。このモードで少数のメッセージ (10 から 20 個) をアノテーションし、モデルを再トレーニングする時間を設けてから更新し、さらに多くの例をアノテーションすると、リバランスがモデルのバランス スコアに与える影響を最も効果的に最大化できます。
類似性スコアが高いにもかかわらずバランスの評価が低い場合、「シャッフル」モードで十分な数のトレーニング データをアノテーションしていないことが原因である可能性があります。この場合、ランダムに選択されたメッセージをアノテーションすることが、優先度の高い推奨されるアクションとして提案されます。このモードでトレーニングすることにより、プラットフォームは、データセットが偏った方法でアノテーションされていないこと、およびトレーニング データが代表性の高いサンプルであることについて追加の確信を持つことができます。
「リバランス」の推奨使用量
「リバランス」を継続的に繰り返し使用してモデルの類似性スコアを向上させる必要があります。その結果、「バランス」の評価が向上します。
[検証] で評価が「良好」になった後、類似性スコアをどこまで高めてから「リバランス」でのトレーニングを中止するかは、ユーザーの判断に任されています。
この評価をできる限り最適化することを目標にすることはできますが、トレーニングを継続していくと必ず、効果が徐々に薄れていきます。一般的には、評価が「良好」になったら、良好なモデルとして許容できるパフォーマンス レベルであると見なすことをお勧めします。