- はじめに
- アクセス制御と管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining™
- 開発者
- データをアップロードする
- データのダウンロード
- Exchange と Azure サービス ユーザーとの連携
- Exchange と Azure アプリケーション認証の統合
- Exchange と Azure Application Authentication and Graph の統合
- Migration Guide: Exchange Web Services (EWS) to Microsoft Graph API
- Python を使用した Tableau のデータのフェッチ
- Elasticsearch との連携
- 一般的なフィールド抽出
- セルフホストの Exchange 統合
- UiPath® Automation Framework
- UiPath® 公式アクティビティ
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining™ でアノテーションの偏りを修正する
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する
- ライセンス
- よくある質問など

Communications Mining ガイド
バランスを改善する、および「リバランス」を使用する
Automation Cloud ユーザーとして [ソース] - [読み取り ] 権限と [データセット - 確認 ] 権限、またはレガシ ユーザーとして [ ソースの表示 ] 権限と [ 確認とアノテーション] 権限を割り当てている必要があります。
バランス:導入と重要性
ここでは、以下を含む多くの要因が考慮されます。
- 確認済みのデータと未確認のデータの類似性 (パーセンテージ スコアで表示)
- ランダム サンプリング (シャッフルモード) で確認した確認済みのデータの割合
- 「リバランス」を使用して確認したデータの割合
- 「テキスト検索」を使用して確認したデータの割合
モデルの評価の [バランス] コンポーネントの例

ランダム サンプリングで確認したデータの割合が高く (理想的には 20%+)、検索を使用してアノテーションを行った確認済みのデータの割合が低いことが重要です。
ただし、バランスの評価は、未確認のデータと確認済みのデータの類似性を測定する類似性スコアの影響を最も大きく受けます。
この類似性スコアの計算には、独自のアノテーションの偏りモデルを用いて、確認済みのデータと未確認のデータを比較し、アノテーションが行われたデータがデータセット全体を代表していることを確認します。データが代表的ではなく、偏った方法でアノテーションが行われている場合、モデルのパフォーマンス指標は誤解を招くものになり、信頼できない可能性があります。
このプラットフォームでのアノテーションの偏りは通常、ラベルの割り当てに使用したトレーニング モードのバランスがとれていなかった結果であり、特に「テキスト検索」を使用しすぎて「シャッフル」モードを十分に使用していない場合にあてはまります。ただし、「シャッフル」モードの使用割合が高い場合にも発生する可能性があります。「ラベルを教える」などのモードで特定のラベルをトレーニングすると、当然、確認済みのデータにわずかなアンバランスが生じる可能性があります。このプラットフォームでは、このような状況が発生した場合に特定し、迅速かつ効果的に対処できます。
リバランス: はじめにと使用方法
Rebalance is a training mode that helps to reduce the potential imbalances in how a model has been annotated, i.e. annotating bias, which mean that the reviewed data is not as representative of the whole dataset as it could be.
リバランス トレーニング モードは、確認済みのセット内の代表性の低いメッセージを示します。
このモードで提示されたメッセージにアノテーションを行うと (他のトレーニング モードの場合と同様の方法)、トレーニング データのアンバランスに対処し、モデルのバランス スコアを改善できます。
リバランスは一般的に、少しずつ頻繁に使用した場合に最も効果があります。このモードで少数のメッセージ (10 から 20 個) をアノテーションし、モデルを再トレーニングする時間を設けてから更新し、さらに多くの例をアノテーションすると、リバランスがモデルのバランス スコアに与える影響を最も効果的に最大化できます。
デモ データセットの「リバランス」トレーニング モード

類似性スコアが高いにもかかわらずバランスの評価が低い場合、シャッフル モードで十分な数のトレーニング データにアノテーションを行っていないことが原因である可能性があります。この場合、ランダムに選択されたメッセージにアノテーションを行うことが、優先度の高い推奨されるアクションとして提案されます。このモードでトレーニングすることにより、プラットフォームは、データセットに偏った方法でアノテーションが行われていないこと、およびトレーニング データが代表性の高いサンプルであることについて追加の確信を持つことができます。
使用するリバランスの量
リバランスを継続的に繰り返し使用してモデルの類似性スコアを向上させる必要があります。その結果、[バランス] の評価が向上します。
[検証] で評価が「良好」になった後、類似性スコアをどこまで高めてから「リバランス」でのトレーニングを中止するかは、ユーザーの判断に任されています。
この評価をできる限り最適化することを目標にすることはできますが、トレーニングを継続していくと必ず、効果が徐々に薄れていきます。一般的には、評価が「良好」になったら、良好なモデルとして許容できるパフォーマンス レベルであると見なすことをお勧めします。