- はじめに
- アクセス制御と管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining™
- 開発者
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining™ でアノテーションの偏りを修正する
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する
- ライセンス
- よくある質問など

Communications Mining ガイド
検証では、データセットに関連付けられているラベル モデルと一般フィールド モデルの両方のパフォーマンスが評価されます。
特にラベル モデルについては、次のようなさまざまなパフォーマンス要因をテストして、全体的なモデルの評価が計算されます。
- モデルが、データセット内のトレーニング データのサブセットを使用して、タクソノミー内の各ラベルをどの程度適切に予測できるか
- データセット全体が有益なラベル予測によってどの程度網羅されているか
- トレーニング データがどのように割り当てられているか、およびデータセット全体をどの程度適切に代表しているかという観点から、トレーニング データのバランスがどの程度取れているか
- トレーニング データの多数派のセットです。
- テスト データの少数派のセット。
次の図では、色付きのドットは、データセット内のアノテーション済みメッセージを表しています。この分割は、メッセージがデータセットに追加されるときにメッセージの ID によって決定され、データセットの存続期間を通して一貫性が維持されます。
その後、プラットフォームはトレーニング セットのみをトレーニング データとして使用して自身をトレーニングします。
続いて、このトレーニングに基づいて、テスト セット内のメッセージに適用すべきラベルを予測しようと試みます。また、適合率と再現率の両方について、人間のユーザーが適用した実際のラベルに照らしてその結果を評価します。
このプロセスに加えて、プラットフォームは、ラベルがどのように割り当てられたか (つまり、ラベルを適用するときにどのトレーニング モードが使用されたか) も考慮して、偏った方法でアノテーションが行われているか、それともバランスのとれた方法でアノテーションが行われているかを理解します。
その後、最新のモデル バージョンのラベルのパフォーマンスに関するライブ統計情報が [検証] で公開されますが、以前にピン留めされたモデル バージョンの過去のパフォーマンス統計情報も表示できます。
モデルがどの程度十分にデータを網羅しているかを理解するために、データセット内にあるすべての未確認のデータと、その未確認のメッセージそれぞれに対して行われた予測が調べられます。
次に、有益なラベルが少なくとも 1 つ予測されているメッセージの合計の割合を評価します。
有益なラベルとは、他のラベルと一緒に割り当てられている頻度を調べることで、スタンドアロンのラベルとして有用であるとプラットフォームが理解したラベルのことです。常に別のラベルとともに割り当てられているラベル (たとえば、単独で割り当てられることのない親ラベルや、常に別のラベルとともに割り当てられている場合の [緊急]) は、スコアの計算時に重み付けが下げられます。
お使いのモデルがどの程度バランスがとれているかを評価する場合、基本的には、トレーニング データとデータセット全体との間のアンバランスの原因となり得るアノテーションの偏りが検索されます。
このために、アノテーションの偏りモデルを使用して、確認済みのデータと未確認のデータを比較し、アノテーションが行われたデータがデータセット全体を代表していることが確認されます。データが代表的ではない場合、モデルのパフォーマンス指標は誤解を招くものになり、信頼できない可能性があります。
アノテーションの偏りは通常、ラベルの割り当てに使用したトレーニング モードのバランスがとれていなかった結果です。特に、[テキスト検索] を使用しすぎてシャッフル モードを十分に使用していない場合にあてはまります。
リバランス トレーニング モードは、確認済みのセット内の代表性の低いメッセージを示します。このモードで例にアノテーションを行うと、データセット内のアンバランスに素早く対処できます。