Communications Mining ガイド

最終更新日時 2025年11月10日

バランスを改善する、および「リバランス」を使用する

手記： Automation Cloud ユーザーとして [ソース] - [読み取り ] 権限と [データセット - 確認 ] 権限、またはレガシユーザーとして [ ソースの表示 ] 権限と [ 確認とアノテーション] 権限を割り当てている必要があります。

バランス:導入と重要性

[検証] の [モデルの評価] に表示されるバランスの評価は、データセット内の確認済みのデータ (トレーニングデータ) が、データセット全体と比較してどの程度バランスがとれているかを反映します。

ここでは、以下を含む多くの要因が考慮されます。

確認済みのデータと未確認のデータの類似性 (パーセンテージスコアで表示)
ランダムサンプリング (シャッフルモード) で確認した確認済みのデータの割合
「リバランス」を使用して確認したデータの割合
「テキスト検索」を使用して確認したデータの割合

モデルの評価の [バランス] コンポーネントの例

ランダムサンプリングで確認したデータの割合が高く (理想的には 20%+)、検索を使用してアノテーションを行った確認済みのデータの割合が低いことが重要です。

ただし、バランスの評価は、未確認のデータと確認済みのデータの類似性を測定する類似性スコアの影響を最も大きく受けます。

この類似性スコアの計算には、独自のアノテーションの偏りモデルを用いて、確認済みのデータと未確認のデータを比較し、アノテーションが行われたデータがデータセット全体を代表していることを確認します。データが代表的ではなく、偏った方法でアノテーションが行われている場合、モデルのパフォーマンス指標は誤解を招くものになり、信頼できない可能性があります。

このプラットフォームでのアノテーションの偏りは通常、ラベルの割り当てに使用したトレーニングモードのバランスがとれていなかった結果であり、特に「テキスト検索」を使用しすぎて「シャッフル」モードを十分に使用していない場合にあてはまります。ただし、「シャッフル」モードの使用割合が高い場合にも発生する可能性があります。「ラベルを教える」などのモードで特定のラベルをトレーニングすると、当然、確認済みのデータにわずかなアンバランスが生じる可能性があります。このプラットフォームでは、このような状況が発生した場合に特定し、迅速かつ効果的に対処できます。

リバランス: はじめにと使用方法

リバランスは、モデルのアノテーションの実施方法の潜在的なアンバランス、すなわちアノテーションの偏りを減らすのに役立つトレーニングモードです。アノテーションの偏りとは、確認済みのデータがデータセット全体を可能な限り代表していないことを意味します。

リバランス トレーニングモードは、確認済みのセット内の代表性の低いメッセージを示します。

このモードで提示されたメッセージにアノテーションを行うと (他のトレーニングモードの場合と同様の方法)、トレーニングデータのアンバランスに対処し、モデルのバランススコアを改善できます。

ヒント: リバランスは一般的に、少しずつ頻繁に使用した場合に最も効果があります。このモードで少数のメッセージ (10 から 20 個) にアノテーションを行い、モデルを再トレーニングする時間を設けてから更新し、さらに多くの例をアノテーションを行うと、リバランスがモデルのバランススコアに与える影響を最も効果的に最大化できます。

デモデータセットの「リバランス」トレーニングモード

類似性スコアが高いにもかかわらずバランスの評価が低い場合、シャッフル モードで十分な数のトレーニングデータにアノテーションを行っていないことが原因である可能性があります。この場合、ランダムに選択されたメッセージにアノテーションを行うことが、優先度の高い推奨されるアクションとして提案されます。このモードでトレーニングすることにより、プラットフォームは、データセットに偏った方法でアノテーションが行われていないこと、およびトレーニングデータが代表性の高いサンプルであることについて追加の確信を持つことができます。

使用するリバランスの量

リバランスを継続的に繰り返し使用してモデルの類似性スコアを向上させる必要があります。その結果、[バランス] の評価が向上します。

[検証] で評価が「良好」になった後、類似性スコアをどこまで高めてから「リバランス」でのトレーニングを中止するかは、ユーザーの判断に任されています。

この評価をできる限り最適化することを目標にすることはできますが、トレーニングを継続していくと必ず、効果が徐々に薄れていきます。一般的には、評価が「良好」になったら、良好なモデルとして許容できるパフォーマンスレベルであると見なすことをお勧めします。

このページは役に立ちましたか?

前へカバレッジを理解して拡大する

次へモデルのトレーニングを停止するタイミング

サポートとサービス

サポートを受ける

UiPath アカデミー

RPA について学ぶ - オートメーションコース

UiPath コミュニティフォーラム