- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining
- ライセンス情報
- よくある質問など
モデルのパフォーマンスを理解および改善する
マシン ラーニング モデルの全体的なパフォーマンスは多数の要因によって決まり、これらの要因を互いに組み合わせて考慮する必要があります。モデルのラベルの平均適合率が高いかどうかだけを考慮するだけでも、データセットがどれだけ予測でカバーされているかを調べるだけでも不十分です。
モデルがデータセットを真に代表しており、正確で信頼できるラベル予測と高いカバレッジを備えていると確信を持って判断するには、以下の 4 つの主な要因を評価します (方法については、こちらをご覧ください)。
- すべてのラベル - タクソノミー内のすべてのラベルの平均パフォーマンスを評価します。
- パフォーマンスの低いラベル - 最も重大なパフォーマンスの問題があるか、全体的なラベルの健全性が最も低いラベルの 10% のパフォーマンスを評価します。
- カバレッジ - 有益なラベルを少なくとも 1 つ持つと予測されるメッセージの割合を評価します。
- バランス - 確認済みのデータがデータセット全体をバランスよく正確に反映しているかどうかを評価します。
これら 4 つの要因の評価を組み合わせて、理解しやすく 1 つにまとまった独自の「モデルの評価」が提供されます。この評価は、ラベルのモデルを評価するために必要な最も重要な要素をすべて考慮し、相対的な重要度で重み付けするため、モデルのパフォーマンスの最善の指標です。
モデルの評価は 0 から 100 のスコアで表され、「不良」 (0 から 49)、「平均」 (50 から 69)、「良好」 (70 から 89)、または「優秀」 (90 から 100) の評価に相当します。
[検証] では、各要因の内訳も提供されます。各要因には独自の定性的評価が割り当てられ、さらに、その評価に寄与するメトリックも表示されます。これらについては、以下で詳しく説明します。
各要因には、そのパフォーマンスに応じて、モデルの評価に対するプラスまたはマイナスの寄与度があります。各要因で「不良」の評価が付いているモデルは、特にモデルのトレーニング プロセスの非常に早い段階では、総合評価がゼロになる可能性が非常に高くなります。
モデルの評価はラベル専用であり、一般フィールドのパフォーマンスは考慮されません。ただし、[検証] では、一般フィールドの予測のパフォーマンスに関する詳細なメトリックも提供されます (こちらをご覧ください)。
モデルの評価の上にある [モデル バージョン] ドロップダウンには、特定のデータセットの過去のモデル バージョン全体の検証スコアが表示されます。また、個々のモデル バージョンに優先順位を付けたり「スター」を付けたりして、今後、リストの一番上に表示することもできます。このツールは、モデルを強化する際に進行状況を追跡および比較するのに役立ちます。
このドロップダウンにより、検証スコアを確認するためにモデル バージョンをピン留めする必要がなくなります。モデル バージョンのピン留め (こちらを参照) は、API を介して下流で呼び出せるようにする (自動ルーティングなど) モデル バージョンでのみ使用する必要があります。
[検証] の [要因] タブ (上の図を参照) には、モデルの評価を計算する際に考慮される重要な要因それぞれの内訳が表示されます。
各要因カードには以下が表示されます。
- 要因の評価と、その定性的な説明。
- 寄与度。その要因の評価に寄与するさまざまな要素です。
- 推奨されるアクション。要因の評価の改善に役立つアクションが優先度順に表示されます。
すべてのラベル
- この要因では、タクソノミー内のすべてのラベルの平均パフォーマンスが評価されます。
- この要因は主に、すべてのラベルの平均適合率の平均値 (mAP) に依存し、ラベルの割り当て頻度で重み付けされます。
- また、赤または琥珀色のパフォーマンス警告が付いたラベルがタクソノミー内にある状態も考慮されます。
- この要因に対して推奨されるアクションは通常、特定のラベルの平均適合率を上げるか、パフォーマンス警告を解除するように設計されます。
パフォーマンスの低いラベル
- この要因は、タクソノミー内で、最も重大なパフォーマンスの問題があるか、全体的なラベルの「健全性」が最も低い (警告が返されていない場合) ラベルの 10% のパフォーマンスを評価します。
- ラベルの下位 10% でも非常に優れたパフォーマンスが得られる場合、モデルが健全であることを示す良い兆候です。
- これは、パフォーマンスが最も低いラベルの mAP と、そのラベルに重大なパフォーマンス警告 (つまり、赤または琥珀色の警告) があるかどうかに依存します。
- この要因に関して推奨される操作は、通常、パフォーマンスの低い特定のラベルの平均適合率を上げるか、それ以外のパフォーマンスに関する個々の警告を解消するように設計されています。
カバレッジ
- この要因は、有益なラベルを少なくとも 1 つ持つと予測されるメッセージの割合を評価します (詳しくは、こちらをご覧ください)。
- パフォーマンスの良いモデルでは、データセットの可能な限り多くの部分を有益なラベル予測で「網羅」していることが非常に重要です。
- この要因に対して推奨されるアクションは、データセットのカバレッジを拡大するように設計されています。ほとんどの場合、「信頼度が低い」モードでのトレーニングになります。
- データセットのカバレッジの理解と拡大については、こちらで詳しく説明します。
バランス
- この要因は、確認済みのデータがデータセット全体をバランスよく効果的に反映しているかどうかを評価し、アノテーションの潜在的な偏りを検出するように設計されています (詳しくは、こちらをご覧ください)。
- これは、「類似性スコア」 (データセット内の確認済みのデータを未確認のデータと比較した結果) と、データのアノテーションを行うときに「シャッフル」モードを十分に使用したかどうかに依存します。
- データセット内の確認済みのデータが未確認のデータに可能な限り類似していて、プラットフォームができるだけ多くのデータを確実に識別できることが重要です。
- この要因に対して推奨されるアクションは、アノテーションの潜在的な偏りを減らし、確認済みのデータの類似性スコアを高めるように設計されています。
- データセットのバランスの理解と改善について詳しくは、こちらをご覧ください。
注: このプラットフォームは、要因の評価が「良好」または「優秀」であっても常に、特定の要因を改善し得る、推奨される次の操作を見つけようとします。これは、その要因のパフォーマンスの最適化を続行したい場合のためです。
メトリック
[検証] ページの [メトリック] タブには、ラベルの平均パフォーマンスの統計情報、および各ラベルの平均適合率とトレーニング セットのサイズを示すグラフが表示されます。さらに、琥珀色または赤のパフォーマンス警告があるラベルにフラグも付けられます。
表示されるラベルのパフォーマンス統計情報は次のとおりです。
基本的に、mAP のスコアが高いほど、予測の正解率の点ではモデルのパフォーマンスが全体的に向上しますが、データの種類と、タクソノミーの軸として設定した目的に応じて、データセット間で異なります。
[検証] ページの [メトリック] タブに表示されるラベルのパフォーマンスのグラフ (上記を参照) は、個々のラベルのパフォーマンスを即座に視覚的に示します。
このグラフにラベルを表示するには、検証中にプラットフォームによって使用されるトレーニング セットに、ピン留めされた例が 20 個以上含まれている必要があります。これを確実に行うには、ユーザーはピン留めされた例をラベルごとに少なくとも 25 個 (多くの場合それ以上) 提供する必要があります。
各ラベルは、ラベルのパフォーマンスについてのモデルの理解に基づいて、3 色のいずれかでプロットされます。色の意味については、以下のセクションで説明します。
ラベルのパフォーマンス インジケーター
- グラフに青でプロットされているラベルは、パフォーマンス レベルが十分なラベルです。これは、例の数と種類、アノテーションの偏り、そのラベルの平均適合率など、多様な要因に基づいています。
- 琥珀色でプロットされているラベルは、十分なパフォーマンスをわずかに下回るラベルです。このようなラベルは、平均適合率が比較的低いか、トレーニング例が十分でないか、偏った方法でアノテーションが行われている可能性があります。このようなラベルでは、若干のトレーニング/修正を行って、パフォーマンスを改善したり、トレーニング方法の偏りを減らしたりする必要があります。
- 赤でプロットされているラベルは、パフォーマンスの低いラベルです。このようなラベルは、平均適合率が非常に低いか、トレーニング例が十分でないか、アノテーションの方法が非常に偏っている可能性があります。このようなラベルでは、さらにかなりのトレーニング/修正を行って、パフォーマンスを十分なレベルに引き上げたり、トレーニング方法の偏りを大幅に減らしたりしなければならない可能性があります。
注: 琥珀色と赤色のパフォーマンス インジケーターは、[探索]、[レポート]、および [検証] ページのラベル フィルター バーに表示されます。このインジケーターは、どのラベルを改善する必要があるかに加え、分析機能を使用するときにどのラベルの予測を (改善作業なしでは) 信頼すべきではないかをすばやく知るのに役立ちます。
ラベル フィルター バーから個々のラベルを選択して (または [すべてのラベル] グラフでラベルのプロットをクリックして)、ラベルのパフォーマンス統計情報を表示できます。特定のラベル ビューには、パフォーマンスの警告と、パフォーマンスの改善に役立つ、推奨される次の操作の提案も表示されます。
ラベル ビューには、ラベルの平均適合率と、指定した信頼度のしきい値に基づく適合率と再現率の比較が表示されます。ユーザーが自身でしきい値を調整して変化を確認できます (詳しくは、この記事の最後のセクションをご覧ください)。
モデルまたは特定のラベルにパフォーマンス警告が付いている場合、その警告に対処するのに役立つと思われる次の操作が推奨されます。これを確認するには、要因カードの 1 つ (以下を参照) を使用するか、タクソノミーから特定のラベルを選択するか、[すべてのラベル] グラフ (上記) を選択します。
平均適合率が非常に低い一部のラベルでは、パフォーマンスが低い理由が常にはっきりと分かるとは限りません。ラベルの平均適合率が低い場合に考えられる理由とその改善方法については、こちらの次の記事で説明します。このプラットフォームでは常に、ラベルを改善するために最適であると考えられる対処方法が優先度順に提供されます。
[検証] ページ以外で作業中の場合も、赤と琥珀色のパフォーマンス警告は [探索] および [レポート] のタクソノミー フィルターに表示されます。そのため、[検証] をチェックして推奨される対処方法を確認する必要があることが分かります。
次の操作の提案はリンクとして機能します。このリンクをクリックすると、プラットフォームによって提案されたトレーニング ビューに直接移動し、ラベルのパフォーマンスを向上させたり、偏りを減らしたりすることができます。提案はインテリジェントに並べられており、ラベルを改善する上で最も優先度の高いアクションが最初に表示されています。
提案は、モデルのパフォーマンスを理解するのに役立つ最も重要なツールであり、ラベルのパフォーマンスを改善する際にガイドとして定期的に使用することをお勧めします。
次の記事では、ラベルの平均適合率が低い理由について詳しく説明します (こちら)。ナレッジ ベースのこのセクションの後半の記事では、モデルのパフォーマンスを改善するために推奨される場合がある他のトレーニング モード (「ラベルを確認」「見逃されたラベル」「リバランス」についても説明します。
注: 古いモデル バージョンを選択しても、警告および推奨されるアクションは表示されますが、情報アイコンにマウスをホバーするとポップアップが表示され、新しいモデル バージョン (作業可能なバージョン) があるため、これらの特定の統計情報は変更できないことが警告されます。
注: 信頼度のしきい値のスライダーを調整しても、実際にモデルに影響することはありません。単に、特定の信頼度のしきい値を選択すると、そのラベルの予測にどう影響するかが視覚的に表されるだけです。これは、ストリームに適したしきい値を選択する場合や、下流のオートメーションに対して予測を使用したりする場合に役立ちます。
ラベルの信頼度のしきい値を調整するには、ボックスに % で数値を入力するか、目盛りに沿ってスライダーをドラッグします。
上の画像では、「Quote > Motor」ラベルの信頼度のしきい値が 68.7% に設定されており、適合率は 100%、再現率は 85% です。
次に、下の画像では、このスライダーを使用して信頼度のしきい値を 17% に調整しています。適合率は 84% に下がりましたが、再現率は 100% に上がっています。