Communications Mining ガイド

最終更新日時 2025年2月10日

概要

主な手順

[探索] ページにはさまざまなトレーニングモードがあり、このフェーズでは主にそのうちの 3 つに焦点を当てます。

シャッフル - ランダムに選択されたメッセージを表示し、ユーザーがアノテーションを行います。より広範なデータセットを代表する例のトレーニングセットを作成するには、「シャッフル」で大量のトレーニングを完了することが重要です。

教える (未確認のメッセージが対象) - ラベルに対して妥当な予測が行われるようになったらすぐに、既定の「教える」モード (未確認のメッセージが対象) でメッセージを確認することで、より多様な例に対してラベルを予測する能力を向上させることができます。これにより、選択したラベルが適用されるかどうかをプラットフォームが判断できないメッセージが表示されます。

信頼度が低い - 有益なラベル予測で十分に網羅されていないメッセージを表示します。このメッセージには、有益であると理解されているラベルの予測がまったくないか、信頼度が非常に低い予測しかありません。

ナレッジベースのこのセクションでは、[探索] で検索を使用したトレーニングについても説明します。これは [発見] で検索を使用したトレーニングと非常によく似ています。

探索には、「教える」という別のトレーニングモードがあります (確認済みのメッセージが対象)。これについては、ナレッジベースのこちらのセクション「モデルを改良する、および検証を使用する」で説明しています。

レイアウト

レイアウトの説明

A	表示されるメッセージの日付範囲または期間を調整します。
B	メッセージのメタデータ (スコア、送信者など) に基づいて、他のさまざまなフィルターを追加します。
C	一般フィールドフィルターを追加します。
D	すべてのメッセージから、確認済みのメッセージまたは未確認のメッセージに切り替えます。また、ピン留めされているラベル数と予測されているラベル数を調整します。
E	ラベルフィルターを追加します。
F	タクソノミー内の特定のラベルを検索します。
G	ラベルを追加します。
H	メッセージのメタデータを展開します。
I	現在のクエリを更新します。
J	「最近」「シャッフル」「教える」「信頼度が低い」などの異なるトレーニングモードを切り替え、並べ替えの基準にするラベルを選択します。
K	特定の単語や語句を含むメッセージをデータセットで検索します。
L	このページのすべてのメッセージをダウンロードするか、データセットを、適用されているフィルターとともに CSV ファイルとしてエクスポートします。

各ラベルに必要なトレーニングの量

各ラベルを正確に予測するために必要な例の数は、ラベルの概念の幅や特異性によって大きく異なります。

ラベルが一般的に、非常に具体的で簡単に識別できる単語、語句、意図に関連付けられている場合があります。この場合、プラットフォームは比較的少数のトレーニング例で一貫性を持ってそのラベルを予測できます。また、ラベルが幅広いトピックをキャプチャし、そのトピックに関連する言語のさまざまなバリエーションがある場合もあります。この場合、ラベルを適用すべきインスタンスを一貫性を持って識別できるようにするには、はるかに多くのトレーニング例が必要になる可能性があります。

多くの場合は、例が 5 つほどあればラベルの予測を開始できますが、ラベルのパフォーマンス (プラットフォームがどれだけ適切に予測できるか) を正確に推定するには、各ラベルに少なくとも 25 個の例が必要です。

[探索] でアノテーションを行う場合、各ラベルの横にある小さな赤いダイヤル (以下の例を参照) は、ラベルのパフォーマンスを正確に推定するためにさらに例が必要かどうかを示します。トレーニング例をさらに提供するとダイヤルが消え始め、例が 25 個になると完全に消えます。

ラベルのトレーニングダイヤル

これは、例が 25 個あればすべてのラベルを正確に予測できるという意味ではありませんが、少なくとも各ラベルをどの程度適切に予測できるかを検証し、追加のトレーニングが必要な場合は警告することができます。

したがって、探索フェーズでは、上記の手順 (主に「シャッフル」および「教える」 + 「未確認」) を組み合わせて、注目すべきすべてのラベルに対して少なくとも 25 個の例を確実に提供する必要があります。

改良フェーズにおいて、特定のラベルのパフォーマンスを改善するためにさらにトレーニングが必要であることが明らかになる場合があります。これについては、こちらで詳しく説明します。

ラベルのパフォーマンスに関する警告

[探索] で、1 つのラベルに対してピン留めされた例が 25 個に達すると、トレーニングダイヤルの代わりに、以下のラベルのパフォーマンスインジケーターのいずれかが表示される場合があります。

灰色の円は、プラットフォームがそのラベルのパフォーマンスの計算中であることを示すインジケーターです。計算が終わると、消えるか、琥珀色または赤色の円に更新されます。
琥珀色は、ラベルのパフォーマンスが十分なレベルをわずかに下回っており、改善が可能であることを示します。
赤は、ラベルのパフォーマンスが良くなく、追加のトレーニング/是正措置によって改善する必要があることを示します。
円がない場合は、ラベルのパフォーマンスが十分なレベルであることを意味します (ただし、ユースケースと必要な精度のレベルによってはまだ改善が必要な場合があります)。
ラベルのパフォーマンスとその改善方法について詳しく理解するには、まずこちらをご確認ください。

ラベルのパフォーマンスインジケーター

予測されたラベル数とピン留めされたラベル数

ラベルフィルターバーの上部にあるチェックマークアイコン (以下を参照) をクリックしてフィルターを適用し、確認済みのメッセージに絞り込むと、そのラベルが適用されている確認済みのメッセージの数が表示されます。

コンピューターのアイコンをクリックしてフィルターを適用し、未確認のメッセージに絞り込むと、そのラベルの予測の合計数が表示されます (確認済みの例の数も含まれます)。

[探索] では、確認済みまたは未確認のメッセージのどちらも選択していない場合は、既定で、ラベルにピン留めされたメッセージの合計数が表示されます。[レポート] では、既定で、予測された合計数が表示されます。

注: 予測された数は、このラベルに対して計算されたすべての確率を集計した値です。たとえば、2 つのメッセージがあり、どちらの信頼度レベルも 50% である場合は、1 つの予測されたラベルとしてカウントされます。

[探索] の使用に役立つヒント

モデルは、アノテーションが行われたメッセージが数個あれば予測を開始できますが、信頼できる予測を行うには、ラベルあたり少なくとも 25 個のメッセージをラベル付けする必要があります。場合によっては、これ以上のアノテーションが必要なこともあります。これは、データの複雑さ、ラベル、およびラベルの適用時の一貫性によって異なります。
[探索] では、モデルがラベルを誤って予測したメッセージも探してみる必要があります。間違ったラベルを削除し、正しいラベルを適用する必要があります。このプロセスは、モデルが今後同様の誤った予測を行うのを防ぐのに役立ちます。

重要: このフェーズではラベルを多数適用するので、必ず、アノテーションの重要なベストプラクティスに従うようにしてください。すなわち、適用されるラベルはすべて追加し、一貫性を持ってラベルを適用し、直接確認できるものをアノテーションを行います。