Communications Mining ガイド

最終更新日時 2025年11月10日

概要

主な手順

[探索] ページにはさまざまなトレーニングモードがあり、このフェーズでは主にそのうちの 3 つに焦点を当てます。

シャッフル - ランダムに選択されたメッセージを表示し、ユーザーがアノテーションを行います。より広範なデータセットを代表する例のトレーニングセットを作成するために、「 シャッフル」で大量のトレーニングを完了するようにしてください。
教える - 未確認のメッセージに使用します。ラベルに対して妥当な予測が行われるようになったらすぐに、既定の 「教え る」モード (未確認のメッセージが対象) でメッセージを確認することで、より多様な例に対してラベルを予測する能力を向上させることができます。これにより、選択したラベルが適用されるかどうかをプラットフォームが判断できないメッセージが表示されます。
信頼度が低い - 有益なラベル予測で十分に網羅されていないメッセージを表示します。このようなメッセージは、プラットフォームによって有益であると認識されたラベルの予測がまったくないか、信頼度が非常に低い予測しかありません。

このセクションでは、[ 発見] で検索を使用したトレーニングと同様に、[ 探索] で検索を使用したトレーニングについても説明します 。

確認済みのメッセージを対象とした「教える」は、探索のもう 1 つのトレーニングモードです。詳しくは、「モデルを改良する」および「検証を使用する」をご覧ください。

レイアウト

前の画像のレイアウトを次の表に示します。

1	表示されるメッセージの日付範囲または期間を調整します。
2	メッセージのメタデータに基づいて、他のさまざまなフィルターを追加します。たとえば、スコアまたは送信者。
3	一般フィールドフィルターを追加します。
4	すべてのメッセージから、確認済みのメッセージまたは未確認のメッセージに切り替えます。また、ピン留めされているラベル数と予測されているラベル数を調整します。
5	ラベルフィルターを追加します。
6	タクソノミー内の特定のラベルを検索します。
7	ラベルを追加します。
8	メッセージのメタデータを展開します。
9	現在のクエリを更新します。
10	「最近」「シャッフル」「教える」「信頼度が低い」などの異なるトレーニングモードを切り替え、並べ替えの基準にするラベルを選択します。
11	特定の単語や語句を含むメッセージをデータセットで検索します。
12	このページのすべてのメッセージをダウンロードするか、データセットを、適用されているフィルターとともに CSV ファイルとしてエクスポートします。

各ラベルに対して実行するトレーニングの量

各ラベルを正確に予測するために必要な例の数は、ラベルの概念の幅や特異性によって大きく異なります。

ラベルが一般的に、非常に具体的で簡単に識別できる単語、語句、意図に関連付けられている場合があります。この場合、プラットフォームは比較的少数のトレーニング例で一貫性を持ってそのラベルを予測できます。また、ラベルが幅広いトピックをキャプチャし、そのトピックに関連する言語のさまざまなバリエーションがある場合もあります。この場合、ラベルを適用すべきインスタンスを一貫性を持って識別できるようにするには、はるかに多くのトレーニング例が必要になる可能性があります。

多くの場合は、例が 5 つほどあればラベルの予測を開始できますが、ラベルのパフォーマンス、つまりプラットフォームがどれだけ適切に予測できるかを正確に推定するには、各ラベルに少なくとも 25 個の例が必要です。

[探索] でアノテーションを行う場合、各ラベルの横にある小さな赤いダイヤルは、ラベルのパフォーマンスを正確に推定するためにさらに例が必要かどうかを示します。トレーニング例をさらに提供するとダイヤルが消え始め、例が 25 個になると完全に消えます。

これは、例が 25 個あればすべてのラベルを正確に予測できるという意味ではありませんが、少なくとも各ラベルをどの程度適切に予測できるかを検証し、追加のトレーニングが必要な場合は警告することができます。

探索フェーズでは、前述の手順 (主に 「シャッフル」および 「教える 」および 「未確認」) を組み合わせて、注目すべきすべてのラベルに対して少なくとも 25 個の例を提供していることを確認してください。

改良フェーズにおいて、特定のラベルのパフォーマンスを改善するためにさらにトレーニングが必要であることが明らかになる場合があります。詳しくは、「モデルを改良する」および「検証を使用する」をご覧ください。

ラベルのパフォーマンスに関する警告

[探索] で、1 つのラベルに対してピン留めされた例が 25 個に達すると、トレーニングダイヤルの代わりに、次のいずれかのラベルのパフォーマンスインジケーターが表示される場合があります。

灰色は、プラットフォームがそのラベルのパフォーマンスの計算中であることを示します。つまり、計算が終わると、消えるか、琥珀色または赤色の円に更新されます。
琥珀色 は、ラベルのパフォーマンスが十分なレベルをわずかに下回っており、改善が可能であることを示します。
赤は、ラベルのパフォーマンスが良くなく、追加のトレーニングまたは是正措置によって改善する必要があることを示します。
円がない場合、ラベルのパフォーマンスは十分なレベルですが、ユースケースと必要な精度のレベルによってはまだ改善が必要な場合があります。
ラベルのパフォーマンスとその改善方法について詳しくは、「モデルのパフォーマンスを理解および改善する」をご覧ください。

予測されたラベル数とピン留めされたラベル数

次の図に示すように、ラベルフィルターバーの上部にあるチェックマークアイコンを選択してフィルターを適用し、確認済みのメッセージに絞り込むと、そのラベルが適用されている確認済みのメッセージの数が表示されます。

コンピューターのアイコンを選択してフィルターを適用し、未確認のメッセージに絞り込むと、そのラベルの予測の合計数が表示されます。これには確認済みの例の数も含まれます。

[探索] では、確認済みまたは未確認のメッセージのどちらも選択していない場合は、既定で、ラベルにピン留めされたメッセージの合計数が表示されます。[レポート] では、既定で、予測された合計数が表示されます。

メモ: 予測された数は、このラベルに対して計算されたすべての確率を集計した値です。たとえば、2 つのメッセージがあり、どちらの信頼度レベルも 50% である場合は、1 つの予測されたラベルとしてカウントされます。

[探索] の使用に関するヒント

このモデルは、アノテーションが行われたメッセージが数個あれば予測できますが、信頼できる予測を行うには、ラベルあたり少なくとも 25 個のメッセージをラベル付けする必要があります。場合によっては、これ以上のラベル付けが必要なこともあります。これは、データの複雑さ、ラベル、およびラベルの適用時の一貫性によって異なります。
[探索] では、モデルがラベルを誤って予測したメッセージも探してみる必要があります。間違ったラベルを削除し、正しいラベルを適用する必要があります。このプロセスは、モデルが今後同様の誤った予測を行うのを防ぐのに役立ちます。

大事な：このフェーズではラベルを多数適用するので、適用されるラベルをすべて追加するという、アノテーションの重要なベストプラクティスに従うようにしてください。そのためには、一貫性を持ってラベルを適用し、直接確認できるものにアノテーションを行います。