- はじめに
- アクセス制御と管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining™
- 開発者
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining™ でアノテーションの偏りを修正する
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する
- ライセンス
- よくある質問など

Communications Mining ガイド
業務の目的を達成するには、モデルのトレーニングを開始する前に、タクソノミーの作成方法を理解しておくことが重要です。このためには、ラベルの名前付けと構成の方法、およびラベルの内容を理解することが含まれます。詳しくは、「タクソノミーの構造を構築する」をご覧ください。
生成 AI によるアノテーション機能では、ラベルの名前と説明をトレーニングの入力として使用します。そのため、他と重複せず明確でわかりやすいラベル名を使用することが重要です。ラベルの名前と説明によって、モデルが予測を自動的に生成する際に最適なトレーニング入力を提供します。
ラベル名の変更や階層レベルの追加はいつでも行うことができます。このため、ラベルとラベルの説明を改良して、自動生成される予測を改善してから、ラベルを使用してメッセージにアノテーションを行うことができます。
>
で区切って、ラベルの概念がより広範な親概念のサブセットである場合にキャプチャできます。
ラベルの構造の例
- [親ラベル]
- [親ラベル] > [子ラベル]
- [親ラベル] > [ブランチ ラベル] > [子ラベル]
3 レベルを超える階層を追加することはできますが、モデルのトレーニングが複雑になるため、頻繁に行うことはお勧めしません。階層のレベルを追加するには、後でモデルのトレーニング プロセスでラベルの名前を変更します。
>
で設定します。
階層のしくみを理解するために、「ラベルの階層」セクションの図の「子ラベル X」について考えてみましょう。
「子ラベル X」がメッセージに適用されると予測する場合、モデルは同時に「ブランチ ラベル C」と「親ラベル 1」も予測します。これは、「子ラベル X」がこの 2 つのラベルのサブセットであるためです。
階層のレベルごとに特異性のレベルが上がります。しかし、モデルは多くの場合、より具体的な子ラベルよりも親ラベルやブランチ ラベルを、確信を持って割り当てます。つまり、モデルは、同じ階層内でラベルの予測ごとに異なる確率を割り当てることができます。
たとえば、ある特定のメッセージの場合に、モデルが次のようになっているとします。
- 99% の信頼度で「親ラベル 1」が適用される
- 88% の信頼度で「ブランチ ラベル C」が適用される
- 75% の信頼度で「子ラベル X」が適用される
モデルは各ラベルを個別に予測するため、親ラベルが抽象的なトピックや概念ではなく本当のトピックや概念を表していることが重要です。
たとえば、具体的な複数のプロセスをグループ化する場合、「プロセス」を親ラベルとして使用するのは効果的ではありません。「プロセス」はモデルが予測するには抽象的すぎるためです。その代わりに、メッセージ テキストに含まれる具体的なプロセス名を親ラベルとし、関連するサブプロセスを表すブランチ ラベルと子ラベルを使用するほうが効果的です。
タクソノミーの構造に関して難しい選択をしなければならない場合もあります。たとえば、ラベルを親ラベルにすべきか、子ラベルにすべきかを選ぶのに悩む場合があります。その理由は、そのラベルが論理的に、専用のサブカテゴリを持つ広範な親カテゴリとして機能する可能性がある場合や、より広範な別の親カテゴリの具体的なサブカテゴリである可能性があるためです。
たとえば、ホテルのレビューのデータセットを想像してください。多くのレビューには、休暇とホテルのさまざまな側面 (レストラン、バー、客室、アクティビティなど) の価格設定が含まれます。
次の選択肢を検討できます。
- 「価格」を親ラベルとして設定し、価格の具体的な側面 (例: レストラン) を子ラベルとして設定できます。
- これに対し、「レストラン」「客室」のような具体的な側面に関連する親ラベルを設定し、そのそれぞれの下に「価格」を子ラベルとして設定することもできます。
決定にあたっては、次の点を考慮してください。
- この広範なトピックに関連する、含めたい概念がほかにも大量にあるか。「はい」の場合は、親ラベルにすることをお勧めします。
- 情報管理またはレポートの観点から追跡すべき最も重要なことは何か。前述の例を考慮し、価格とそのサブカテゴリを話題にしている正確な人数を Communications Mining™ の分析で明確に参照できると役に立つか。それとも、客室、レストラン、アクティビティなどについてのフィードバックの全体的な統計情報を、価格をその 1 つの側面として確認できるほうが役に立つか。
こうした状況では必ずしも明らかな正解や不正解があるわけではありません。最終的には、自分と自分のビジネスにとって何が最も重要かによって異なります。
ここまでは、ラベルに名前を付けて階層状に構成する方法について説明してきました。しかし、正確に何をラベルでキャプチャすべきなのか、まだ疑問に思っているかもしれません。
Communications Mining™ は自然言語処理 (NLP) ツールであることを覚えておくことが重要です。ラベルが割り当てられた各メッセージを読み取って解釈し、どうすれば、主にメッセージ内のテキストに基づいてそのラベルの概念を識別できるかについての理解を形成し始めます。
各ラベルに多様で一貫性のある例を追加すると、モデルはそのラベルの概念についての理解を改善します。ラベルのパフォーマンスが良好になったら、それ以上ラベルを追加しないでください。追加すると効果が徐々に薄れていきます。また、ラベルについての信頼度の高い予測を大量に承認することも避けてください。こうしてもモデルに新しい情報は提供されません。
Communications Mining は、メッセージの言語を使用して、何がラベルの概念を構成しているのかを理解・識別するので、ラベルが適用されるメッセージのテキストからラベルを明確に識別できる必要があります。メール メッセージの場合は、メールの件名および本文がこれにあたります。
Cancellation > Confirmation > Termination
というラベルが適用されています。
メールの件名と本文からラベル名を明確に推論できます。
このモデルでは、顧客のフィードバックのデータセットをトレーニングする際に、NPS スコアなどの特定のメタデータ プロパティを考慮して感情の理解に役立てることができますが、Communications Mining モデルにとって最も重要なデータはメッセージのテキストであることに変わりはありません。
つまり、各ラベルは、キャプチャしようとしている内容を具体的に表す必要があります。具体的でないと、モデルはラベルの概念を正確に予測するために必要な傾向やパターンを識別しにくくなります。
「一般的な問い合わせ」や「その他すべて」のように極めて広範なラベルを使用して、複数の異なるトピックをグループ化する場合、モデルに提供する例の間に明確なパターンや共通性がないと、ラベルが役に立たない可能性があります。
モデルでラベルを適切に予測するには、ラベルでキャプチャする各概念について、さまざまな表現の類似する例が複数必要です。したがって、極めて広範なラベルを効果的に予測するには、大量の例が必要になります。
広範なラベルを分割して明確なラベルに分けるほうが効率的な方法です。これは [その他すべて] > [さまざまな子ラベル] がある場合にもあてはまります。
非常に広範な親カテゴリと比較して子ラベルのほうがより具体的で明確に識別可能であるため、モデルが子ラベルをより適切に識別できる場合、親ラベルを予測する能力も実際に大幅に向上できます。
生成 AI によるアノテーション機能では、ラベルの説明とラベル名を使用して、専門化されたモデルを自動的にトレーニングします。したがって、わかりやすい明確で有益な説明を各ラベルに追加し、モデルが正確な予測を生成できるようにすることが重要です。
生成 AI モデルは、説明を入力として使用して、バックグラウンドでメッセージに事前アノテーションを行います。これにより、例に手動でアノテーションを行うのにかかる時間と労力が削減されます。
ラベルの説明は、データセットの作成プロセスで作成された後に追加することも、データセットの設定の [タクソノミー] ページから追加または編集することもできます。
モデルの構築プロセス全体でラベルの一貫性を維持する効果的な方法の 1 つは、各ラベルに説明を追加することです。こうすると、複数のユーザーがモデルをトレーニングする場合に、特定のラベルとそれに関連する概念について全員に同じ理解を徹底することができるので便利です。また、ラベルの一貫性を維持することのもう 1 つの利点として、モデルを別のユーザーに渡す必要がある場合に、引き継ぎプロセスが効率的になることがあります。