Communications Mining
最新
バナーの背景画像
Communications Mining ガイド
最終更新日 2024年2月8日

ラベル階層とベスト プラクティス

はじめに

モデルのトレーニングを開始する前に、ラベル の名前付けや構造化 、それらの ラベルが実際にキャプチャする 内容 など 、分類データの作成方法 を理解しておく ことが重要です 。この記事では、ラベルの名前付けから始めて、これらの各トピックについて説明します。

次の記事では、ビジネス目標を達成するために分類を適切に構成することが非常に重要である理由について説明します (こちら)。

ラベルの命名

ラベルの名前を決めるのは、気が遠くなるような、または時間のかかる見通しに思え かもしれませんが、 そうである必要はありません

まず、ラベルの名前が何であるかは関係ありませんが、私たちのモデルでは、ラベル名自体は単なる数字です。重要なのは、ラベル名がビジネス目的を果たし、キャプチャしようとしている特定の概念の有用な説明であるということです。

ラベルの名前はいつでも変更でき (方法を参照 )、必要に応じて階層のレベルを追加できるため、モデルを最初に構築するときに完璧な名前を考えて時間をかけすぎないでください。

ラベル階層

ラベルの命名には、タクソノミー内の階層を決定する必要があります。 ラベルは、ラベルの概念がより広範な親概念のサブセットである場合にキャプチャするために、単に「>」で区切られた複数レベルの階層を持つことができます。

したがって、潜在的なラベル構造は次のようになります(下の画像の例も参照してください)。

  1. [親ラベル]
  2. [親ラベル] > [子ラベル]
  3. [親ラベル] > [ブランチラベル] > [子ラベル]

3 レベルを超える階層を追加できますが、トレーニングがますます複雑になるため、頻繁に行うことはお勧めしません。 特定のケースで必要になることがありますが、ベスト プラクティスと見なすべきではありません。

概念的には、別のラベルの下に入れ子になっているすべてのラベルが、その上にあるラベルの サブセット であることが重要です。 この入れ子 (階層のレベル) は、ラベル名を入力するときに「>」を使用して作成されます

次の図は、ベン図を使用してこの点を示しています。

ラベル階層が概念的にどのように機能するかの図docs image

この場合も、モデルのトレーニング プロセスの後半でラベルの名前を変更することで、階層のレベルを追加できます。

これらの階層は実際にどのように機能しますか?

これを理解するために、例として上のビジュアルの "子ラベル X" を取り上げましょう。

モデルが '子ラベル X' が逐語的に適用されると予測する場合、' 分岐ラベル C ' と ' 親ラベル 1 ' 同時に予測 します。これは、「子ラベルX」がこれらの サブセット であるためです。

ただし、階層の各レベルで特異性が増すにつれて、モデルは、より具体的な子ラベルよりも 親ラベルまたはブランチ ラベルが適用されることを確信 できます。 つまり、モデルは、同じ階層内の異なるラベル予測に異なる確率を割り当てることができます。

したがって、特定の逐語的に、モデルは次のようになります。

  • 99% の確信度 で「親ラベル 1」 が適用される
  • 88% の確信 が「ブランチラベルC」が適用されると回答
  • 75% の確信 が「子ラベル X」が適用されると回答しています。

子ラベルが逐語的に予測される場合、モデル は常に 、少なくとも子ラベルと同じ 信頼度 (またはそれ以上) ラベル (および該当する場合は ブランチ ラベル ) を予測する必要があります。

モデルが 各ラベルを個別に予測 するという事実は、 親ラベルが抽象的なトピックや概念ではなく、本物のトピックや概念をキャプチャすることが重要である主な理由の1つです。

たとえば、特定のプロセスに関連する子ラベルをグループ化するために使用する「Process」などの親ラベルは、 親ラベルとしては不適切な選択です。 「プロセス」自体は 抽象的な概念 であり、モデルがそれ自体でうまく予測するものではありません。 ビジネスのコンテキストでは、何かが関連する 特定のプロセスの 名前は (逐語的なテキストから識別できます)、 便利な親ラベルになります。 有用なブランチラベルと子ラベルは、メインの親プロセスの関連するサブプロセスになる可能性があります。

どの概念を親ラベルにし、どの概念を子ラベルにするかを選択するにはどうすればよいですか?

場合によっては、分類の構造に関して難しい選択をしなければならないことがあります。 たとえば、ラベルを親ラベルにするか子ラベルにするかは、論理的には独自のサブカテゴリを持つ広範な親カテゴリにしたり、別の広範な親カテゴリの特定のサブカテゴリにしたりする可能性があるため、選択するのが難しい場合があります。

たとえば、 ホテルのレビュー で構成されるデータセットを想像してください-休日とホテルのさまざまな側面(レストラン、バー、部屋、アクティビティなど)の価格について議論する多くのレビューが存在する可能性があります。

論理的には、親ラベルとして「価格設定」を持ち、価格設定の特定の側面(例: レストラン) を子ラベルとして使用します。

ただし、「レストラン」や「部屋」などの特定の側面に関連する親ラベルを付け、それぞれの下に子ラベルとして「価格」を表示することもできます。

それで、あなたはどちらを選ぶべきですか?

決定するときは、いくつかのことを考慮すると便利です。

  • この幅広いトピックに関連してキャプチャしたい他の概念が他にも多数ある可能性がありますか? はいの場合は、親ラベルである必要があります
  • MIまたはレポートの観点から追跡する最も重要なことは何ですか? この例を考えると、Communications Mining 分析で、価格設定とそのサブカテゴリについて話している人の数を正確に明確に確認できる方が便利ですか? それとも、客室、レストラン、アクティビティなどのフィードバックに関する全体的な統計を確認する方が、価格設定がそれらの1つの側面である方が役立ちますか?

これらの状況では必ずしも正しい答えや間違った答えがあるわけではありません-それはあなたとあなたのビジネスにとってより重要なものに帰着します。

ラベルで実際に何をキャプチャできますか?

ここまでは、ラベルに名前を付けて階層構造に構造化する方法について説明してきましたが、ラベルは正確に何をキャプチャする必要があるのか 疑問に思われるかもしれません

Communications Mining は 自然言語処理 ツールであることを覚えておくことが重要です。 プラットフォームは、ラベルが割り当てられた各逐語を読み取って解釈し、 主にその中のテキストに基づいてそのラベルの概念を識別する方法の理解を形成し始めます。

各ラベルに 多様で一貫性のある例を追加する と、モデルはそのラベルの概念についての 理解を深めます 。 ラベルを追加すると、ラベルのパフォーマンスが向上すると、収益が減少するプロセスになります。 ラベルに対して 信頼度の高い予測 を大量 に受け入れても 、モデルに新しい情報は得られないため 、避けるべき方法です。

Communications Mining は、ラベルの概念を構成するものを理解し識別するために逐語的な言語を使用するため、ラベルは、適用される逐語的なテキストのテキスト (つまり言語) から明確に識別できる必要があります電子メールの場合、これには電子メールの件名本文が含まれます。

キャンセル>確認>終了」というラベルが適用された以下のメールの例をご覧ください。 このラベルは、電子メールの 件名 と 本文 から 明確に推測できます

予測を行う際にモデルが考慮するテキストを逐語的に強調表示したメールの例

モデル では 、トレーニング時に特定のメタデータ プロパティ、特にセンチメントの理解に役立つ NPS スコア (顧客フィードバック データセットの場合) など) を考慮に入れることができますが、Communications Mining モデルで考慮される 最も重要なデータは 、 逐語的なテキスト です。

注:

このモデルでは、電子メールの 特定の送信者または受信者のアドレス は考慮されない ため、電子メールに逐語的に適用するラベルを決定する際には、これを 一切使用しないでください 。

つまり、各ラベルがキャプチャしようとしている内容が 具体的 であることが重要です 。そうしないと、モデルはラベルの概念を予測するのに役立つ言語の傾向やパターンを識別できません。

非常に幅広いラベルの使用を避ける必要があるのはなぜですか?

一般的なクエリ 」や「 その他すべて 」などの非常に 広範なラベル は、多くの異なる個別のトピックをグループ化するために使用され、モデルに提供される例の間に明確なパターンや共通点がない場合、 非常に役に立たない可能性があります 。

モデルがラベルを適切に予測する場合、ラベルによってキャプチャされた各概念の異なる表現の複数の類似した例が必要です。 したがって、非常に広範なラベルでは、適切に予測するために非常に多数の例が必要です

通常、 幅の広い ラベルを個別のラベルに分割する方がはるかに良い方法です-「[さまざまな子ラベル]>他のすべて」がある場合でも。

(非常に広範な親カテゴリと比較して) より具体的で明確に識別できるため、モデルが子ラベルをより適切に識別できる場合、実際には親ラベルを予測する能力も大幅に向上させることができます。

ラベルの説明

モデル構築プロセス全体でラベルの一貫性を維持する最善の方法の 1 つは、各ラベルに 概念の説明 を追加することです。これは、データセットの [設定] ページの [ラベルとエンティティ] 内で行うことができます。 これは、複数のユーザーがモデルをトレーニングする場合に特に役立ち、特定のラベルとそれに関連する概念について全員が同じ理解を持つのに役立ちます。 また、モデルを別の個人に引き渡す必要がある場合にも役立ちます。

データセット設定ページでのラベルの説明例

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.