communications-mining
latest
false
- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining
- ライセンス情報
- よくある質問など
タクソノミーの設計のベスト プラクティス
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。

Communications Mining ガイド
最終更新日時 2025年2月10日
タクソノミーの設計のベスト プラクティス
タクソノミーの重要な要素
-
ラベルの数: 一般的なデータセットのラベルの数は約 50 個から 100 個ですが、この数はデータセットの目的によって異なります。効果的なユース ケースでは 50 個よりずっと少なくて済む可能性があります。1 つのデータセットのラベルの数には 200 個の制限があります。このポイントを超えると、タクソノミーの管理とトレーニングが非常に困難になり、パフォーマンスの低下につながるからです。
- ラベル名: ラベル名は、生成 AI によるアノテーション機能によってトレーニング プロセスを高速化および改善するためにトレーニングの入力として使用されるので、簡潔でわかりやすいものにする必要があります。ラベル名はいつでも編集できますが、プラットフォームの UI に効果的に表示できるよう、すべてのラベルに対して 64 文字 (階層のレベルを含む) の文字数制限があります。
- ラベルの説明: 自然言語の説明をラベルに追加します。自然言語の説明は、生成 AI によるアノテーション機能によって自動トレーニングの入力として使用されるためです。また、複数のモデル トレーナー間でアノテーションの一貫性を確保したり、分析目的でデータセットを表示している他のユーザーに有益なコンテキストを提供したりするのにも役立ちます。
タクソノミーを構成する
以下のベスト プラクティスに従ってタクソノミーを適切に構成し、高いモデル パフォーマンスを確保することをお勧めします。
- 目的との整合性をとる: 各ラベルが特定の業務目的に叶っていて、定義されている目的との整合性がとれていることを確認します。データセットが自動化を目的としている場合は、ラベルの多くが、下流での処理に必要な特定の要求に一致している必要があります。データセットが分析 (または自動化と分析の両方) を目的としている場合は、問題の種類、根本原因、サービス品質の問題 (催促のメッセージ、エスカレーション、紛争など) といった概念をカバーするラベルを追加で含めます。
- 一意にする: 各ラベルは具体的で、他のラベルと重複しないようにする必要があります。
- 具体的にする: 広範な概念や曖昧な概念、紛らわしい概念は避けてください。パフォーマンスや提供されるビジネス価値が低下する可能性が高くなるためです。可能であれば、広範なラベルを複数の一意のラベルに分割します。広範なラベルを手動で分割するよりも、具体的なラベルから始めて (階層のレベルを増やすなど)、後で必要に応じてラベルを結合します。
- 識別可能にする: ラベルが適用されるメッセージのテキストから、各ラベルを明確に識別できることを確認します。
- 親ラベルを使用する: より広範なトピックと関係がある類似する概念が多数あることが予想される場合は、親ラベルを使用します。
- 子ラベルを使用する: 別のラベルの下に入れ子にしたすべてのラベルが、そのラベルのサブセットであることを確認します。
- 階層レベルを制限する: モデルのトレーニングが非常に複雑になるため、4 レベルを超える階層を追加しないようにします。
- 有益ではないラベルを含める: 付加価値のないラベル (お礼のメールなど) をいくつか作成し、重要で分析すべきものと、重要ではなく分析すべきではないものをプラットフォームに伝えます。