ixp

latest

false

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

Communications Mining ガイド

データ要件を理解する

概要

このセクションでは、トレーニングエクスペリエンスを最適化し、分析と自動化によって提供される価値を最大化するために必要なコミュニケーションデータの量のガイドラインを示します。

自身のユースケースのデータ量を決定する際は、次の要素を考慮してください。

投資利益率 (ROI)
複雑さ
技術的な制限
重要:
このセクションで推奨されているデータ量は、ユースケースのパフォーマンスを確保するためにアノテーションを行う必要がある予想データ量ではありません。そうではなく、この量が表すのは、十分で多様なトレーニング例を取得するために必要な関連データです。一般に、微調整や検証のためにアノテーションを行う必要があるのは、メッセージの全体量のごく一部のみです。

投資利益率

Communications Mining™ の実装を最大限に活用するには、大量のユースケースから開始することをお勧めします。このようなケースでは、履歴分析、ライブ監視、自動化のいずれにおいても、大量のメッセージデータを効率的に処理できる Communications Mining の能力を活かすことができます。

メッセージの量が増えても、ユースケースをデプロイするのに必要な労力が大幅に増加することはありません。したがって、大量のユースケースのほうが、少量のユースケースと比較して実装の労力の点で投資利益率が高い傾向があります。リソースに限りがある組織や、実装に外部のサポートが必要な組織にとって、この点は重要です。

ただし、ビジネス価値が高い少量のシナリオがある場合は、そのユースケースも検討する必要があります。少量のユースケースの多くは技術的に実現可能であり、無視すべきではありません。

複雑さ

多くのユースケースには、ラベルおよび抽出するフィールドの数や複雑さの点で一定レベルの複雑さがあり、非常に少量のメッセージにはあまり適しません。その理由は、多様で複雑な概念やフィールドから成るデータセットでは例が十分になく、Communications Mining™ の専門化されたモデルを効果的に微調整および検証できない可能性があるためです。これは、生成 AI によるアノテーションで提供される自動トレーニングと、モデルトレーナーがアノテーションを行う追加の例のどちらにも当てはまります。

ユースケースによっては技術的に実現可能で十分な例が含まれることもありますが、量が少ないと、モデルトレーナーのアノテーションエクスペリエンスが低下することがあります。Communications Mining のアクティブラーニングモードでは、データプールが大きいほど、アノテーションを行う有用な例を簡単に特定して明らかにすることができます。データプールが小さいと、タクソノミー全体を網羅する質の高い例を十分に作成できない可能性があります。質の高い例が少ないと、ユーザーはわかりにくい例や複雑な例にアノテーションを行わざるを得なくなります。

技術的な制限

複雑さと ROI に基づく考慮事項を踏まえてユースケースを評価および実装する前に、Communications Mining™ の技術的な制限について検討する必要があります。

Communications Mining でクラスターを生成するには、1 つのデータセット内に 2048 個以上のメッセージが必要です。データセットは複数の類似するソースで構成できます。メッセージ数が 2048 個未満のデータセットでは、クラスターと、クラスターに対して生成されるラベルの提案を除き、Communications Mining のすべての機能を使用できます。

メッセージが 2048 個未満のユースケースは、ラベルまたはフィールドの数と複雑さの点で非常にシンプルである必要があります。また、大量のユースケースと比較して、微調整や検証プロセスのためにアノテーションを行う合計メッセージの割合がはるかに高くなることも予想する必要があります。一部のラベルやフィールドの発生頻度が高くない場合、例が不十分であるためラベルやフィールドにアノテーションを行うことができない可能性があります。

検証データを意味のあるものにするには、Communications Mining では、ラベルとフィールドにつき少なくとも 25 個のアノテーション済みの例が必要です。したがって、利用可能なデータから少なくともこの数の例を取得できることを確認してください。

データ量が少ない場合の推奨事項

以下の推奨事項は、データ量は少ないものの、価値が高いか複雑さが低いユースケース、あるいはその両方のユースケースに関係します。

一般に、ユースケースの複雑さがメッセージデータの量に見合っている場合、ユースケースは期待どおりに機能します。非常に量が少ないユースケースは非常にシンプルである一方、量が多いユースケースはより複雑になる可能性があります。

場合によっては、1 年分を超える関連データを同期すると、トレーニングに十分な、質の高い例を取得できます。これには、傾向とアラートの点で分析が向上するという利点もあります。

注:

関連データとは、以下を意味します。

古すぎないデータ (2 年以上前のデータなど)。
ユースケースに関連するデータ。たとえば、送信メールが自分に関係がない場合、システムはそのメールをカウントしません。

メッセージ数が履歴の量または年間全体で 20,000 メッセージ未満のユースケースは、複雑さ、ROI、およびユースケースをサポートおよび有効化するために必要な労力の観点から慎重に検討する必要があります。このようなユースケースは、これらの考慮事項に基づくと不適格になる可能性がありますが、それでも作業を進めるのに十分なビジネス価値を提供できます。

ユースケースの複雑さのガイドライン

すべてのユースケースは固有であるため、あらゆる複雑さのシナリオに合致する単一のガイドラインはありません。ラベルとフィールド自体は、理解と抽出の点で非常に単純なものから複雑なものまで多岐にわたります。

次の表は、ユースケースの複雑さに関する大まかなガイドラインをまとめたものです。

複雑さ	ラベル	抽出フィールド	一般フィールド
非常に低い	約 2 から 5 個	N/A	1 - 2
低 (Low)	約5〜15	1 - 2 (ラベルが少ない場合)	1 - 3
中	15 から 50 の間	1 - 5 (ラベルが複数ある場合)	1 - 5 *
高 (High)	50以上	1 - 8 以上 (ラベルの割合が高い場合)	1 - 5 *

抽出フィールドを使用するユースケースでは、一般フィールドではなく抽出フィールドを利用する必要があります。抽出フィールドを使用しない場合は、一般フィールドが増えることが予期できますが、同等の値は付加されない可能性があります。

概要

次の要約の表は、データ量が少ないユースケースのガイドラインをまとめたものです。

表 1.
メッセージの数*	制限事項	推奨
2048 未満	クラスターとラベルの提案は利用できないデータが不十分であるため、分析によっては意味のあるものにできない ROI がきわめて低い可能性が高い	次の目的にのみ使用することをお勧めします。テスト
2048 - 20,000	量が少ないため、アクティブラーニングから得られる価値が限定される可能性が高いデータが不十分であるため、複雑なユースケースをサポートできない可能性が高い ROI が低い可能性が高い	主に次の目的に使用することをお勧めします。 POC 複雑さが低いユースケース AI Center からの移行のユースケース
20,000 - 50,000	非常に複雑なユースケース (少なくとも一部の複雑なフィールドまたはラベル) にはデータが不十分である可能性がある複雑さによっては ROI が低下する可能性がある	主に次の目的に使用することをお勧めします。複雑さが低から中程度のユースケース複雑さの高い一部のユースケース AI Center からの移行のユースケース

*通常、トレーニング例の取得元にする関連データの量において、アノテーションが行われている合計量の割合はごくわずかです。この割合は通常、量が少なく複雑さが高いユースケースほど高くなります。

概要
投資利益率
複雑さ
技術的な制限
データ量が少ない場合の推奨事項
ユースケースの複雑さのガイドライン
概要

このページは役に立ちましたか?

前へラベルの感情分析を有効化したトレーニング

次へトレーニング

Communications Mining ガイド

概要​

投資利益率​

複雑さ​

技術的な制限​

データ量が少ない場合の推奨事項​

ユース ケースの複雑さのガイドライン​

概要​

このページは役に立ちましたか?

概要

投資利益率

複雑さ

技術的な制限

データ量が少ない場合の推奨事項

ユースケースの複雑さのガイドライン

概要