Communications Mining ガイド

最終更新日時 2026年2月2日

検証の仕組み

手記： Automation Cloud ユーザーとして [ソース] - [読み取り ] 権限と [データセット] - [読み取り ] 権限、またはレガシユーザーとして [ ソースの表示 ] 権限と [ラベルの表示 ] 権限を割り当てておく必要があります。

検証では、データセットに関連付けられているラベルモデルと一般フィールドモデルの両方のパフォーマンスが評価されます。

特にラベルモデルについては、次のようなさまざまなパフォーマンス要因をテストして、全体的なモデルの評価が計算されます。

モデルが、データセット内のトレーニングデータのサブセットを使用して、タクソノミー内の各ラベルをどの程度適切に予測できるか
データセット全体が有益なラベル予測によってどの程度網羅されているか
トレーニングデータがどのように割り当てられているか、およびデータセット全体をどの程度適切に代表しているかという観点から、トレーニングデータのバランスがどの程度取れているか

ラベルのパフォーマンスを評価する

各ラベルをどの程度適切に予測できるかを評価するため、最初に、データセット内の確認済みのメッセージ、つまりアノテーション済みのメッセージが以下のグループに分割されます。

トレーニングデータの多数派のセットです。
テストデータの少数派のセット。

次の図では、色付きのドットは、データセット内のアノテーション済みメッセージを表しています。この分割は、メッセージがデータセットに追加されるときにメッセージの ID によって決定され、データセットの存続期間を通して一貫性が維持されます。

その後、プラットフォームはトレーニングセットのみをトレーニングデータとして使用して自身をトレーニングします。

続いて、このトレーニングに基づいて、テストセット内のメッセージに適用すべきラベルを予測しようと試みます。また、適合率と再現率の両方について、人間のユーザーが適用した実際のラベルに照らしてその結果を評価します。

このプロセスに加えて、プラットフォームは、ラベルがどのように割り当てられたか (つまり、ラベルを適用するときにどのトレーニングモードが使用されたか) も考慮して、偏った方法でアノテーションが行われているか、それともバランスのとれた方法でアノテーションが行われているかを理解します。

その後、最新のモデルバージョンのラベルのパフォーマンスに関するライブ統計情報が [検証] で公開されますが、以前にピン留めされたモデルバージョンの過去のパフォーマンス統計情報も表示できます。

カバレッジの評価

モデルがどの程度十分にデータを網羅しているかを理解するために、データセット内にあるすべての未確認のデータと、その未確認のメッセージそれぞれに対して行われた予測が調べられます。

次に、有益なラベルが少なくとも 1 つ予測されているメッセージの合計の割合を評価します。

有益なラベルとは、他のラベルと一緒に割り当てられている頻度を調べることで、スタンドアロンのラベルとして有用であるとプラットフォームが理解したラベルのことです。常に別のラベルとともに割り当てられているラベル (たとえば、単独で割り当てられることのない親ラベルや、常に別のラベルとともに割り当てられている場合の [緊急]) は、スコアの計算時に重み付けが下げられます。

バランスの評価

お使いのモデルがどの程度バランスがとれているかを評価する場合、基本的には、トレーニングデータとデータセット全体との間のアンバランスの原因となり得るアノテーションの偏りが検索されます。

このために、アノテーションの偏りモデルを使用して、確認済みのデータと未確認のデータを比較し、アノテーションが行われたデータがデータセット全体を代表していることが確認されます。データが代表的ではない場合、モデルのパフォーマンス指標は誤解を招くものになり、信頼できない可能性があります。

アノテーションの偏りは通常、ラベルの割り当てに使用したトレーニングモードのバランスがとれていなかった結果です。特に、[テキスト検索] を使用しすぎてシャッフルモードを十分に使用していない場合にあてはまります。

リバランス トレーニングモードは、確認済みのセット内の代表性の低いメッセージを示します。このモードで例にアノテーションを行うと、データセット内のアンバランスに素早く対処できます。

検証の発生時

データセット内で何らかのトレーニングを完了するたびにモデルが更新され、すべてのメッセージで新しい予測を提供します。これと並行して、モデルのパフォーマンスも再評価します。つまり、新しい予測が準備できるころには、最新のものを含め、新しい検証の統計情報も利用可能になります (ただし、一方のプロセスに他方よりも時間がかかる場合もあります)。

注: 既定では常に、計算が完了した最新の検証統計が表示され、新しい統計情報の計算がまだ完了していない場合は通知されます。