ixp

latest

false

Communications Mining ガイド

最終更新日時 2025年11月10日

対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する

NLPとMLの力を活用してプロセスを自動化し、より良い分析を取得し、企業が行う会話をより深く理解することになると、通常、最初の決定はソリューションを購入するか、独自のソリューションを構築するかです。

この投稿では、 Communications Mining プラットフォームのパフォーマンスと設計哲学を、最も強力なクラウドNLPソリューションの1つである GoogleのAutoMLと比較します。

専用のエンタープライズ通信インテリジェンス製品を使用するプロセスと、より汎用的なツールを使用する場合と比較して、いくつかの洞察を提供し、どのようなトレードオフが予想されるかを提供したいと考えています。

デザイン哲学

Communications Mining™ と Google AutoML はどちらも、ラベルを会話に関連付けるアノテーション済みのトレーニングデータセットをユーザーが作成する必要があるソリューションです。トレーニングデータの品質によって、トレーニング済みのモデルから返される予測の品質が決まります。

ヒント:

高品質のトレーニングデータの鍵は、ラベル を一貫して適用 し、予測を行う ドメインを正確に表 すことです。

Communications Mining と Google AutoML の 1 つ目の大きな違いは、製品の使用方法に関する設計哲学です。

タスクに注釈を付ける vs アクティブラーニング

AutoML フローでは、注釈付きデータセットをオフラインで作成し、それをアップロードしてモデルのトレーニングに使用します。データセットの注釈付けはコストのかかる操作であり、多くの事前作業が必要です。ラベルの作成方法はAutoMLの範囲外ですが、考えられる解決策の1つは、注釈をサードパーティにアウトソーシングすることです。 Googleはこの目的のために Aannotatingタスクを提供しており、AutoMLと統合されているか、Amazonの Mechanical Turkを使用できます。

これは、いくつかの理由で最適ではありません

サードパーティのアクセスは、多くの場合、機密性の高い内部会話の初心者ではありません。
企業のコミュニケーションの複雑さを完全に把握するために必要な関連する洞察を持っていない人々に注釈付けを外部委託することは望ましくない場合があります
ドメインのコンテキスト知識は、高品質のトレーニングデータの鍵です。たとえば、誰でも猫や犬の画像に注釈を付けることができますが、取引後の投資銀行の運用メールボックスからの電子メールには、対象分野の専門家(SME)が必要です。

Communications Mining™ では、アノテーションなしの大量のデータをアップロードし、アクティブラーニングを使用して対話形式でアノテーションを作成することをお勧めします。UiPath では、対話型のデータ探索とアノテーションが、企業の会話に含まれるすべての興味深い情報やニュアンスを適切なレベルの粒度で真にキャプチャするラベルセットを構築するための鍵であると考えています。

もちろん、開始点として使用したい大きな注釈付きデータセットがすでにある場合は、 cliツールを使用して注釈付きデータセットをアップロードすることもできます。

ウォーターフォールとアジャイルモデル構築

これら 2 つの設計哲学は、ウォーターフォールソフトウェア開発モデルとアジャイルソフトウェア開発モデルを彷彿とさせます。前者がプロジェクトを連続したチャンクに分割しているのに対し、後者は柔軟性を高め、優先順位の再評価を促します。

機械学習モデルを作成するために AutoML によって使用されるウォーターフォールモデル docs image

大規模な注釈付きデータセットが事前に必要な場合、最初のステップは、NLPモデルによってキャプチャされるラベル/概念を決定することです。重要なのは、この決定は、実質的なデータ探索の前に行う必要があるということです。

対話型のアプローチは、データセットに注釈を付けるときに新しい概念を発見するための扉を開きます。既存の概念を具体化することも、以前は見過ごされていたまったく新しい概念を発見することもできます。中小企業が要件によってキャプチャされなかった新しい概念を発見した場合、ウォーターフォールモデルではこの新しい情報を適応させて組み込むことができず、最終的にはモデルが悪化します。

Communications Mining™ でマシンラーニングモデルの作成に使用されるアジャイルモデルです。 docs image

モデルが予期しない方法で失敗することが多く、モデルの検証が困難なプロセスである機械学習の世界では、ウォーターフォール手法は脆弱すぎて、モデルを本番環境に確実にデプロイするにはイテレーション時間が長すぎる可能性があります。

AutoML は、各ラベルの偽陽性と偽陰性を明らかにすることで、モデルを改善する方法に関するいくつかのヘルプを提供します。 Communications Mining では、各ラベルに対して一連の警告および推奨アクションが用意されています。これにより、ユーザーはモデルの故障モードをより深く理解し、最速でモデルを改善することができます。

データモデル

AutoML と Communications Mining™ が異なるもう 1 つの軸は、使用するデータモデルです。AutoML は、入力とターゲットの両方に対して非常に汎用的な構造を提供します。Communications Mining は、自然言語によって媒介される主要なコミュニケーションチャネルに対して最適化されています。

半構造化された会話

ほとんどのデジタル会話は、次のいずれかの形式で行われます。

メール
チケット
Chats
電話
フィードバック/レビュー/調査

これらはすべて半構造化形式であり、含まれているテキスト以外の情報が含まれています。電子メールには、送信者と一部の受信者、および件名があります。チャットにはさまざまな参加者とタイムスタンプがあります。レビューには、スコアなどのメタデータが関連付けられている場合があります。

AutoML には、トレーニング例をアップロードする際にこれらの半構造化された情報を表す標準的な方法はなく、テキストのみを扱います。Communications Mining™ は、メールの構造と任意のメタデータフィールドをユーザープロパティでファーストクラスでサポートします。

次の例に示すように、企業のメールには、メールの実際の内容よりもはるかに長い大きな署名や免責事項が含まれていることがよくあります。AutoML には署名を削除するロジックがないため、Communications Mining を使用して署名を解析してから AutoML に渡しました。最新の機械学習アルゴリズムは、シグネチャによるノイズを非常にうまく処理できますが、人間のラベラーについては同じことが言えません。メールを解析して、適用されるラベルを見つけて注目すべきテーマを識別しようとすると、長い署名を無視しなければならないという認知的負荷は無視できず、ラベルの品質の低下につながる可能性があります。

投資銀行の電子メールの例。電子メールには、件名、送信者、受信者、いくつかのメタデータフィールド、および長い署名があります docs image

関連概念:

企業の会話内の概念が独立していることはめったになく、多くの場合、ラベルを構造化されたラベル階層にグループ化する方が自然です。たとえば、eコマースプラットフォームでは、人々が配達についてどう思うかを把握し、Delivery>Speed Delivery>Cost Delivery>Trackingなどのサブラベルを作成できます。より詳細な分析情報を得るには、Delivery>Cost>Free Shipping Delivery>Cost>Taxes & Customsなどさらに内訳が発生する可能性があります。

ラベルを階層にグループ化すると、ユーザーは注釈を付けている内容をより明確に把握し、定義しているラベルのより良いメンタルモデルを持つことができます。また、ラベルは自動的に親に集約されるため、当然、より優れた分析と自動化が可能になります。前の例では、子ラベルについて明示的に何もしなくても、最上位の Delivery ラベルの分析を追跡できます。

AutoML では、構造化ラベルはサポートされず、代わりにラベル間の完全な独立性を前提としています。これはNLPラベルの最も汎用的なデータモデルですが、半構造化された会話を最適に処理するために必要な特異性に欠けていると考えています。

ラベル構造に加えて、テキストのセンチメントは、フィードバックやアンケート分析にとって興味深いことがよくあります。 Googleは別のセンチメントモデルを提供しており、ユーザーは既製のセンチメントモデルを使用して、入力のグローバルセンチメントを提供できます。ただし、複雑な自然言語の場合、複数の感情を同時に持つことは非常に一般的です。たとえば、次のフィードバックについて考えてみます。

グローバルな感情を定義することは、同じ文で表現されている異なる極性の2つの概念があるため、困難です。Communications Mining™ では、この問題に正確に対処するために、ラベルごとの感情が提供されます。以前のフィードバックは、選挙については肯定的であるが、在庫の入手可能性については否定的であると注釈を付けることができるため、両方の感情とそれらが何に関連するかを捉えることができます。

AutoML では、各ラベルの Positive バージョンと Negative バージョンを作成することで同様のことを行うことができますが、これらが同じラベルの 2 つのバージョンであることを示す方法がないため、2 倍のデータに注釈を付ける必要があります。

同一の入力

もう1つの興味深い観察は、入力の重複排除に関するものです。一般に、マシンラーニングモデルを検証するときは、トレーニングセットとテストセットを厳密に分離してデータ漏えいを防ぐことが重要です。これにより、パフォーマンスの推定が楽観的になり、デプロイ時に予期しないエラーが発生する可能性があります。

AutoML は入力の重複を自動的に排除し、重複した入力があることをユーザーに警告します。汎用NLP APIには適切なアプローチですが、会話型データには当てはまりません。

不在メッセージから会議のリマインダーまで、内部で送信される多くの電子メールは自動生成されます。調査の結果を分析するとき、特に次のような狭い質問では、多くの人がまったく同じことに答えることは完全に可能です

Is there anything we could do to improve? → No.

これは、これらの重複する入力の多くが実世界の分布で正当に複製されていることを意味し、これらのよく知られた、厳密に同一の入力でモデルがどの程度うまく機能するかを評価することが重要です。

実験

さて、主な違いについて説明したので、両方の製品の生のパフォーマンスを評価して、運用環境で使用できるモデルをデプロイするのに必要な労力が少ないのはどちらかを確認します。

セットアップ

私たちは、比較を可能な限り公平にすることを目指しています。 3つのコアエンタープライズNLPユースケースを代表する3つのデータセットのパフォーマンスを評価します

	Size	割り当てられたラベル	一意のラベル
投資銀行のメール	1368	4493	59
保険引受メール	3964	5188	25
Eコマースフィードバック	3510	7507	54

データを以下のように処理しました

データ形式。Communications Mining™ では、組み込みのメールサポートを使用します。AutoML はテキストの blob を予期するため、メールの構造を表すために次の形式を使用しました Subject: <SUBJECT-TEXT> Body: <BODY-TEXT>
署名のストリッピング。 すべての電子メール本文は、機械学習モデルに渡される前に、署名を取り除くために前処理されました。

AutoML 注釈付けタスクは機密の内部データには適用できないため、Communications Mining アクティブラーニングプラットフォームで SME によって注釈が付けられたラベルを使用して、両方のモデルのトレーニングに使用する教師ありデータを作成します。

注:

これらのデータセットは、その代表的な性質のために選択し、サンプリングバイアスやチェリーピッキングを防ぐために、最初の結果が表示された後は変更しませんでした。

両方のプラットフォームを評価するために使用する固定のテストセットを保持し、まったく同じトレーニングデータで両方をトレーニングします。 AutoML では、ユーザーがトレーニングと検証の分割を手動で指定する必要があるため、 AutoML ドキュメントで提案されているように、検証として使用するトレーニングデータの 10% をランダムにサンプリングします。

メトリック

Communications Mining™ の [検証] ページは、モデルのパフォーマンスを理解するのに役立ちます。使用する主要なメトリックは平均適合率の平均値です。AutoML では、すべてのラベル予測の平均適合率のほか、特定のしきい値での適合率と再現率が報告されます。

平均平均精度は、個々のラベルのパフォーマンスの重み付けされていない平均であるため、すべてのラベルのパフォーマンスをより適切に考慮しますが、平均精度、精度、再現率は、すべての入力とラベルにわたるモデルのグローバルな動作をキャプチャするため、一般的に発生するラベルをより適切に表します。

以下の指標を比較します。

平均適合率の平均値 Communications Mining™ で使用されるメトリックです。ラベル全体のマクロ平均適合率です。
平均精度 AutoML で使用されるメトリックで、すべての予測のマイクロ平均精度です
F1スコア 精度と再現率だけでは、一方を他方と交換できるため、意味がありません。精度と再現率が等しく重要なタスクのパフォーマンスを表す F1 スコアを報告します。

興味のある読者は、関連するセクションで完全な精度-再現率曲線を見つけることができます。

結果

注:

Communications Mining™ は、すべてのベンチマークデータセットのすべてのメトリックで、平均で 5 ポイントから 10 ポイントAutoML を上回っています。これは、コミュニケーションから学習することに特化したツールが、高パフォーマンスのエンタープライズオートメーションや分析に適していることを明確に示しています。

AutoMLは汎用NLPタスクを処理するように構築されているため、特定のタスクを犠牲にして、テキストベースのタスクに適応するのに十分な柔軟性が必要です。さらに、転移学習を活用する多くの既製のソリューションと同様に、AutoML の最初の知識は、ソーシャルメディアやニュース記事で一般的に使用される日常的な言語に重点を置いています。つまり、エンタープライズコミュニケーションに適応させるために必要なデータの量は、Communications Mining のように、ほぼ類似した初期知識からの転移学習を活用できるエンタープライズコミュニケーションを扱うことを主な目的とするモデルよりもはるかに大きくなります。実際の影響という点では、これは、注釈付けに費やすSMEの時間の価値が高くなり、モデルから価値を引き出すまでの時間が長くなり、導入コストが高くなることを意味します。

低データ体制

完全なデータセットに加えて、少量のデータでトレーニングされたモデルのパフォーマンスも評価したいと考えています。トレーニングデータの収集は費用と時間のかかるプロセスであるため、NLPプラットフォームを選択する際には、データが与えられたときにモデルが向上する速度は重要な考慮事項です。

注:

データが少ない学習は、 少数ショット学習として知られています。具体的には、各ラベルについてK個の例から学習しようとする場合、これは通常、 Kショット学習として記される。

少数ショットのパフォーマンスを評価するために、各ラベルの 5 つと 10 個の例をサンプリングして各データセットの小さなバージョンを作成し、これらをそれぞれ 5 ショットと 10 ショットのデータセットとして記録します。前述のように、Communications Mining™ では階層状のラベル構造を使用します。つまり、子は親なしでは適用できないため、ラベルごとに正確に 5 つの例をサンプリングすることはできません。したがって、階層内のリーフラベルをサンプリングしてこれらのデータセットを構築し、親が潜在的により多くの例を持つようにします。

これらのサンプルは完全にランダムに抽出され、Communications Mining プラットフォームに有利なアクティブラーニングバイアスはありません。

AutoML では、すべてのラベルに少なくとも 10 個の例がない限り、ユーザーはモデルをトレーニングできないため、5 ショットのパフォーマンスを報告することはできません

注:

低データ環境では、Communications Mining は、すべてのタスクのほとんどのメトリックで AutoML を大幅に上回ります。 Communications Mining の 5 ショットのパフォーマンスは、ほとんどのメトリックで既に 10 ショットの AutoML パフォーマンスと競合していることがわかります。

注釈付きのトレーニングポイントがほとんどない正確なモデルを持つことは、人間がはるかに早い段階でモデルとの共同作業を開始できることを意味し、アクティブラーニングループを強化できるため、非常に強力です。

AutoML のパフォーマンスが高いメトリックは、Customer Feedback の 10 ショットの平均適合率の平均値です。AutoML は Communications Mining™ を 1.5 ポイント上回っています。

AutoML は汎用ツールであるため、散文のようなデータに最適であり、顧客からのフィードバックには、汎用ツールが苦労する重要な半構造化データやドメイン固有の専門用語が含まれていない傾向があり、これが AutoML がうまく機能する理由である可能性があります。

トレーニング時間

モデルのトレーニングは複雑なプロセスであるため、トレーニング時間は考慮すべき重要な要素です。高速なモデルトレーニングとは、イテレーションサイクルが速く、フィードバックループが緊密になることを意味します。つまり、人間がラベルを適用するたびにモデルの改善が速くなり、モデルから価値を引き出すのにかかる時間が短縮されます。

	Communications Mining™	AUTOML
投資銀行のメール	1分32秒	4時間4分
Eコマースフィードバック	2分45秒	4時間4分
保険引受メール	55秒	3時間59分

注:

Communications Mining™ はアクティブラーニング用に構築されています。UiPath にとってトレーニング時間は非常に重要です。UiPath のモデルは、精度を損なうことなく素早くトレーニングできるように最適化されています。

AutoML モデルのトレーニングは、Communications Mining と比較して平均で ~200 倍低速です。

AutoML モデルのトレーニングには桁違いに長い時間がかかるため、アクティブラーニングループでの使用にはあまり適していません。イテレーション時間が非常に長いため、AutoML を改善するための最善の方法は、モデルの再トレーニングの間に大量の注釈を付けることになり、冗長なデータ注釈 (既に十分に理解されている概念のトレーニング例をもっと提供する) と不十分なデータ探索 (モデルが何を知らないかわからないと、より高い概念カバレッジを達成するのが難しくなります) のリスクがあります。

結論

エンタープライズ NLP ソリューションを構築する場合、モデルの生の予測能力は、考慮する必要がある 1 つの側面にすぎません。Communications Mining™ は、一般的なエンタープライズの NLP タスクでは AutoML よりも優れていることがわかりましたが、得られた主な洞察は、これらのプラットフォームが持つ NLP へのアプローチの根本的な違いでした。

Communications Mining は、半構造化会話の分析に特化したツールです。これには、アジャイルフレームワークでモデルを最初から構築するために必要なコンポーネントがさらに含まれています。
AutoMLは汎用のNLPツールであり、効果を発揮するには他のコンポーネントと統合する必要があります。機械学習モデル構築用のウォーターフォールフレームワークで、既存の注釈付きデータを使用してモデルを構築することに重点を置きます。
どちらのツールも競争力の高い最先端のモデルを構築できますが、Communications Mining は、エンタープライズコミュニケーション分析で一般的な特定のタスクに適しています。

正確な要件を事前に定義できない限り、AutoML モデルの長いトレーニング時間は、Communications Mining が構築しているアクティブラーニングループで対話型データ探索を推進するには適していません。

モデルをトレーニングする前にラベルごとに 10 個の例を用意するという AutoML の要件は、非常に早い段階でモデルを効果的に使用して注釈を付けることができないことを意味し、これはまさに機械学習プロジェクトの最も難しい部分です。

さらに、AutoML と Communications Mining が期待するタスク間の分布のギャップは、転移学習のより焦点を絞った使用により、より具体的なツールがより高品質のモデルをより迅速に生成できることを意味します。

この比較情報を参考にした場合、コメントや質問がある場合、または Communications Mining を使用して会社の会話をより深く理解したい場合は、 UiPath® にお問い合わせください。

精度-再現率曲線

Communications Mining™ モデルと AutoML モデルの動作の違いをより深く理解するには、平均適合率などの最上位のメトリックでは全体像を把握することはできません。このセクションでは、すべての比較の適合率と再現率の曲線を提供します。これにより、読者は特定のパフォーマンスのしきい値を考慮して、どのような適合率/再現率のトレードオフが期待できるかを評価できます。