communications-mining

latest

false

API ドキュメント
CLI
連携ガイド
ブログ
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining による注釈バイアスの修正
- アクティブラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 会話型データインテリジェンスのための Communications Mining と Google AutoML の比較

重要 :

Communications Mining は UiPath IXP の一部となりました。詳しくは、ユーザーガイドの「はじめに」セクションをご覧ください。このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

Communications Mining 開発者ガイド

最終更新日時 2025年2月10日

会話型データインテリジェンスのための Communications Mining と Google AutoML の比較

NLPとMLの力を活用してプロセスを自動化し、より良い分析を取得し、企業が行う会話をより深く理解することになると、通常、最初の決定はソリューションを購入するか、独自のソリューションを構築するかです。

この投稿では、 Communications Mining プラットフォームのパフォーマンスと設計哲学を、最も強力なクラウドNLPソリューションの1つである GoogleのAutoMLと比較します。

専用のエンタープライズ通信インテリジェンス製品を使用するプロセスと、より汎用的なツールを使用する場合と比較して、いくつかの洞察を提供し、どのようなトレードオフが予想されるかを提供したいと考えています。

デザイン哲学

Communications Mining と Google AutoML はどちらも、ラベルを会話に関連付ける注釈付きトレーニングデータセットをユーザーが作成する必要があるソリューションです。トレーニングデータの品質によって、そのトレーニング済みモデルから返される予測の品質が決まります。

ヒント:

高品質のトレーニングデータの鍵は、ラベル を一貫して適用 し、予測を行う ドメインを正確に表 すことです。

Communications Mining と Google AutoML の 1 つ目の大きな違いは、製品の使用方法に関する設計哲学です。

タスクに注釈を付ける vs アクティブラーニング

AutoML フローでは、注釈付きデータセットをオフラインで作成し、それをアップロードしてモデルのトレーニングに使用します。データセットの注釈付けはコストのかかる操作であり、多くの事前作業が必要です。ラベルの作成方法はAutoMLの範囲外ですが、考えられる解決策の1つは、注釈をサードパーティにアウトソーシングすることです。 Googleはこの目的のために Aannotatingタスクを提供しており、AutoMLと統合されているか、Amazonの Mechanical Turkを使用できます。

これは、いくつかの理由で最適ではありません

サードパーティのアクセスは、多くの場合、機密性の高い内部会話の初心者ではありません。
企業のコミュニケーションの複雑さを完全に把握するために必要な関連する洞察を持っていない人々に注釈付けを外部委託することは望ましくない場合があります
ドメインのコンテキスト知識は、高品質のトレーニングデータの鍵です。たとえば、誰でも猫や犬の画像に注釈を付けることができますが、取引後の投資銀行の運用メールボックスからの電子メールには、対象分野の専門家(SME)が必要です。

Communications Mining では、注釈のないデータを大量にアップロードし、アクティブラーニングを使用して対話形式で注釈を作成することを推奨しています。インタラクティブなデータ探索と注釈付けは、企業の会話に存在するすべての興味深い情報とニュアンスを適切な粒度で真にキャプチャする一連のラベルを構築するための鍵であると考えています。

もちろん、開始点として使用したい大きな注釈付きデータセットがすでにある場合は、 cliツールを使用して注釈付きデータセットをアップロードすることもできます。

ウォーターフォールとアジャイルモデル構築

これら 2 つの設計哲学は、ウォーターフォールソフトウェア開発モデルとアジャイルソフトウェア開発モデルを彷彿とさせます。前者がプロジェクトを連続したチャンクに分割しているのに対し、後者は柔軟性を高め、優先順位の再評価を促します。

機械学習モデルを作成するために AutoML によって使用されるウォーターフォールモデル docs image

大規模な注釈付きデータセットが事前に必要な場合、最初のステップは、NLPモデルによってキャプチャされるラベル/概念を決定することです。重要なのは、この決定は、実質的なデータ探索の前に行う必要があるということです。

対話型のアプローチは、データセットに注釈を付けるときに新しい概念を発見するための扉を開きます。既存の概念を具体化することも、以前は見過ごされていたまったく新しい概念を発見することもできます。中小企業が要件によってキャプチャされなかった新しい概念を発見した場合、ウォーターフォールモデルではこの新しい情報を適応させて組み込むことができず、最終的にはモデルが悪化します。

Communications Mining がマシンラーニングモデルの作成に使用するアジャイルモデル docs image

モデルが予期しない方法で失敗することが多く、モデルの検証が困難なプロセスである機械学習の世界では、ウォーターフォール手法は脆弱すぎて、モデルを本番環境に確実にデプロイするにはイテレーション時間が長すぎる可能性があります。

AutoML は、各ラベルの偽陽性と偽陰性を明らかにすることで、モデルを改善する方法に関するいくつかのヘルプを提供します。 Communications Mining では、各ラベルに対して一連の警告および推奨アクションが用意されています。これにより、ユーザーはモデルの故障モードをより深く理解し、最速でモデルを改善することができます。

データモデル

AutoML と通信マイニングが異なるもう 1 つの軸は、使用するデータモデルです。 AutoML は、入力とターゲットの両方に対して非常に汎用的な構造を提供します。 Communications Mining は、自然言語によって媒介される主要な通信チャネルに対して最適化されています。

半構造化された会話

ほとんどのデジタル会話は、次のいずれかの形式で行われます。

メール
チケット
Chats
電話
フィードバック/レビュー/調査

これらはすべて半構造化形式であり、含まれているテキスト以外の情報が含まれています。電子メールには、送信者と一部の受信者、および件名があります。チャットにはさまざまな参加者とタイムスタンプがあります。レビューには、スコアなどのメタデータが関連付けられている場合があります。

AutoML には、トレーニング例をアップロードするときにこれらの半構造化された情報を表す標準的な方法はなく、テキストのみを処理します。 Communications Mining は、電子メールの構造と、ユーザープロパティによる任意のメタデータフィールドに対するファーストクラスのサポートを提供します。

以下の例に示すように、エンタープライズメールには、メールの実際の内容よりもはるかに長くなる可能性のある大きな署名や免責事項が含まれていることがよくあります。 AutoML には署名の削除ロジックがないため、Communications Mining を使用して署名を解析してから AutoML に渡しました。最新の機械学習アルゴリズムは、シグネチャによるノイズを非常にうまく処理できますが、人間のラベラーについては同じことは言えません。興味深いテーマを適用して識別するラベルがないか電子メールを解析しようとすると、長い署名を無視しなければならないという認知的負荷は無視できず、ラベルの品質が低下する可能性があります。

投資銀行の電子メールの例。電子メールには、件名、送信者、受信者、いくつかのメタデータフィールド、および長い署名があります docs image

関連概念:

企業の会話内の概念が独立していることはめったになく、多くの場合、ラベルを構造化されたラベル階層にグループ化する方が自然です。たとえば、eコマースプラットフォームでは、人々が配達についてどう思うかを把握し、Delivery>Speed Delivery>Cost Delivery>Trackingなどのサブラベルを作成できます。より詳細な分析情報を得るには、Delivery>Cost>Free Shipping Delivery>Cost>Taxes & Customsなどさらに内訳が発生する可能性があります。

ラベルを階層にグループ化すると、ユーザーは注釈を付けている内容をより明確に把握し、定義しているラベルのより良いメンタルモデルを持つことができます。また、ラベルは自動的に親に集約されるため、当然、より優れた分析と自動化が可能になります。前の例では、子ラベルについて明示的に何もしなくても、最上位の Delivery ラベルの分析を追跡できます。

AutoML では、構造化ラベルはサポートされず、代わりにラベル間の完全な独立性を前提としています。これはNLPラベルの最も汎用的なデータモデルですが、半構造化された会話を最適に処理するために必要な特異性に欠けていると考えています。

ラベル構造に加えて、テキストのセンチメントは、フィードバックやアンケート分析にとって興味深いことがよくあります。 Googleは別のセンチメントモデルを提供しており、ユーザーは既製のセンチメントモデルを使用して、入力のグローバルセンチメントを提供できます。ただし、複雑な自然言語の場合、複数の感情を同時に持つことは非常に一般的です。たとえば、次のフィードバックについて考えてみます。

同じ文で表現されている極性の異なる2つの概念があるため、グローバルな感情を定義することは困難です。 Communications Mining は、この問題に正確に対処するためのラベルごとのセンチメントを提供します。上記のフィードバックは、選挙については肯定的であるが、在庫の入手可能性については否定的であると注釈付けできるため、感情とそれらが何に関連するかの両方を捉えることができます。

AutoML では、各ラベルの Positive バージョンと Negative バージョンを作成することで同様のことを行うことができますが、これらが同じラベルの 2 つのバージョンであることを示す方法がないため、2 倍のデータに注釈を付ける必要があります。

同一の入力

もう1つの興味深い観察は、入力の重複排除に関するものです。一般に、マシンラーニングモデルを検証するときは、トレーニングセットとテストセットを厳密に分離してデータ漏えいを防ぐことが重要です。これにより、パフォーマンスの推定が楽観的になり、デプロイ時に予期しないエラーが発生する可能性があります。

AutoML は入力の重複を自動的に排除し、重複した入力があることをユーザーに警告します。汎用NLP APIには適切なアプローチですが、会話型データには当てはまりません。

不在メッセージから会議のリマインダーまで、内部で送信される多くの電子メールは自動生成されます。調査の結果を分析するとき、特に次のような狭い質問では、多くの人がまったく同じことに答えることは完全に可能です

Is there anything we could do to improve? → No.

これは、これらの重複する入力の多くが実世界の分布で正当に複製されていることを意味し、これらのよく知られた、厳密に同一の入力でモデルがどの程度うまく機能するかを評価することが重要です。

実験

トップレベルの違いについて説明したので、両方の製品の生のパフォーマンスを評価して、本番環境対応のモデルをデプロイするのにどちらの作業が少なくて済むかを確認したいと思います。

セットアップ

私たちは、比較を可能な限り公平にすることを目指しています。 3つのコアエンタープライズNLPユースケースを代表する3つのデータセットのパフォーマンスを評価します

	Size	割り当てられたラベル	一意のラベル
投資銀行のメール	1368	4493	59
保険引受メール	3964	5188	25
Eコマースフィードバック	3510	7507	54

データを以下のように処理しました

データ形式。 Communications Mining では、組み込みのメールサポートを使用します。 AutoML ではテキストの BLOB を想定しているため、電子メールの構造を表すために、次の形式を使用し Subject: <SUBJECT-TEXT> Body: <BODY-TEXT>
署名のストリッピング。 すべての電子メール本文は、機械学習モデルに渡される前に、署名を取り除くために前処理されました。

AutoML 注釈付けタスクは機密の内部データには適用できないため、Communications Mining アクティブラーニングプラットフォームで SME によって注釈が付けられたラベルを使用して、両方のモデルのトレーニングに使用する教師ありデータを作成します。

注:

これらのデータセットは、その代表的な性質のために選択し、サンプリングバイアスやチェリーピッキングを防ぐために、最初の結果が表示された後は変更しませんでした。

両方のプラットフォームを評価するために使用する固定のテストセットを保持し、まったく同じトレーニングデータで両方をトレーニングします。 AutoML では、ユーザーがトレーニングと検証の分割を手動で指定する必要があるため、 AutoML ドキュメントで提案されているように、検証として使用するトレーニングデータの 10% をランダムにサンプリングします。

メトリック

Communications Mining の検証ページは、ユーザーがモデルのパフォーマンスを把握するのに役立ちます。使用する主なメトリックは、平均平均精度です。 AutoML は、すべてのラベル予測の平均精度と、特定のしきい値での精度と再現率を報告します。

平均平均精度は、個々のラベルのパフォーマンスの重み付けされていない平均であるため、すべてのラベルのパフォーマンスをより適切に考慮しますが、平均精度、精度、再現率は、すべての入力とラベルにわたるモデルのグローバルな動作をキャプチャするため、一般的に発生するラベルをより適切に表します。

以下の指標を比較します。

平均平均精度 Communications Mining で使用されるメトリックです。ラベル全体のマクロ平均精度です
平均精度 AutoML で使用されるメトリックで、すべての予測のマイクロ平均精度です
F1スコア 精度と再現率だけでは、一方を他方と交換できるため、意味がありません。精度と再現率が等しく重要なタスクのパフォーマンスを表す F1 スコアを報告します。

興味のある読者は、関連するセクションで完全な精度-再現率曲線を見つけることができます。

結果

注:

Communications Mining は、すべてのベンチマークデータセットのすべてのメトリックで AutoML を平均 5 から 10 ポイント上回っています。 これは、コミュニケーションから学ぶことに特化したツールが、高性能なエンタープライズオートメーションと分析により適していることを明確に示しています。

AutoMLは汎用NLPタスクを処理するように構築されているため、特定のタスクを犠牲にして、テキストベースのタスクに適応するのに十分な柔軟性が必要です。さらに、転移学習を活用する多くの既製のソリューションと同様に、AutoML の最初の知識は、ソーシャルメディアやニュース記事で一般的に使用される日常的な言語に重点を置いています。つまり、エンタープライズコミュニケーションに適応させるために必要なデータの量は、Communications Mining のように、ほぼ類似した初期知識からの転移学習を活用できるエンタープライズコミュニケーションを扱うことを主な目的とするモデルよりもはるかに大きくなります。実際の影響という点では、これは、注釈付けに費やすSMEの時間の価値が高くなり、モデルから価値を引き出すまでの時間が長くなり、導入コストが高くなることを意味します。

低データ体制

完全なデータセットに加えて、少量のデータでトレーニングされたモデルのパフォーマンスも評価したいと考えています。トレーニングデータの収集は費用と時間のかかるプロセスであるため、NLPプラットフォームを選択する際には、データが与えられたときにモデルが向上する速度は重要な考慮事項です。

注:

データが少ない学習は、 少数ショット学習として知られています。具体的には、各ラベルについてK個の例から学習しようとする場合、これは通常、 Kショット学習として記される。

少数ショットのパフォーマンスを評価するために、各ラベルの例を5つと10つサンプリングして各データセットの小さなバージョンを作成し、それぞれ5ショットと10ショットのデータセットとして記録します。前述したように、Communications Mining は階層的なラベル構造を使用しています。つまり、お子様は親なしでは応募できないため、ラベルごとに 5 つの例を正確にサンプリングすることはできません。したがって、階層内のリーフラベルをサンプリングしてこれらのデータセットを構築するため、親は潜在的により多くの例を持つことができます。

これらのサンプルは完全にランダムに抽出され、Communications Mining プラットフォームに有利なアクティブラーニングバイアスはありません。

AutoML では、すべてのラベルに少なくとも 10 個の例がない限り、ユーザーはモデルをトレーニングできないため、5 ショットのパフォーマンスを報告することはできません

注:

低データ環境では、Communications Mining は、すべてのタスクのほとんどのメトリックで AutoML を大幅に上回ります。 Communications Mining の 5 ショットのパフォーマンスは、ほとんどのメトリックで既に 10 ショットの AutoML パフォーマンスと競合していることがわかります。

注釈付きのトレーニングポイントがほとんどない正確なモデルを持つことは、人間がはるかに早い段階でモデルとの共同作業を開始できることを意味し、アクティブラーニングループを強化できるため、非常に強力です。

AutoML のパフォーマンスが高い指標の 1 つは、カスタマーフィードバックの 10 ショットパフォーマンスの平均精度であり、AutoML のパフォーマンスは Communications Mining を 1.5 ポイント上回っています。

AutoML は汎用ツールであるため、散文のようなデータに最適であり、顧客からのフィードバックには、汎用ツールが苦労する重要な半構造化データやドメイン固有の専門用語が含まれていない傾向があり、これが AutoML がうまく機能する理由である可能性があります。

トレーニング時間

モデルのトレーニングは複雑なプロセスであるため、トレーニング時間は考慮すべき重要な要素です。高速なモデルトレーニングとは、イテレーションサイクルが速く、フィードバックループが緊密になることを意味します。つまり、人間がラベルを適用するたびにモデルの改善が速くなり、モデルから価値を引き出すのにかかる時間が短縮されます。

	Communications Mining	AUTOML
投資銀行のメール	1分32秒	4時間4分
Eコマースフィードバック	2分45秒	4時間4分
保険引受メール	55秒	3時間59分

注:

Communications Mining はアクティブラーニングのために構築されています。トレーニング時間は私たちにとって非常に重要であり、私たちのモデルは精度を損なうことなく高速トレーニングするように最適化されています。

AutoML モデルのトレーニングは、Communications Mining と比較して平均で ~200 倍低速です。

AutoML モデルのトレーニングには桁違いに長い時間がかかるため、アクティブラーニングループでの使用にはあまり適していません。イテレーション時間が非常に長いため、AutoML を改善するための最善の方法は、モデルの再トレーニングの間に大量の注釈を付けることになり、冗長なデータ注釈 (既に十分に理解されている概念のトレーニング例をもっと提供する) と不十分なデータ探索 (モデルが何を知らないかわからないと、より高い概念カバレッジを達成するのが難しくなります) のリスクがあります。

結論

エンタープライズNLPソリューションを構築する場合、モデルの生の予測力は、考慮する必要がある1つの側面にすぎません。 Communications Miningは、一般的なエンタープライズNLPタスクでAutoMLよりも優れていることがわかりましたが、私たちが得た主な洞察は、これらのプラットフォームが持つNLPへのアプローチの根本的な違いでした。

Communications Mining は、半構造化会話の分析に特化したツールです。これには、アジャイルフレームワークでモデルを最初から構築するために必要なコンポーネントがさらに含まれています。
AutoMLは汎用のNLPツールであり、効果を発揮するには他のコンポーネントと統合する必要があります。機械学習モデル構築用のウォーターフォールフレームワークで、既存の注釈付きデータを使用してモデルを構築することに重点を置きます。
どちらのツールも競争力の高い最先端のモデルを構築できますが、Communications Mining は、エンタープライズコミュニケーション分析で一般的な特定のタスクに適しています。

正確な要件を事前に定義できない限り、AutoML モデルの長いトレーニング時間は、Communications Mining が構築しているアクティブラーニングループで対話型データ探索を推進するには適していません。

モデルをトレーニングする前にラベルごとに 10 個の例を用意するという AutoML の要件は、非常に早い段階でモデルを効果的に使用して注釈を付けることができないことを意味し、これはまさに機械学習プロジェクトの最も難しい部分です。

さらに、AutoML と Communications Mining が期待するタスク間の分布のギャップは、転移学習のより焦点を絞った使用により、より具体的なツールがより高品質のモデルをより迅速に生成できることを意味します。

この比較に興味を持った場合、ご意見やご質問がある場合、あるいは Communications Mining を使用して自社の会話について理解を深めたい場合は、 UiPath までお問い合わせください。

精度-再現率曲線

Communications Mining モデルと AutoML モデルの動作の違いをより深く理解するために、平均精度などの最上位レベルのメトリックでは全体像を把握できません。このセクションでは、すべての比較の精度と再現率の曲線を提供し、読者が特定のパフォーマンスしきい値で期待できる精度と再現率のトレードオフを評価できるようにします。