- API ドキュメント
- CLI
- 連携ガイド
- ブログ
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining による注釈バイアスの修正
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 会話型データ インテリジェンスのための Communications Mining と Google AutoML の比較
会話型データ インテリジェンスのための Communications Mining と Google AutoML の比較
NLPとMLの力を活用してプロセスを自動化し、より良い分析を取得し、企業が行う会話をより深く理解することになると、通常、最初の決定は ソリューションを購入するか、独自のソリューションを構築するかです。
この投稿では、 Communications Mining プラットフォームのパフォーマンスと設計哲学を、最も強力なクラウドNLPソリューションの1つである GoogleのAutoMLと比較します。
専用のエンタープライズ通信インテリジェンス製品を使用するプロセスと、より汎用的なツールを使用する場合と比較して、いくつかの洞察を提供し、どのようなトレードオフが予想されるかを提供したいと考えています。
Communications Mining と Google AutoML はどちらも、ラベルを会話に関連付ける注釈付きトレーニング データセットをユーザーが作成する必要があるソリューションです。 トレーニング データの品質によって、そのトレーニング済みモデルから返される予測の品質が決まります。
高品質のトレーニング データの鍵は、ラベル を一貫して適用 し、予測を行う ドメインを正確に表 すことです。
Communications Mining と Google AutoML の 1 つ目の大きな違いは、製品の使用方法に関する設計哲学です。
タスクに注釈を付ける vs アクティブラーニング
AutoML フローでは、注釈付きデータセットをオフラインで作成し、それをアップロードしてモデルのトレーニングに使用します。 データセットの注釈付けはコストのかかる操作であり、多くの事前作業が必要です。 ラベルの作成方法はAutoMLの範囲外ですが、考えられる解決策の1つは、注釈をサードパーティにアウトソーシングすることです。 Googleはこの目的のために Aannotatingタスク を提供しており、AutoMLと統合されているか、Amazonの Mechanical Turkを使用できます。
これは、いくつかの理由で最適ではありません
-
サードパーティのアクセスは、多くの場合、機密性の高い内部会話の初心者ではありません。
-
企業のコミュニケーションの複雑さを完全に把握するために必要な関連する洞察を持っていない人々に注釈付けを外部委託することは望ましくない場合があります
-
ドメインのコンテキスト知識は、高品質のトレーニングデータの鍵です。 たとえば、誰でも猫や犬の画像に注釈を付けることができますが、取引後の投資銀行の運用メールボックスからの電子メールには、対象分野の専門家(SME)が必要です。
Communications Mining では、注釈のないデータを大量にアップロードし、アクティブ ラーニングを使用して対話形式で注釈を作成することを推奨しています。 インタラクティブなデータ探索と注釈付けは、企業の会話に存在するすべての興味深い情報とニュアンスを適切な粒度で真にキャプチャする一連のラベルを構築するための鍵であると考えています。
もちろん、開始点として使用したい大きな注釈付きデータセットがすでにある場合は、 cliツールを使用して 注釈付きデータセットをアップロードすることもできます。
ウォーターフォールとアジャイルモデル構築
AutoML は、各ラベルの偽陽性と偽陰性を明らかにすることで、モデルを改善する方法に関するいくつかのヘルプを提供します。 Communications Mining では、各ラベルに対して一連の警告および推奨アクションが用意されています。これにより、ユーザーはモデルの故障モードをより深く理解し、最速でモデルを改善することができます。
AutoML と通信マイニングが異なるもう 1 つの軸は、使用するデータ モデルです。 AutoML は、入力とターゲットの両方に対して非常に汎用的な構造を提供します。 Communications Mining は、自然言語によって媒介される主要な通信チャネルに対して最適化されています。
半構造化された会話
ほとんどのデジタル会話は、次のいずれかの形式で行われます。
-
メール
-
チケット
-
Chats
-
電話
-
フィードバック/レビュー/調査
これらはすべて半構造化形式であり、含まれているテキスト以外の情報が含まれています。 電子メールには、送信者と一部の受信者、および件名があります。 チャットにはさまざまな参加者とタイムスタンプがあります。 レビューには、スコアなどのメタデータが関連付けられている場合があります。
AutoML には、トレーニング例をアップロードするときにこれらの半構造化された情報を表す標準的な方法はなく、テキストのみを処理します。 Communications Mining は、電子メールの構造と、 ユーザー プロパティによる任意のメタデータ フィールドに対するファーストクラスのサポートを提供します。
以下の例に示すように、エンタープライズメールには、メールの実際の内容よりもはるかに長くなる可能性のある大きな署名や免責事項が含まれていることがよくあります。 AutoML には署名の削除ロジックがないため、Communications Mining を使用して署名を解析してから AutoML に渡しました。 最新の機械学習アルゴリズムは、シグネチャによるノイズを非常にうまく処理できますが、人間のラベラーについては同じことは言えません。 興味深いテーマを適用して識別するラベルがないか電子メールを解析しようとすると、長い署名を無視しなければならないという認知的負荷は無視できず、ラベルの品質が低下する可能性があります。
関連概念:
Delivery
>Speed Delivery
>Cost Delivery
>Tracking
などのサブラベルを作成できます。より詳細な分析情報を得るには、Delivery
>Cost
>Free Shipping Delivery
>Cost
>Taxes & Customs
などさらに内訳が発生する可能性があります。
Delivery
ラベルの分析を追跡できます。
AutoML では、構造化ラベルはサポートされず、代わりにラベル間の完全な独立性を前提としています。 これはNLPラベルの最も汎用的なデータモデルですが、半構造化された会話を最適に処理するために必要な特異性に欠けていると考えています。
ラベル構造に加えて、テキストのセンチメントは、フィードバックやアンケート分析にとって興味深いことがよくあります。 Googleは 別のセンチメントモデルを提供しており、ユーザーは既製のセンチメントモデルを使用して、入力のグローバルセンチメントを提供できます。 ただし、複雑な自然言語の場合、複数の感情を同時に持つことは非常に一般的です。 たとえば、次のフィードバックについて考えてみます。
Positive
バージョンと Negative
バージョンを作成することで同様のことを行うことができますが、これらが同じラベルの 2 つのバージョンであることを示す方法がないため、2 倍のデータに注釈を付ける必要があります。
同一の入力
もう1つの興味深い観察は、入力の重複排除に関するものです。 一般に、マシン ラーニング モデルを検証するときは、トレーニング セットとテスト セットを厳密に分離して データ漏えいを防ぐことが重要です。これにより、パフォーマンスの推定が楽観的になり、デプロイ時に予期しないエラーが発生する可能性があります。
AutoML は入力の重複を自動的に排除し、重複した入力があることをユーザーに警告します。 汎用NLP APIには適切なアプローチですが、会話型データには当てはまりません。
不在メッセージから会議のリマインダーまで、内部で送信される多くの電子メールは自動生成されます。 調査の結果を分析するとき、特に次のような狭い質問では、多くの人がまったく同じことに答えることは完全に可能です
Is there anything we could do to improve? → No.
これは、これらの重複する入力の多くが実世界の分布で正当に複製されていることを意味し、これらのよく知られた、厳密に同一の入力でモデルがどの程度うまく機能するかを評価することが重要です。
セットアップ
私たちは、比較を可能な限り公平にすることを目指しています。 3つのコアエンタープライズNLPユースケースを代表する3つのデータセットのパフォーマンスを評価します
Size |
割り当てられたラベル |
一意のラベル | |
---|---|---|---|
投資銀行のメール |
1368 |
4493 |
59 |
保険引受メール |
3964 |
5188 |
25 |
Eコマースフィードバック |
3510 |
7507 |
54 |
データを以下のように処理しました
-
データ形式。 Communications Mining では、 組み込みのメール サポートを使用します。 AutoML ではテキストの BLOB を想定しているため、電子メールの構造を表すために、次の形式を使用し
Subject: <SUBJECT-TEXT> Body: <BODY-TEXT>
-
署名のストリッピング。 すべての電子メール本文は、機械学習モデルに渡される前に、署名を取り除くために前処理されました。
AutoML 注釈付けタスクは機密の内部データには適用できないため、Communications Mining アクティブ ラーニング プラットフォームで SME によって注釈が付けられたラベルを使用して、両方のモデルのトレーニングに使用する教師ありデータを作成します。
これらのデータセットは、その代表的な性質のために選択し、サンプリングバイアスやチェリーピッキングを防ぐために、最初の結果が表示された後は変更しませんでした。
両方のプラットフォームを評価するために使用する固定のテスト セットを保持し、まったく同じトレーニング データで両方をトレーニングします。 AutoML では、ユーザーがトレーニングと検証の分割を手動で指定する必要があるため、 AutoML ドキュメントで提案されているように、検証として使用するトレーニング データの 10% をランダムにサンプリングします。
メトリック
Communications Mining の検証ページ は、ユーザーがモデルのパフォーマンスを把握するのに役立ちます。 使用する主なメトリックは 、平均平均精度です。 AutoML は、すべてのラベル予測の平均 精度 と、特定のしきい値での精度と再現率を報告します。
平均平均精度は、個々のラベルのパフォーマンスの重み付けされていない平均であるため、すべてのラベルのパフォーマンスをより適切に考慮しますが、平均精度、精度、再現率は、すべての入力とラベルにわたるモデルのグローバルな動作をキャプチャするため、一般的に発生するラベルをより適切に表します。
以下の指標を比較します。
-
平均平均精度 Communications Mining で使用されるメトリックです。ラベル全体のマクロ平均精度です
-
平均精度 AutoML で使用されるメトリックで、すべての予測のマイクロ平均精度です
-
F1スコア 精度と再現率だけでは、一方を他方と交換できるため、意味がありません。 精度と再現率が等しく重要なタスクのパフォーマンスを表す F1 スコアを報告します。
興味のある読者は、 関連するセクションで完全な精度-再現率曲線を見つけることができます。
Communications Mining は、すべてのベンチマーク データセットのすべてのメトリックで AutoML を平均 5 から 10 ポイント上回っています。 これは、コミュニケーションから学ぶことに特化したツールが、高性能なエンタープライズオートメーションと分析により適していることを明確に示しています。
AutoMLは汎用NLPタスクを処理するように構築されているため、特定のタスクを犠牲にして、テキストベースのタスクに適応するのに十分な柔軟性が必要です。 さらに、 転移学習を活用する多くの既製のソリューションと同様に、AutoML の最初の知識は、ソーシャル メディアやニュース記事で一般的に使用される日常的な言語に重点を置いています。 つまり、エンタープライズ コミュニケーションに適応させるために必要なデータの量は、Communications Mining のように、ほぼ類似した初期知識からの転移学習を活用できるエンタープライズ コミュニケーションを扱うことを主な目的とするモデルよりもはるかに大きくなります。 実際の影響という点では、これは、注釈付けに費やすSMEの時間の価値が高くなり、モデルから価値を引き出すまでの時間が長くなり、導入コストが高くなることを意味します。
低データ体制
完全なデータセットに加えて、少量のデータでトレーニングされたモデルのパフォーマンスも評価したいと考えています。 トレーニングデータの収集は費用と時間のかかるプロセスであるため、NLPプラットフォームを選択する際には、データが与えられたときにモデルが向上する速度は重要な考慮事項です。
データが少ない学習は、 少数ショット学習として知られています。 具体的には、各ラベルについてK個の例から学習しようとする場合、これは通常、 Kショット学習として記される。
少数ショットのパフォーマンスを評価するために、各ラベルの例を5つと10つサンプリングして各データセットの小さなバージョンを作成し、それぞれ5ショットと10ショットのデータセットとして記録します。 前述したように、Communications Mining は階層的なラベル構造を使用しています。つまり、お子様は親なしでは応募できないため、ラベルごとに 5 つの例を正確にサンプリングすることはできません。 したがって、階層内のリーフラベルをサンプリングしてこれらのデータセットを構築するため、親は潜在的により多くの例を持つことができます。
これらのサンプルは完全にランダムに抽出され、Communications Mining プラットフォームに有利なアクティブ ラーニング バイアスはありません。
AutoML では、すべてのラベルに少なくとも 10 個の例がない限り、ユーザーはモデルをトレーニングできないため、5 ショットのパフォーマンスを報告することはできません
低データ環境では、Communications Mining は、すべてのタスクのほとんどのメトリックで AutoML を大幅に上回ります。 Communications Mining の 5 ショットのパフォーマンスは、ほとんどのメトリックで既に 10 ショットの AutoML パフォーマンスと競合していることがわかります。
注釈付きのトレーニング ポイントがほとんどない正確なモデルを持つことは、人間がはるかに早い段階でモデルとの共同作業を開始できることを意味し、アクティブ ラーニング ループを強化できるため、非常に強力です。
AutoML のパフォーマンスが高い指標の 1 つは、カスタマー フィードバックの 10 ショット パフォーマンスの平均精度であり、AutoML のパフォーマンスは Communications Mining を 1.5 ポイント上回っています。
AutoML は汎用ツールであるため、散文のようなデータに最適であり、顧客からのフィードバックには、汎用ツールが苦労する重要な半構造化データやドメイン固有の専門用語が含まれていない傾向があり、これが AutoML がうまく機能する理由である可能性があります。
トレーニング時間
モデルのトレーニングは複雑なプロセスであるため、トレーニング時間は考慮すべき重要な要素です。 高速なモデル トレーニングとは、イテレーション サイクルが速く、フィードバック ループが緊密になることを意味します。 つまり、人間がラベルを適用するたびにモデルの改善が速くなり、モデルから価値を引き出すのにかかる時間が短縮されます。
Communications Mining |
AUTOML | |
---|---|---|
投資銀行のメール |
1分32秒 |
4時間4分 |
Eコマースフィードバック |
2分45秒 |
4時間4分 |
保険引受メール |
55秒 |
3時間59分 |
Communications Mining はアクティブ ラーニングのために構築されています。 トレーニング時間は私たちにとって非常に重要であり、私たちのモデルは精度を損なうことなく高速トレーニングするように最適化されています。
AutoML モデルのトレーニングは、Communications Mining と比較して平均で ~200 倍低速です。
AutoML モデルのトレーニングには桁違いに長い時間がかかるため、アクティブ ラーニング ループでの使用にはあまり適していません。 イテレーション時間が非常に長いため、AutoML を改善するための最善の方法は、モデルの再トレーニングの間に大量の注釈を付けることになり、冗長なデータ注釈 (既に十分に理解されている概念のトレーニング例をもっと提供する) と不十分なデータ探索 (モデルが何を知らないかわからないと、より高い概念カバレッジを達成するのが難しくなります) のリスクがあります。
エンタープライズNLPソリューションを構築する場合、モデルの生の予測力は、考慮する必要がある1つの側面にすぎません。 Communications Miningは、一般的なエンタープライズNLPタスクでAutoMLよりも優れていることがわかりましたが、私たちが得た主な洞察は、これらのプラットフォームが持つNLPへのアプローチの根本的な違いでした。
-
Communications Mining は、半構造化会話の分析に特化したツールです。 これには、アジャイルフレームワークでモデルを最初から構築するために必要なコンポーネントがさらに含まれています。
-
AutoMLは汎用のNLPツールであり、効果を発揮するには他のコンポーネントと統合する必要があります。 機械学習モデル構築用のウォーターフォール フレームワークで、既存の注釈付きデータを使用してモデルを構築することに重点を置きます。
-
どちらのツールも競争力の高い最先端のモデルを構築できますが、Communications Mining は、エンタープライズ コミュニケーション分析で一般的な特定のタスクに適しています。
正確な要件を事前に定義できない限り、AutoML モデルの長いトレーニング時間は、Communications Mining が構築しているアクティブ ラーニング ループで対話型データ探索を推進するには適していません。
モデルをトレーニングする前にラベルごとに 10 個の例を用意するという AutoML の要件は、非常に早い段階でモデルを効果的に使用して注釈を付けることができないことを意味し、これはまさに機械学習プロジェクトの最も難しい部分です。
さらに、AutoML と Communications Mining が期待するタスク間の分布のギャップは、転移学習のより焦点を絞った使用により、より具体的なツールがより高品質のモデルをより迅速に生成できることを意味します。
この比較に興味を持った場合、ご意見やご質問がある場合、あるいは Communications Mining を使用して自社の会話について理解を深めたい場合は、 UiPath までお問い合わせください。