- はじめに
- アクセス制御と管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- データ要件を理解する
- トレーニング
- 一般フィールドを使用する
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining™
- 開発者
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining™ でアノテーションの偏りを修正する
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する
- ライセンス
- よくある質問など

Communications Mining ガイド
このプラットフォームで一般フィールドを設定およびトレーニングするためのガイドです。
重要なデータポイント(つまり、fields) を Communications Mining™ データから抽出します。これらは通常、下流の自動化を促進しますが、分析、特に自動化の機会の潜在的な成功率と利益の評価にも役立ちます。
- 一般フィールドとは、抽出対象のフィールドのことであり、データセット内の複数の異なるトピック/ラベルにまたがって存在する可能性があります。
- 抽出フィールドとは、特定のラベルに基づいて条件付けおよび作成されるフィールドのことです。つまり、自動化する特定のラベルに関連付けられます。
[生成 AI による抽出] フィールドおよび [一般] フィールドと [抽出] フィールドの比較について詳しくは、公式ドキュメントをご覧ください。お使いのリージョンで生成 AI による抽出を利用できない場合は、引き続き通常どおり一般フィールドを使用します。このセクションの残りの部分では、一般フィールドの使用方法に関するガイダンスを提供します。
最終的には、一般フィールドの予測をラベルと組み合わせることで、特定のタスクやプロセスを完了するために必要な構造化データ ポイントを提供して、自動化を促進できます。データセット内の一般フィールドをラベルと一緒にトレーニングするほうが、一方を重点的に作業した後に他方を重点的に作業するよりも (つまり、ラベルの完全なタクソノミーをトレーニングした後に一般フィールドをトレーニングするよりも)、はるかに時間効率に優れています。
詳しくは、「 生成 AI による抽出」 および「 一般フィールドと抽出フィールド」をご覧ください。お使いのリージョンで生成 AI による抽出を利用できない場合は、引き続き通常どおり一般フィールドを使用します。このセクションの残りの部分では、一般フィールドの使用方法に関するガイダンスを提供します。
一般フィールドは、データセットに含まれるメッセージ内から抽出できる構造化データの追加要素です。一般フィールドには、金額、日付、通貨コード、メール アドレス、URL などの他に、業界固有のさまざまなカテゴリのデータ ポイントが含まれます。
ほとんどの一般フィールドは、ゼロからトレーニングしたものを除き、有効化されるとすぐに予測可能になります。一般フィールドは、その一般的な形式 (場合によっては非常に特殊な形式) と、類似する一般フィールドのトレーニング セットに基づいて識別できるためです。
ラベルと同様に、正しく予測された一般フィールドや誤って予測された一般フィールドを承認または却下し、今後モデルがその一般フィールドを識別する能力を強化することができます。
一般フィールドの種類
一般フィールドには、次のような種類があります。
- 事前トレーニング済みの一般フィールド。一連の標準的なルールまたはカスタム定義ルールに基づいています。たとえば、金額、URL、日付などがあります。
- ゼロからトレーニングした一般フィールド。マシン ラーニングに基づいています。これらのフィールドは、ラベルをトレーニングする場合と同様にトレーニングできます。
トレーニング可能な一般フィールドとトレーニング不可の一般フィールド
トレーニング可能な一般フィールド
- ゼロからトレーニングした場合、本質的にトレーニング可能である可能性がある
- 有効化するとトレーニング可能にすることができます。これは他のすべての種類の一般フィールドです。
トレーニング可能な一般フィールドとは、ユーザーが行ったトレーニングに基づいてプラットフォーム内でリアルタイムで更新される一般フィールドです。一般フィールドのトレーニングについて詳しくは、「一般フィールドを確認および適用する」をご覧ください。
一連の標準的なルールまたはカスタム定義ルールに基づく事前トレーニング済みの一般フィールドでトレーニングを有効化すると、それらのルールのパラメーターの範囲内で、一般フィールドに対するプラットフォームの理解を改良できます。これらの一般フィールドでさらにトレーニングを行うと、プラットフォームがその一般フィールドと見なすことができる範囲は縮小し、拡大することはありません。
その理由は、日付 (例:「明日」) や金額 (例: £20) など、これらの一般フィールドの多くは、構造化されたデータ形式に正規化して下流のシステムで利用できるようにする必要があるためです。また、ISIN や CUSIP などの一般フィールドの場合、所定の形式が必須であるため、定義された形式に準拠しない一般フィールドを予測するようにプラットフォームに教えてはなりません。
トレーニング可能な一般フィールドを割り当てると、一般フィールドのテキストと、コミュニケーションの他の部分におけるその一般フィールドのコンテキストの両方が確認されます。すなわち、一般フィールドの値の前後がどのような内容であるかが、同じ段落とその前後の段落で確認されます。プラットフォームは、値そのものと、その値がコミュニケーションのコンテキスト内にどのように出現するかに基づいて学習し、より適切に一般フィールドを予測するようになります。
トレーニング不可の一般フィールド
事前トレーニング済みの一般フィールドがトレーニング可能として設定されていない場合でも、データセット内で特定した一般フィールドの予測を承認または却下できます。一般フィールドの予測は、ユーザーによるフィードバックを使用してオフラインで更新および改良されます。
メッセージの確認時に、これらの一般フィールドを承認または拒否すると便利です。
データセットで一般フィールドを有効化する方法について詳しくは、「一般フィールドを有効化、無効化、更新、作成する」をご覧ください。
一般フィールドの標準テンプレートのフィールドの種類
一般フィールドの種類を設定する場合は、フィールドの種類のデータ型を選択する際のテンプレート オプションを使用して、次の事前構築済みオプションのいずれかを選択できます。
一般フィールドの種類 | 説明 |
---|---|
メール | メール アドレスです。 |
通貨 | 通貨コードです (英ポンド、スイスフラン、米ドルなど)。 |
URL | Uniform Resource Locator (Web アドレス) です。 |
SEDOL (SEDOL コード) | 金融証券識別子です。Stock Exchange Daily Official List の略語で、長さは 7 文字です。 |
BIC コード | 金融機関識別コード (BIC) は、ビジネス トランザクションをルーティングし、関係者を識別するための ISO 9362 に基づく国際標準です。BIC コードの長さは 8 文字または 11 文字です。 |
LEI (取引主体識別子) | Legal Entity Identifier (LEI) は、金融取引に参加する取引主体の一意のグローバル識別子です。LEI は 20 文字の英数字のコードの形式です。 |
ISIN (ISIN コード) | 国際証券コード番号 (ISIN) は、金融証券を一意に識別します。ISIN は 12 文字の英数字のコードです。 |
Mark-to-market (MTM または M2M) | Mark-to-market とは、資産または負債の公正価格を指します。Mark-to-market は、現在の市場価格、類似する資産と負債の価格、または客観的に考慮した公正な価格に基づきます。 |
CUSIP (証券識別コード) | CUSIP は北米の金融証券を識別する 9 桁の数字または 9 文字の英数字コードであり、取引の決済を容易にすることを目的としています。 |
- You must have assigned the IXP Viewer or IXP Analyst, and IXP Project Admin roles as an Automation Cloud user, or the View sources and Modify Datasets, or Datasets Admin, permissions as a legacy user.
- 1 件のデータセットあたりの一般フィールドの既定のクォータは 25 です。25 を超える一般フィールドが必要な場合は、アカウント チーム経由でクォータの引き上げをリクエストしてください。
新しいデータセットで一般フィールドを有効化する
新しく作成するデータセットで一般フィールドを有効化するには、設定プロセス中に一般フィールドを選択します。
+
ボタンを選択すると、そのデータセットに対して有効化できるすべての一般フィールドのドロップダウン メニューが表示されます。データセットを作成する前に、有効化する一般フィールドをすべて選択します。間違って追加した一般フィールドがある場合は、その一般フィールド名の横にある [X] アイコンを選択して削除できます。
新しいデータセットの作成方法について詳しくは、「データセットを作成する」をご覧ください。
既存のデータセットの一般フィールドを有効化、更新、無効化する
既存のデータセットの一般フィールドを有効化、更新、無効化するには、上部のナビゲーション バーにある [設定] タブから [ラベルと抽出フィールド] タブを選択します。
一般フィールドを有効化する
既存の一般フィールドを有効化するには、[一般フィールド] ボックス内を選択し、ドロップダウン メニューから有効化する一般フィールドを選択します。選択した項目に問題がなければ、[一般フィールドを更新する] を選択します (以下を参照)。
これらの一般フィールドでは、設定が事前に選択されます。その後、以下に示すように、一般フィールドをトレーニング可能にするなど、一般フィールドを更新できます。
一般フィールドを更新する
有効化された一般フィールドを更新するには、上の画像に示すように、[一般フィールド] ボックスで一般フィールドを選択します。これにより、次の図に示すように [ 一般フィールドを編集 ] モーダルが表示されます。
ここでは、ベースの一般フィールド、一般フィールドのタイトル、API 名 (これらの概念については後で詳しく説明します) を更新したり、一般フィールドを「トレーニング可能」に設定したりできます。
「トレーニング可能」に設定されていなかった一般フィールドの種類について、一般フィールドを以前に確認済みである場合、この情報は引き続き保存されます。
一般フィールドを無効化する
選択した一般フィールドを削除するには、一般フィールドの名前の横にある [X] アイコンを選択し、[一般フィールドを更新する] を選択します。
一般フィールドを削除して [一般フィールドを更新する] を選択すると、このデータセットの削除した一般フィールドのトレーニング データも削除されます。この一般フィールドを再度有効化する場合は、一般フィールドを再度トレーニングする必要があります。
一般フィールドの更新中に操作を間違えた場合は、[一般フィールドを更新する] を選択する前に [リセット] を選択すると、変更は適用されません。
新しい一般フィールドを作成する
前のセクションでは、新しいデータセットと既存のデータセットの両方に対して、既存の事前トレーニング済みの一般フィールドを有効化および更新する方法について説明しました。また、新しいデータセットまたは既存のデータセットのいずれにおいても、新しい一般フィールドを作成することもできます。
新しく作成した一般フィールドは、既存の事前トレーニング済みの一般フィールドを基にすることも、新しいラベルのようにゼロからトレーニングすることもできます。
+
アイコン を選択します。
これにより、以下に示すように [ 新しい一般フィールドを追加 ] モーダルが表示されます。
ここで、 フィールドの種類、 タイトル、 API 名を設定できるほか、一般フィールドをトレーニング可能にするかどうかを選択できます。前に示したように、これらは後で更新できます。
各フィールドに入力したら (以下で説明)、[作成] を選択します。
フィールドの型
- これは新しい一般フィールドの初期ステートとして機能します。ドロップダウンには、利用可能な事前トレーニング済みのすべての一般フィールドのリストが表示されます。
- たとえば、ベースの一般フィールドとして「日付」を選択した場合、この種類の一般フィールドに対して予測される一般フィールドはすべて日付になります。その後、特定の日付のみを認識するようにプラットフォームをトレーニングできます。
-
一般フィールドを完全にゼロからトレーニングする場合は、[なし (ゼロからトレーニング)] を選択できます。こうすることで、一般フィールドをトレーニングする際に、基本的に空のキャンバスから始めることができます。この一般フィールドに対するプラットフォームの予測は完全に、ユーザーが提供するトレーニング例に基づきます。
一般フィールドのタイトル
- 一般フィールドのタイトルは、プラットフォームの UI に表示される一般フィールドの名前です。
API 名
- 一般フィールドの API 名は、メッセージの予測を提供するときに API 経由で返される名前です。
- API 名にスペースや句読点を含めることはできません。ただし、ダッシュ ( - ) とアンダースコア ( _ ) は使用できます。
=======================================================================
新しいデータセットで一般フィールドを有効化する
新しく作成するデータセットで一般フィールドを有効化するには、設定プロセス中に一般フィールドを選択します。
+
ボタンを選択すると、そのデータセットに対して有効化できるすべての一般フィールドのドロップダウン メニューが表示されます。データセットを作成する前に、有効化する一般フィールドをすべて選択します。間違って追加した一般フィールドがある場合は、その一般フィールド名の横にある [X] アイコンを選択して削除できます。
新しいデータセットの作成方法について詳しくは、「 新しいデータセットを作成する」をご覧ください。
既存のデータセットの一般フィールドを管理する
- 既存のデータセットを開きます。
- [設定] タブを選択します。
- [ タクソノミー] を選択し、[ ラベルと抽出フィールド] を選択します。
ラベルの場合と同様に、[探索] と [レポート] のどちらでも、一般フィールドが予測されているか、割り当てられているかどうかでメッセージをフィルター処理できます。
複数の一般フィールド フィルターを適用する場合、「AND」「ANY OF」「NOT」を任意に組み合わせて適用できます。これらのフィルターにより、データのトレーニングや解釈をさらに柔軟に行うことができ、コミュニケーション チャネルで何が起こっているかについて、より深い洞察を得ることができます。
一般フィールドの予測でフィルター処理するときにできること
- [探索] と [レポート] の両方で複数の一般フィールド フィルターを同時に適用する
- フィルターを適用し、選択した複数の一般フィールドの 1 つが予測されているメッセージに絞り込む。たとえば、「ANY OF 一般フィールド X AND 一般フィールド Y AND ...」とします。
- フィルターを適用し、複数の異なる一般フィールドが予測されているメッセージに絞り込む。たとえば、「一般フィールド X AND 一般フィールド Y AND ...」とします。
- フィルターを適用し、特定の一般フィールドが予測されていないメッセージに絞り込む。たとえば、「NOT 一般フィールド Y」とします。
- 一般フィールド フィルターを適用しながら、特定の検索語句を含む一般フィールドを検索する。
以下のように、データセットで有効化されているすべての一般フィールドがフィルター バーに表示されます。一般フィールドの割り当てについては、「一般フィールドを確認および適用する」で詳しく説明しています。
高度な予測フィルターを適用する
一般フィールド フィルターを適用する方法は 2 つあり、これらを互いに組み合わせて使用することで、適切な種類のクエリを作成できます。
既定のステートは、フィルターが適用されておらず、すべてのメッセージが表示されているステートです。ただし、別のフィルターが適用されている場合を除きます。
一般フィールド フィルターを更新するには、以下の表で説明するボタンを使用します。選択すると色も変わります。
アノテーション済みの一般フィールドを含むメッセージを表示 | |
一般フィールドを含むと予測されたメッセージを表示 |
メッセージにフィルターを適用して、アノテーション済みの一般フィールドを持つ、または一般フィールドを含むと予測されているメッセージに絞り込む場合は、上部にあるボタンを使用します。上の表をご覧ください。メッセージにフィルターを適用して、特定のアノテーション済みまたは予測されている一般フィールドを含むメッセージに絞り込む場合は、対象の一般フィールドにカーソルを合わせると、同じ 2 つのボタンが右側に表示されます。
フィルターを適用して、割り当てられているか予測されている一般フィールドに絞り込む場合は、一般フィールドの名前を選択すると、いずれかを含むメッセージが表示されます。
選択項目を削除するには、ボタンをもう一度選択し、複数の選択項目を削除するには、[すべて] を選択します。フィルター バーから [すべてクリア] を選択することもできますが、この場合、一般フィールド フィルターだけでなく選択したすべてのフィルターがクリアされます。
一般フィールド バー
一般フィールドのタクソノミーは通常のフィルター バーとして機能します。各一般フィールドを 1 回選択するだけで、複数の一般フィールドを一度に選択できます。
リストから複数の一般フィールドを選択すると、「ANY OF」の種類のクエリが作成されます。
一般フィールド バーで、一般フィールド A、一般フィールド B、および一般フィールド C を選択した場合は、「一般フィールド A、一般フィールド B、または一般フィールド C が予測されたメッセージを表示してください。」というクエリが作成されます。
フィルターを適用して特定の一般フィールドに絞り込む場合、複数の一般フィールドを選択できます。たとえば、次の画像に示すように、フィルターを適用して、住所の一般フィールドが割り当てられているメッセージ、または市区町村の一般フィールドが予測されているメッセージに絞り込んで表示できます。
一般フィールド フィルターを追加
2 番目のフィルター オプションは、[ + 一般フィールド フィルターを追加 ] ボタンです。
これを選択すると、ドロップダウンの一般フィールド バーが有効化され、特定の一般フィールドを対象から除外するなどの、より複雑なフィルターを選択できます。
このドロップダウンから、含める/除外する一般フィールドを複数選択できます。その場合、一般フィールドの名前を選択するか (割り当てられていて、かつ予測されている場合)、または個々のボタンを選択します (この一般フィールドが割り当てられておらず、予測もされていない場合にマイナス ボタンを選択することを含みます)。
結果は次の例のようになり、請求書 ID の一般フィールドがあると予測されているが、製品 ID 一般フィールドは割り当てられても予測されてもいないメッセージが返されます。
[+ 一般フィールド フィルターを追加] を複数回選択して、クエリにレイヤーを追加できます。一般フィールド フィルターを 2 つ設定すると AND の種類のクエリが作成されるのに対し、同じ一般フィールド フィルターで複数の一般フィールドを選択すると「ANY OF」の種類のクエリが作成されます。
以下の例では、複数の一般フィールド フィルターが個別に適用されています。これにより、1 つ目のフィルターの 3 つの一般フィールドのいずれかに加えて Policy Number 一般フィールドが含まれると予測されており、UK Postcode 一般フィールドは含まれないと予測されている、または UK Postcode 一般フィールドが割り当てられていないメッセージを返すフィルターが作成されます。
役立つヒントとして、複数の一般フィールドが含まれる個々のフィルターで & 記号を選択すると、自動的に別々のフィルターに分割できます。これにより、クエリが「ANY OF」 (つまり、これらの一般フィールドのいずれかが予測されている) から「AND」 (つまり、これらすべての一般フィールドが予測されている) に変更されます。
一般フィールド バーのフィルターと追加された一般フィールドのフィルターを組み合わせる
一般フィールド バー フィルターと、個別に追加した一般フィールド フィルターを組み合わせることができます。一般フィールド バーで適用したフィルターは、個別に適用した一般フィールド フィルターとともに AND クエリとして扱われます。
たとえば、次の図に示すクエリの組み合わせは、ORDER ID または PROD ID のいずれかが予測されているメッセージを返します。
一般フィールド バーを使用した一般フィールド フィルターと、個別に追加された一般フィールド フィルターを組み合わせます。
トレーニング用に一般フィールドのフィルターを組み合わせて一般フィールドで並べ替える
また、トレーニング モードでは、一般フィールド フィルターを適用しながら特定の一般フィールドで並べ替えることができます。
一般フィールドの予測を識別する
予測された一般フィールドは、以下の画像に示すメッセージの 1 行目のように、色で強調表示されたテキストとして表示されます。異なる一般フィールドの種類は異なる色で表示されます。一般フィールドを手動で適用するか、予測を受け入れて一般フィールドを確認すると、その一般フィールドは、以下の図に示すように、太く暗い枠線で強調表示されたテキストとして表示されます。
段落内に、割り当てられた一般フィールド、却下された一般フィールド、適用された一般フィールドがある場合、その段落は、以下の画像のメッセージの本文のように灰色で強調表示されます。
トレーニング可能な一般フィールドの一般フィールドの予測を行う
トレーニング可能な一般フィールドを確認する際に、このプラットフォームは、ユーザーが割り当てた一般フィールドの値と、コミュニケーション内でその値が出現する場所のコンテキスト (つまり、値そのものの周囲で使用されている他の言語) の両方から学習します。
このプラットフォームでは、一般フィールドの値と同じ段落内にある言語のコンテキストと、一般フィールドが存在する段落の直前・直後にある、改行で示される 1 つの段落が考慮されます。
一般フィールドの信頼度スコア
このプラットフォームは、コミュニケーションに適用される一般フィールドを予測する際に、各予測に信頼度スコア (%) を割り当てて、強調表示されたテキスト範囲にどの程度の信頼度で一般フィールドが適用されているかを示します。一般フィールドの信頼度スコアを表示するには、一般フィールド上でホバーします。
この信頼度スコアは API 経由でも利用できるため、下流で実行される自動化アクションに情報を提供できます。
一般フィールドの予測を承認および却下する
一般フィールドが有効化されると、自動的にデータセット全体でメッセージ内の一般フィールドの予測が開始されます。詳しくは、「一般フィールドを確認および適用する」をご覧ください。その後、予測が正しければ承認し、正しくなければ却下できます。これらの各操作を実行することでトレーニング シグナルを送り、このシグナルを使用して、その一般フィールドに対するプラットフォームの理解を改善します。
オフラインでトレーニングされる事前トレーニング済みの一般フィールド (例: 金額、URL など) の場合、改善の観点から、正しい予測を承認することよりも、間違った予測を却下または修正することのほうが重要です。
プラットフォーム内でリアルタイムでトレーニングされる一般フィールドの場合は、正しい予測を承認することと、誤った予測を却下することは等しく重要です。ただし、間違って予測されたものが見つからなければ、同じ種類の一意の一般フィールドそれぞれについて正しい例をいくつも承認し続ける必要はありません。たとえば、「Example Bank Ltd.」は一意の組織の一般フィールドです。
一般フィールドの予測を確認するには、予測の上にホバーすると、以下の画像の例に示すように一般フィールドの確認モーダルが表示されます。承認するには [確定] を選択し、却下するには [却下] を選択します。
一般フィールドとラベルは、互いに独立してトレーニングできます。メッセージのラベルを確認しても、同じメッセージ内の一般フィールドを確認する必要はありません。ただし、モデル トレーニング中に時間を最も効率的に使うために、両方を同時に行うことをお勧めします。
データセットに対して有効化されている各一般フィールド (特にトレーニング可能な一般フィールド) を、プラットフォームがどの程度適切に予測できるかを理解するには、「 一般フィールドの検証」をご覧ください。
一般フィールドを適用する
予測されなかった可能性があるテキストに一般フィールドを適用するには、コピーする場合と同じように、テキストのセクションを強調表示します。
以下の画像に示すように、データセットに対して有効化したすべての一般フィールドを含むドロップダウン メニューが表示されます。正しい一般フィールドを選択して適用するか、対応するキーボード ショートカットを押します。
各一般フィールドの既定のキーボード ショートカットは、その一般フィールドの先頭の文字です。複数の一般フィールドが同じ文字で始まる場合、もう一方の一般フィールドにはランダムな文字が割り当てられます。
一般フィールドが適用されると、次の画像に示すように、色と太い枠線付きで強調表示されます。一般フィールドの種類ごとに独自の色があります。
ベスト プラクティス
- 単語を分割しない
- 段落を部分的にアノテーションを行わない
単語を分割しない
強調表示された一般フィールドは、対象となる単語の一部だけでなく、単語全体または複数の単語をカバーする必要があるため、単語を分割しないように注意してください。誤ったアプリケーションと正しいアプリケーションの例については、次の画像をご覧ください。
段落を部分的にアノテーションを行わない
アノテーションを行う際に、あるメッセージに 1 つのラベルを割り当てた場合、そのメッセージに適用できるラベルをすべて適用する必要があります。そうしないと、他のラベルは適用する必要がないとモデルに教えることになります。一般フィールドについても同じことが当てはまります。ただし、一般フィールドをメッセージ全体ではなく段落レベルで確認または適用する場合を除きます。
メッセージ内の段落は改行で区切られます。メールのメッセージの件名は、それ自体が 1 つの段落と見なされます。
段落内のいずれかの一般フィールドを確認または適用した場合は、必ず、同じ段落内のすべての一般フィールドを確認または適用してください。段落内の一般フィールドを適用、承認、却下すると、その段落は、一般フィールドの観点からは「確認済み」として扱われます。したがって、その段落のすべての予測を承認または却下するようにしてください。
以下の例は、メール メッセージ内で確認されたさまざまな段落を示しています。
以下の画像に示すメッセージは同じ例を示していますが、こちらではユーザーが 1 つの段落内にあるすべての一般フィールドの予測を承認または却下していません。モデルが金額の一般フィールドを不正確な予測として扱うことになるため、これは間違いです。
はじめに
プラットフォームの [検証] ページには、有効化されている一般フィールドの検証の統計情報、警告、および推奨されるアクションが表示されます。これはタクソノミー内のすべてのラベルの場合と同様です。
これらを確認するには、次の図に示すように、[検証] ページに移動して上部の [一般フィールド] タブを選択します。
一般フィールド検証の仕組み
一般フィールドを正しく予測する能力をプラットフォームが検証するプロセスは、ラベルの場合と非常によく似ています。
メッセージを初めてデータセットに追加すると、トレーニング セットとテスト セット (各メッセージのメッセージ ID でランダムに決定) に分割されます (80 対 20)。割り当てられた一般フィールド (承認または修正された予測) は、その一般フィールドが含まれるメッセージが最初にトレーニング セットまたはテスト セットのどちらに割り当てられていたかに基づいて、どちらかのセットに分類されます。
場合によっては、1 件のメッセージに大量の一般フィールドが存在していて、メッセージがトレーニング セットまたはテスト セットのどちらに含まれるかを保証できないため、各セット内の一般フィールドの数に大きな差が見られることがあります。
割り当てられた一般フィールドがすべてトレーニング セットに分類されることもあります。検証スコアを計算するには、テスト セットに少なくとも 1 つの例が必要であるため、このような一般フィールドでは、テスト セットに例がいくつか存在するようになるまで、割り当てられた例を追加する必要があります。
スコアを計算する
十分なトレーニング データがある各一般フィールドの個々の適合率と再現率の統計情報は、ラベルの統計情報と非常によく似た方法で計算されます。
精度 = 一致する一般フィールドの数/予測された一般フィールドの数
再現率 = 一致する一般フィールドの数/実際の一般フィールドの数
「一致する一般フィールド」とは、プラットフォームが一般フィールドを正確に予測した (部分一致のない) 場所です。
F1 スコアは、単に適合率と再現率の両方の調和平均です。
トレーニング可能な一般フィールド
このページに示す適合率と再現率の統計情報は、プラットフォームで常時トレーニング可能な一般フィールド (上の 2 番目の段で示したとおり) で最も役に立ちます。これらの一般フィールドの種類について確認されたすべての一般フィールドは、プラットフォームがその一般フィールドを予測する機能に直接影響するためです。
したがって、可能な限り、正しい一般フィールドを承認し、誤った一般フィールドを修正または却下する必要があります。
事前トレーニング済みの一般フィールド
テンプレートのフィールドの種類を使用して事前トレーニング済みの一般フィールドの場合、検証の統計情報にパフォーマンスを正確に反映させるには、かなりの量の正しい予測を承認することに加え、誤った予測を確実に修正する必要があります。
誤った予測を修正しただけでは、トレーニング セットとテスト セットは、プラットフォームが一般フィールドの予測に苦労した事例だけでいっぱいになってしまい、プラットフォームがより適切に予測できる事例は提供されず不自然です。このような一般フィールドの間違った予測を修正しても一般フィールドはリアルタイムに更新されないため (定期的にオフラインで更新されます)、検証の統計情報がしばらくの間変わらず、不自然に低くなる可能性があります。
正しい予測を大量に承認しても必ずしも便利であるとは限りません。このような一般フィールドは多くの場合、正しく予測されるためです。ただし、一般フィールドの予測の大部分が正しい場合は、[検証] ページの適合率と再現率の統計情報について心配する必要はないと考えられます。
統計情報の概要を理解する
統計情報の概要 (平均適合率、平均再現率、平均 F1 スコア) とは、単に一般フィールドの個々のスコアそれぞれの平均値です。
ラベルの場合と同様に、十分なトレーニング データがある一般フィールドのみが平均スコアに含まれます。十分なトレーニング データがなく、スコアに含めることができない一般フィールドには、名前の横に警告アイコンが表示されます。
メトリック
一般フィールドの [検証] ページには、一般フィールドの平均パフォーマンスの統計情報、および各一般フィールドの平均 F1 スコアとトレーニング セットのサイズを示すグラフが表示されます。また、このグラフでは、琥珀色または赤色のパフォーマンス警告がある一般フィールドにフラグが付けられています。
表示される一般フィールドのパフォーマンス統計情報は次のとおりです。
- 平均 F1 スコア: パフォーマンスを正確に推測するのに十分なデータがあるすべての一般フィールドの F1 スコアの平均値です。このスコアでは、再現率と適合率が均等に重み付けされています。F1 スコアが高いモデルでは偽陽性と偽陰性が少なくなります。
- 平均適合率: パフォーマンスを正確に推定するのに十分なデータを含むすべての一般フィールドの適合率スコアの平均値です。適合率の高いモデルでは偽陽性が少なくなります。
- 平均再現率: パフォーマンスを正確に推定するのに十分なデータを持つすべての一般フィールドの再現率スコアの平均値です。再現率の高いモデルでは偽陰性が少なくなります。
一般フィールドのパフォーマンスを理解する
[ 検証] ページの [ メトリック] タブに表示される一般フィールドのパフォーマンスのグラフは、個々の一般フィールドのパフォーマンスを即座に視覚的に示します。詳しくは、前のセクションをご覧ください。
このグラフに一般フィールドを表示するには、検証中にプラットフォームによって使用されるトレーニング セットに、ピン留めされた例が 20 個以上含まれている必要があります。そのためには、25 件の異なるメッセージで、一般フィールド 1 個につき 25 個以上 (多くの場合それ以上) のピン留めされた例があるようにする必要があります。
各一般フィールドは、一般フィールドのパフォーマンスについてのモデルの理解に基づいて、3 色のいずれかでプロットされます。色の意味については、以下のセクションで説明します。
一般フィールドのパフォーマンス指標
- 青 - グラフに青でプロットされている一般フィールドは、パフォーマンス レベルが十分な一般フィールドです。これは、例の数と種類、その一般フィールドの平均適合率など、多様な要因に基づいています。
- 琥珀色 - 琥珀色でプロットされている一般フィールドは、十分なパフォーマンスをわずかに下回る一般フィールドです。平均適合率が比較的低いか、トレーニング例が十分でない可能性があります。このような一般フィールドは、パフォーマンスを改善するためにトレーニング/修正が少し必要です。
- 赤 - 赤でプロットされている一般フィールドは、パフォーマンスの低い一般フィールドです。平均適合率が非常に低いか、トレーニング例が十分でない可能性があります。このような一般フィールドは、パフォーマンスを十分なレベルに引き上げるために、さらにかなりのトレーニング/修正が必要である可能性があります。
個々の一般フィールドのパフォーマンス
一般フィールドのパフォーマンス統計情報を表示するには、一般フィールド フィルター バーから個々の一般フィールドを選択します (または、すべての一般フィールド グラフの一般フィールドのプロットを選択します)。
特定の一般フィールド ビューには、パフォーマンスの警告と、パフォーマンスの改善に役立つ、推奨される次の操作の提案も表示されます。
一般フィールド ビューには、一般フィールドの平均 F1 スコア、およびその適合率と再現率が表示されます。
概要
ラベルのトレーニングと同様に、一般フィールドのトレーニングも、さまざまなトレーニング モードを使用して、どの一般フィールドが特定のメッセージに適用されるかをプラットフォームに教えるプロセスです。
ラベルと同様に、「教える」「確認」「見逃し」のモードを利用して、一般フィールドのトレーニングとパフォーマンスを改善できます。各モードにアクセスするには、1) [探索] ページのトレーニングのドロップダウンを使用するか、2) [検証] ページの [一般フィールド] タブの推奨されるアクションに従います。
一般フィールドの推奨アクション
特定の一般フィールドにパフォーマンス警告が付いている場合、その警告に対処するのに役立つと思われる推奨される次の操作が優先度順に表示されます。これは、タクソノミーまたはすべての一般フィールドのグラフから特定の一般フィールドを選択すると表示されます。
次に行うべき操作の提案はリンクとして機能します。このリンクを選択すると、プラットフォームによって提案されたトレーニング ビューに直接移動し、一般フィールドのパフォーマンスを向上させることができます。提案はインテリジェントに並べられており、一般フィールドを改善する上で最も優先度の高い操作が最初に表示されています。
提案は、一般フィールドのパフォーマンスを理解するのに役立つ最も重要なツールであり、一般フィールドのパフォーマンスを改善する際にガイドとして定期的に使用することをお勧めします。
一般フィールド トレーニング モード
次の表は、どのような場合に一般フィールドの各トレーニング モードが推奨されるかをまとめたものです。
一般フィールドを教える | 一般フィールドを確認 | 見逃された一般フィールド |
|
|
|
「一般フィールドを教える」を使用する
「一般フィールドを教える」を使用して、一般フィールドのパフォーマンスを改善します。すでに信頼度の高い予測があるモデルではなく、モデルが確信を持って判断できないメッセージに関する新しい情報がモデルに提供されるためです。
次のような場合に「一般フィールドを教える」が推奨されます。
- 次の図に示すように、一般フィールドの横にパフォーマンス警告が表示されています。これは、少なくとも 25 個の例が提供されなかった場合に発生します。
- 特定の一般フィールドの F1 スコアが低い
- 一般フィールドのテキスト内に必ずしも明確なコンテキストがあるとは限らないか、特定の種類の一般フィールドの値に多数のバリエーションがある
以下の画像には、「一般フィールドを教える」モードでの一般フィールドのトレーニングの例が含まれます。
「一般フィールドを確認」を使用する
「一般フィールドを確認」を使用すると、確認済みのセット内の不整合を特定するのに役立つと同時に、予測を行うための一貫性のある正しい例がモデルに提供されていることを確認することで、一般フィールドに対するモデルの理解を改善するのに役立ちます。これにより、一般フィールドの再現率が向上します。
次のような場合に「一般フィールドを確認」が推奨されます。
- 再現率は低いが、適合率が高い
- 予測は非常に正確であるが、一般フィールドが適用されている多くの箇所で、これらの例が捉えられていない
一般フィールドの検証の計算について詳しくは、「一般フィールドの検証」をご覧ください。
[見逃された一般フィールド] を使用する
「見逃された一般フィールド」を使用すると、確認済みのセット内で、選択された一般フィールドがあるべきなのに存在しない例を見つけるのに役立ちます。また、モデルが一般フィールドを予測する能力に悪影響を与える可能性のある、部分的にアノテーションされたメッセージを特定するのにも役立ちます。これにより、一般フィールドの適合率が向上し、予測を行うための一貫性のある正しい例がモデルに提供されます。
次のような場合に「見逃された一般フィールド」が推奨されます。
- 再現率は高いが、適合率が低い
- 一般フィールドを誤って予測することが多いが、一般フィールドを正しく予測すれば、そこに存在する多くの例を捉えられる
一般フィールドの検証の計算について詳しくは、「一般フィールドの検証」ページをご覧ください。
- You must have assigned the IXP Project Admin role as an Automation Cloud user or the Modify datasets permission as a legacy user.
- You can build custom Regex general fields through the Dataset settings or the Manage general fields option in the Generative Extraction field annotation experience, as explained in detail in the Generative extraction page.
カスタム正規表現の一般フィールド
カスタム正規表現一般フィールドを使用すると、ID や参照番号など、既知の繰り返し構造を持つテキストの範囲を抽出して書式設定できます。
This is a useful option for simple, structured general fields with little variation. In case of general fields with significant variation and where the context has a big influence on predictions, a machine-learning-based general field is the right choice. You can use combinations of the two in any dataset within Communications Mining™.
A broader Regex, that is, a set of rules to define the general field, can also be used as the base of a custom general field. This combines the rules with contextual, machine learning based refinement through training within Communications Mining to create sophisticated, custom general fields. This provides the most optimal performance as well as the necessary restrictions on values extracted for automation.
カスタムの正規表現テンプレート
カスタム正規表現の一般フィールドは、正規表現データ型のフィールドの種類で構成され、1 つ以上のカスタム正規表現テンプレートを持ちます。各テンプレートは、一般フィールドを抽出 (および書式設定) する 1 つの方法を表します。
これらのテンプレートを組み合わせることで、同じ一般フィールドの種類の複数の表現をカバーする、柔軟で強力な方法が提供されます。
テンプレートは、次のもので構成されます。
- 正規表現。一般フィールドとして抽出するテキストの範囲が満たす必要がある制約を記述します。
- 書式設定。抽出した文字列を正規化して、より標準的な書式にする方法を表します。
たとえば、顧客 ID が、ID という単語とその後に続く 7 桁の数字、または 9 文字の英数字の文字列であるとします。次の画像は、この場合に 2 つのテンプレートがどのようになるかを示しています。
先行入力の検証
Regex ID\d{}
will display a message that you should fix any issues with your template to view general field extractions:
抽出結果のプレビュー
カスタム正規表現テンプレートをテキストでテストして、期待どおりに動作することを確認できます。テンプレートで抽出される一般フィールドが、その値、および開始文字と終了文字の位置と併せてリストに表示されます。
\d{4}
」で [書式設定] が「ID-{$}
」の場合、次のテスト文字列では抽出結果が 1 つ表示されます。
正規表現
正規表現は、テキスト内の一般フィールドを抽出するために使用するパターンです。構文のドキュメントについては、こちらを確認してください。
名前付きキャプチャ グループを使用すると、抽出された文字列の特定のセクションを識別し、その後、書式を設定できます。キャプチャ グループの名前は、すべてのテンプレートで一意である必要があり、小文字または数字のみを使用する必要があります。
通貨の書式
書式設定を指定して、抽出した一般フィールドを後処理できます。
既定では、書式設定は適用されません。プラットフォームから返される文字列は、正規表現で抽出した文字列になります。ただし、必要に応じて、次のルールを使用してより複雑な変換を定義できます。
変数
$
を付けることで、書式設定ロジックで変数として利用できます。$
記号そのものは、正規表現の完全一致を表すことに注意してください。
{
と }
で囲む必要があります。
ID-
を付けて返す場合、正規表現と書式設定は次のようになります。
ID-1234567
が返されます。文字列の操作
&
記号で連結できます。
正規表現 | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
通貨の書式 | {$id1 & "-" & $id2} |
テキスト | 最初の ID は 123 で、2 番目の ID は 4567 です |
プラットフォームによって返される一般フィールド | 123-4567 |
関数
特定の関数を書式設定で使用して、抽出された文字列を変換することもできます。関数の名前とそのシグネチャは、Excel に準じます。
Upper
抽出された範囲内のすべての文字を大文字に変換します。
正規表現 | \w{3} |
通貨の書式 | {upper($)} |
テキスト | abc |
プラットフォームによって返される一般フィールド | ABC |
Lower
抽出された範囲内のすべての文字を小文字に変換します。
正規表現 | \w{3} |
通貨の書式 | {lower($)} |
テキスト | AbC |
プラットフォームによって返される一般フィールド | abc |
Proper
抽出された範囲にある単語の最初の文字を大文字にし、それ以降の文字を小文字にします。
正規表現 | \w+\s\w+ |
通貨の書式 | {proper($)} |
テキスト | albert EINSTEIN |
プラットフォームによって返される一般フィールド | Albert Einstein |
Pad
抽出された範囲を、指定したサイズまで、指定した文字でパディングします。
関数の引数:
- パディングする文字を含むテキスト
- パディングする文字列のサイズ
- パディングに使用する文字
正規表現 | \d{2,5} |
通貨の書式 | {pad($, 5, "0")} |
テキスト | 123 |
プラットフォームによって返される一般フィールド | 00123 |
Substitute
文字を他の文字に置き換えます。
関数の引数:
- 置換する文字を含むテキスト
- 置き換える文字
- 古い文字を置き換えるのに使用する文字
正規表現 | ab |
通貨の書式 | {substitute($, "a", "12")} |
テキスト | ab |
プラットフォームによって返される一般フィールド | 12b |
左
範囲の最初の n 文字を返します。
関数の引数:
- 抽出する文字を含むテキスト
- 返す文字の数
正規表現 | \w{4} |
通貨の書式 | {left($, 2)} |
テキスト | ABCD |
プラットフォームによって返される一般フィールド | AB |
右
範囲の最初の n 文字を返します。
関数の引数:
- 抽出する文字を含むテキスト
- 返す文字の数
正規表現 | \w{4} |
通貨の書式 | {right($, 2)} |
テキスト | ABCD |
プラットフォームによって返される一般フィールド | CD |
Mid
範囲内の指定した位置より後の n 文字を返します。
関数の引数:
- 抽出する文字を含むテキスト
- 返す最初の文字の位置
- 返す文字の数
正規表現 | \w{5} |
通貨の書式 | {mid($, 2, 3)} |
テキスト | ABCDE |
プラットフォームによって返される一般フィールド | BCD |
- フィールドを定義および設定する
- 一般フィールドについて
- 一般フィールドの種類
- トレーニング可能な一般フィールドとトレーニング不可の一般フィールド
- 一般フィールド用の既成のテンプレート
- 一般フィールドの標準テンプレートのフィールドの種類
- 一般フィールドを管理する
- 新しいデータセットで一般フィールドを有効化する
- 既存のデータセットの一般フィールドを有効化、更新、無効化する
- 一般フィールドを有効化する
- 一般フィールドを更新する
- 一般フィールドを無効化する
- 新しい一般フィールドを作成する
- フィールドの型
- 一般フィールドのタイトル
- 新しいデータセットで一般フィールドを有効化する
- 既存のデータセットの一般フィールドを管理する
- 一般フィールドのフィルター処理
- 高度な予測フィルターを適用する
- 一般フィールド バー
- 一般フィールド フィルターを追加
- 一般フィールド バーのフィルターと追加された一般フィールドのフィルターを組み合わせる
- トレーニング用に一般フィールドのフィルターを組み合わせて一般フィールドで並べ替える
- 一般フィールドを確認および適用する
- 一般フィールドの予測を識別する
- トレーニング可能な一般フィールドの一般フィールドの予測を行う
- 一般フィールドの信頼度スコア
- 一般フィールドの予測を承認および却下する
- 一般フィールドを適用する
- ベスト プラクティス
- 一般フィールドの検証
- はじめに
- 一般フィールド検証の仕組み
- スコアを計算する
- トレーニング可能な一般フィールド
- 事前トレーニング済みの一般フィールド
- 統計情報の概要を理解する
- メトリック
- 一般フィールドのパフォーマンスを理解する
- 個々の一般フィールドのパフォーマンス
- 一般フィールドのパフォーマンスを改善する
- 概要
- 一般フィールドの推奨アクション
- 一般フィールド トレーニング モード
- 「一般フィールドを教える」を使用する
- 「一般フィールドを確認」を使用する
- [見逃された一般フィールド] を使用する
- カスタム正規表現の一般フィールドを構築する
- カスタム正規表現の一般フィールド
- カスタムの正規表現テンプレート
- 先行入力の検証
- 抽出結果のプレビュー
- 正規表現
- 通貨の書式
- 変数
- 文字列の操作
- 関数
- Upper
- Lower
- Proper
- Pad
- Substitute
- 左
- 右
- Mid