communications-mining
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
Communications Mining ガイド
Last updated 2024年11月7日

一般フィールドを使用する

このプラットフォームで一般フィールドを設定およびトレーニングするためのガイドです。

フィールドを定義および設定する

Communications Mining のデータから抽出する主要なデータ ポイント (フィールド) を定義することが重要です。これらは通常、下流の自動化を促進しますが、分析、特に自動化の機会の潜在的な成功率とメリットを評価する場合にも役立ちます。

以下の定義は、一般フィールドと抽出フィールドの違いを理解するのに役立ちます。
  • 一般フィールドとは、抽出対象のフィールドのことであり、データセット内の複数の異なるトピック/ラベルにまたがって存在する可能性があります。
  • 抽出フィールドとは、特定のラベルに基づいて条件付けおよび作成されるフィールドのことです。つまり、自動化する特定のラベルに関連付けられます。
注: お使いのリージョンで生成 AI による抽出が利用可能な場合は、メッセージに信頼できるラベルの予測がない場合に備えて、抽出フィールドのバックアップとして一般フィールドを使用することをお勧めします。特定のラベルにリンクされた抽出フィールドを使用してエンドツーエンドの自動化を容易にし、一般的なフィールドを使用して自動トリアージを促進します。

[生成 AI による抽出] フィールドおよび [一般] フィールドと [抽出] フィールドの比較について詳しくは、公式ドキュメントをご覧ください。お使いのリージョンで生成 AI による抽出を利用できない場合は、引き続き通常どおり一般フィールドを使用します。このセクションの残りの部分では、一般フィールドの使用方法に関するガイダンスを提供します。

最終的には、一般フィールドの予測をラベルと組み合わせることで、特定のタスクやプロセスを完了するために必要な構造化データ ポイントを提供して、自動化を促進できます。データセット内の一般フィールドをラベルと一緒にトレーニングするほうが、一方を重点的に作業した後に他方を重点的に作業するよりも (つまり、ラベルの完全なタクソノミーをトレーニングした後に一般フィールドをトレーニングするよりも)、はるかに時間効率に優れています。

注: 住所変更リクエストを自動化する場合、ラベルを使用してリクエストの種類をキャプチャすると同時に、一般フィールドを使用して住所のさまざまな要素 (住所、市区町村、郵便番号など) をキャプチャします。各予測を API 経由で利用可能にして、すべてのメッセージに対応できます。

一般フィールドについて

注: お使いのリージョンで生成 AI による抽出が利用可能な場合は、メッセージに信頼できるラベルの予測がない場合に備えて、抽出フィールドのバックアップとして一般フィールドを使用することをお勧めします。特定のラベルにリンクされた抽出フィールドを使用してエンドツーエンドの自動化を容易にし、一般的なフィールドを使用して自動トリアージを促進します。

[生成 AI による抽出] フィールドおよび [一般] フィールドと [抽出] フィールドの比較について詳しくは、公式ドキュメントをご覧ください。お使いのリージョンで生成 AI による抽出を利用できない場合は、引き続き通常どおり一般フィールドを使用します。このセクションの残りの部分では、一般フィールドの使用方法に関するガイダンスを提供します。

一般フィールドとは

一般フィールドは、データセットに含まれるメッセージ内から抽出できる構造化データの追加要素です。一般フィールドには、金額、日付、通貨コード、メール アドレス、URL などの他に、業界固有のさまざまなカテゴリのデータ ポイントが含まれます (以下の例を参照)。

住所、市区町村名、保険証券番号の一般フィールドが予測されているメール メッセージの例

ほとんどの一般フィールドは、有効化されるとすぐに予測可能になります (ゼロからトレーニングしたものを除く)。一般フィールドは、その一般的な形式 (場合によっては非常に特殊な形式) と、類似する一般フィールドのトレーニング セットに基づいて識別できるためです。

ラベルと同様に、正しく予測された一般フィールドや誤って予測された一般フィールドを承認または却下し、今後モデルがその一般フィールドを識別する能力を強化することができます。

一般フィールドの種類

現在、一般フィールドには主に次の 2 種類があります。

  • 一連の標準的なルールまたはカスタム定義ルールに基づいた、事前トレーニング済みの一般フィールド (例: 金額、URL、日付)
  • ユーザーが (ラベルをトレーニングする場合と同じ方法で) ゼロからトレーニングした、マシン ラーニングに基づいた一般フィールド

トレーニング可能な一般フィールドとトレーニング不可の一般フィールド

すべての一般フィールドは、本質的に「トレーニング可能」であるか (ゼロからトレーニングされた一般フィールド)、または有効化すると「トレーニング可能」にすることができます (その他のすべての一般フィールドの種類)。

トレーニング可能な一般フィールドとは、ユーザーが行うトレーニングに基づいてプラットフォーム内でリアルタイムで更新される一般フィールドです。一般フィールドのトレーニングについて詳しくは、こちらをご覧ください。

一連の標準的なルールまたはカスタム定義ルールに基づく事前トレーニング済みの一般フィールドでトレーニングを有効化すると、それらのルールのパラメーターの範囲内で、一般フィールドに対するプラットフォームの理解を改良できます。これらの一般フィールドでさらにトレーニングを行うと、プラットフォームがその一般フィールドと見なすことができる範囲は縮小し、拡大することはありません。

その理由は、日付 (例:「明日」) や金額 (例: £20) など、これらの一般フィールドの多くは、構造化されたデータ形式に正規化して下流のシステムで利用できるようにする必要があるためです。また、ISIN や CUSIP などの一般フィールドの場合、所定の形式が必須であるため、定義された形式に準拠しない一般フィールドを予測するようにプラットフォームに教えてはなりません。

トレーニング可能な一般フィールドを割り当てると、一般フィールドのテキストと、コミュニケーションの他の部分での一般フィールドコンテキスト、すなわち一般フィールドの値の前後 (同じ段落と前後の段落) の内容の両方が確認されます。プラットフォームは、値そのものと、その値がコミュニケーションのコンテキスト内にどのように出現するかに基づいて学習し、より適切に一般フィールドを予測するようになります。

事前トレーニング済みの一般フィールドがトレーニング可能として設定されていない場合でも、データセット内の一般フィールドの予測を承認または却下できます。エンティティの予測は、ユーザーがプラットフォーム内で行うフィードバックを使用してオフラインで更新および改良されます。メッセージの確認時に、これらの一般フィールドを承認または拒否すると便利です。データセットで一般フィールドを有効化する方法について詳しくは、「一般フィールドを有効化、無効化、更新、作成する」をご覧ください。

一般フィールドで利用可能な既製のテンプレート

注: すべての一般フィールドをトレーニング可能として有効化し、トレーニングによってプラットフォームの理解を改良して、その種類の一般フィールドと見なされる範囲を減らすことができます。

一般フィールドの標準テンプレートのフィールドの種類

一般フィールドの種類を設定する場合は、フィールドの種類のデータ型を選択する際のテンプレート オプションを使用して、次の事前構築済みオプションのいずれかを選択できます。

一般フィールドの種類説明
メールメール アドレスです。
通貨通貨コードです (例: 英ポンド、スイスフラン、米ドル)。
URLUniform Resource Locator (Web アドレス) です。
SEDOL (SEDOL コード)金融証券識別子です。Stock Exchange Daily Official List の略語で、長さは 7 文字です。
BIC コード金融機関識別コード (BIC) は、ビジネス トランザクションをルーティングし、関係者を識別するための ISO 9362 に基づく国際標準です。BIC コードの長さは 8 文字または 11 文字です。
LEI (取引主体識別子)Legal Entity Identifier (LEI) は、金融取引に参加する取引主体の一意のグローバル識別子です。LEI は 20 文字の英数字のコードの形式です。
ISIN (ISIN コード)国際証券コード番号 (ISIN) は、金融証券を一意に識別します。ISIN は 12 文字の英数字のコードです。

Mark-to-market

(MTM または M2M)

Mark-to-market とは、資産または負債の公正価格を指します。Mark-to-market は、現在の市場価格、類似する資産と負債の価格、または客観的に考慮した公正な価格に基づきます。
CUSIP (証券識別コード)CUSIP は北米の金融証券を識別する 9 桁の数字または 9 文字の英数字コードであり、取引の決済を容易にすることを目的としています。

一般フィールドを有効化、無効化、更新、作成する

必要なユーザー権限: 「ソースの表示」および「データセットの更新」、または「データセット管理者」

注: 1 件のデータセットあたりの一般フィールドの既定のクォータは 25 です。25 を超える一般フィールドが必要な場合は、アカウント チーム経由でクォータの引き上げをリクエストしてください。

新しいデータセットで一般フィールドを有効化する

新しく作成するデータセットで一般フィールドを有効化するには、設定プロセス中に一般フィールドを選択します。

以下に示すボックスの [+] ボタンをクリックすると、そのデータセットに対して有効化できるすべての一般フィールドのドロップダウン メニューが表示されます。データセットを作成する前に、有効化する一般フィールドをすべてクリックします。間違って追加した一般フィールドがある場合は、その一般フィールド名の横にある [X] アイコンをクリックして削除できます。

新しいデータセットの作成方法について詳しくは、こちらをご覧ください。

[新しいデータセットを作成] モーダル

既存のデータセットの一般フィールドを有効化、更新、無効化する

既存のデータセットの一般フィールドを有効化、更新、無効化するには、上部のナビゲーション バーにある [設定] タブから [ラベルと抽出フィールド] タブを選択します。

[設定] > [ラベルと抽出フィールド] タブ

一般フィールドを有効化する

既存の一般フィールドを有効化するには、[一般フィールド] ボックス内をクリックし、ドロップダウン メニューから有効化する一般フィールドを選択します。選択した項目に問題がなければ、[一般フィールドを更新する] を選択します (以下を参照)。

これらの一般フィールドでは、設定が事前に選択されます。その後、以下に示すように、一般フィールドをトレーニング可能にするなど、一般フィールドを更新できます。

[一般フィールド] タブ

一般フィールドを更新する

有効化された一般フィールドを更新するには、上の画像に示すように、[一般フィールド] ボックスで一般フィールドをクリックすると、[一般フィールドを編集] モーダル (以下) が表示されます。

ここでは、ベースの一般フィールド一般フィールドのタイトルAPI 名 (これらの概念については後で詳しく説明します) を更新したり、一般フィールドを「トレーニング可能」に設定したりできます。

「トレーニング可能」に設定されていなかった一般フィールドの種類について、一般フィールドを以前に確認済みである場合、この情報は引き続き保存されます。

[一般フィールドを編集] モーダル

一般フィールドを無効化する

選択した一般フィールドを削除するには、一般フィールドの名前の横にある [X] アイコンをクリックし、[一般フィールドを更新する] をクリックします。

注:

一般フィールドを削除して [一般フィールドを更新する] をクリックすると、このデータセットの削除した一般フィールドのトレーニング データも削除されます。この一般フィールドを再度有効化する場合は、一般フィールドを再度トレーニングする必要があります。

一般フィールドの更新中に操作を間違えた場合は[一般フィールドを更新する] をクリックする前に [リセット] をクリックすると、変更は適用されません。

新しい一般フィールドを作成する

上記のセクションでは、新しいデータセットと既存のデータセットの両方に対して、既存の事前トレーニング済みの一般フィールドを有効化および更新する方法について説明しました。また、新しいデータセットまたは既存のデータセットのいずれにおいても、新しい一般フィールドを作成することもできます。

新しく作成した一般フィールドは、既存の事前トレーニング済みの一般フィールドを基にすることも、ゼロからトレーニングすることもできます (新しいラベルの場合と同様)。

このためには、「データセットの作成」フローまたはデータセットの設定ページ (上記を参照) で、[一般フィールド] ボックスの [+] アイコンをクリックします。

これにより、以下に示すように [新しい一般フィールドを追加する] モーダルが表示されます。

ここで、フィールドの種類タイトルAPI 名を設定できるほか、一般フィールドをトレーニング可能にするかどうかを選択できます (上記の説明のように、これらは後で更新できます)。

各フィールドに入力したら (以下で説明)、[作成] をクリックします。

新しい一般フィールド モーダルを作成する

フィールドの型

  • これは新しい一般フィールドの初期ステートとして機能します。ドロップダウンには、利用可能な事前トレーニング済みのすべての一般フィールドのリストが表示されます。
    • たとえば、ベースの一般フィールドとして「日付」を選択した場合、この種類の一般フィールドに対して予測される一般フィールドはすべて日付になります。その後、特定の日付のみを認識するようにプラットフォームをトレーニングできます。
  • 一般フィールドを完全にゼロからトレーニングする場合は、[なし (ゼロからトレーニング)] を選択できます。こうすることで、一般フィールドをトレーニングする際に、基本的に空のキャンバスから始めることができます。この一般フィールドに対するプラットフォームの予測は完全に、ユーザーが提供するトレーニング例に基づきます。

一般フィールドのタイトル

  • 一般フィールドのタイトルは、プラットフォームの UI に表示される一般フィールドの名前です。

API 名

  • 一般フィールドの API 名は、メッセージの予測を提供するときに API 経由で返される名前です。
  • API 名にスペースや句読点を含めることはできません。ただし、ダッシュ ( - ) とアンダースコア ( _ ) は使用できます。

一般フィールドのフィルター処理

必要なユーザー権限:「ソースの表示」および「View general fields」

ラベルの場合と同様に、[探索] と [レポート] のどちらでも、一般フィールドが予測されているか、割り当てられているかどうかでメッセージをフィルター処理できます。

複数の一般フィールド フィルターを適用する場合、「AND」「次のいずれか」「NOT」を任意に組み合わせて適用できます。これらのフィルターにより、データのトレーニングや解釈をさらに柔軟に行うことができ、コミュニケーション チャネルで何が起こっているかについて、より深い洞察を得ることができます。

一般フィールドの予測でフィルター処理するときに実行できる操作の一部を次に示します。

  • [探索] と [レポート] の両方で複数の一般フィールド フィルターを同時に適用する
  • フィルターを適用し、選択した複数の一般フィールドの 1 つが予測されているメッセージに絞り込む (つまり、次のいずれか: 一般フィールド X AND 一般フィールド Y AND ...)
  • フィルターを適用し、複数の異なる一般フィールドが予測されているメッセージに絞り込む (つまり、一般フィールド X AND 一般フィールド Y AND ...)
  • フィルターを適用し、特定の一般フィールドが予測されていないメッセージに絞り込む (つまり、NOT 一般フィールド Y)
  • 一般フィールド フィルターを適用しながら、特定の検索語句を含む一般フィールドを検索する

以下のように、データセットで有効化されているすべての一般フィールドがフィルター バーに表示されます。一般フィールドの割り当てについては、「一般フィールドを確認および適用する」で詳しく説明しています。

高度な予測フィルターを適用する

一般フィールド フィルターを適用する方法は 2 つあり、これらを互いに組み合わせて使用することで、適切な種類のクエリを作成できます。

一般フィールドのフィルター バーは次のようになります。


上の図は既定のステートを示しています。ここではフィルターは適用されておらず、すべてのメッセージが表示されています (ただし、別のフィルターが適用されている場合を除きます)。

一般フィールド フィルターを更新するには、以下で説明するボタンを使用します。選択すると色が変わります。

docs imageアノテーション済みの一般フィールドを含むメッセージを表示
docs image一般フィールドを含むと予測されたメッセージを表示

メッセージにフィルターを適用して、アノテーション済みの一般フィールドを持つ、または一般フィールドを含むと予測されているメッセージに絞り込む場合は、上部にあるボタンを使用します (上図を参照)。メッセージにフィルターを適用して、特定のアノテーション済みまたは予測されている一般フィールドを含むメッセージに絞り込む場合は、対象の一般フィールドにカーソルを合わせると、同じ 2 つのボタンが右側に表示されます。

フィルターを適用して、割り当てられているか予測されている一般フィールドに絞り込む場合は、一般フィールドの名前を選択すると、いずれかを含むメッセージが表示されます。

選択項目を削除するには、ボタンをもう一度選択し、複数の選択項目を削除するには、[すべて] を選択します。フィルター バーの上部にある [すべてクリア] を選択することもできますが、この場合、一般フィールド フィルターだけでなく選択したすべてのフィルターがクリアされます。

一般フィールド バー

一般フィールドのタクソノミーは通常のフィルター バーとして機能します。各一般フィールドを 1 回クリックするだけで、複数の一般フィールドを一度に選択できます。

リストから複数の一般フィールドを選択すると、「次のいずれか」の種類のクエリが作成されます。

一般フィールド バーで、一般フィールド A、一般フィールド B、および一般フィールド C を選択した場合は、「一般フィールド A、一般フィールド B、または一般フィールド C が予測されたメッセージを表示してください。」というクエリが作成されます。

フィルターを適用して特定の一般フィールドに絞り込む場合、複数の一般フィールドを選択できます。たとえば、フィルターを適用して、住所の一般フィールドが割り当てられているメッセージ、または市区町村の一般フィールド (以下を参照) が予測されているメッセージに絞り込んで表示できます。

予測されている請求書 ID または割り当てられている製品 ID が選択された一般フィールドを含む一般フィールドのフィルター バー

一般フィールド フィルターを追加

2 番目のフィルター オプションは、一般フィールド バーの上にある [+ 一般フィールド フィルターを追加] ボタンです。

これをクリックすると、ドロップダウンの一般フィールド バーが有効化され、特定の一般フィールドを対象から除外するなどの、より複雑なフィルターを選択できます。

このドロップダウンから、含める/除外する一般フィールドを複数選択できます。その場合、一般フィールドの名前をクリックするか (割り当てられていて、かつ予測されている場合)、または個々のボタンをクリックします (この一般フィールドが割り当てられておらず、予測もされていない場合にマイナス ボタンをクリックすることを含みます)。

結果は次の例のようになり、請求書 ID の一般フィールドがあると予測されているが、製品 ID 一般フィールドは割り当てられても予測されてもいないメッセージが返されます。



[+ 一般フィールド フィルターを追加] を複数回選択して、クエリにレイヤーを追加できます。一般フィールド フィルターを 2 つ設定すると AND の種類のクエリが作成されるのに対し、同じ一般フィールド フィルターで複数の一般フィールドを選択すると「次のいずれか」の種類のクエリが作成されます。

以下の例では、複数の一般フィールド フィルターが個別に適用されています。これにより、1 つ目のフィルターの 3 つの一般フィールドのいずれかに加えて Policy Number 一般フィールドが含まれると予測されており、UK Postcode 一般フィールドは含まれないと予測されている、または UK Postcode 一般フィールドが割り当てられていないメッセージを返すフィルターが作成されます。

ANY OF、AND および NOT の一般フィールド フィルターを組み合わせた複雑な一般フィールド クエリの例

役立つヒントとして、複数の一般フィールドが含まれる個々のフィルターで & 記号を選択すると、自動的に別々のフィルターに分割できます。これにより、クエリが「次のいずれか」 (これらの一般フィールドのいずれかが予測されている) から AND (これらの一般フィールドがすべて予測されている) に変更されます。

一般フィールド バーのフィルターと追加された一般フィールドのフィルターを組み合わせる

一般フィールド バー フィルターと、個別に追加した一般フィールド フィルターを組み合わせることができます。一般フィールド バーで適用したフィルターは、個別に適用した一般フィールド フィルターとともに AND クエリとして扱われます。

たとえば、次の図に示すクエリの組み合わせは、ORDER ID または PROD ID のいずれかが予測されているメッセージを返します。

一般フィールド バーを使用した一般フィールド フィルターと、個別に追加された一般フィールド フィルターを組み合わせます。

トレーニング用に一般フィールドのフィルターを組み合わせて一般フィールドで並べ替える

また、トレーニング モードでは、一般フィールド フィルターを適用しながら特定の一般フィールドで並べ替えることができます。

特定の一般フィールドの [一般フィールドを確認] モードが表示され、追加の一般フィールド除外フィルターが適用されている [探索] ページの例:


一般フィールドを確認および適用する

必要なユーザー権限:「ソースの表示」および「確認とラベル付け」

一般フィールドの予測を識別する

予測された一般フィールドは、以下のメッセージの 1 行目のように、色で強調表示されたテキストとして表示されます。異なる一般フィールドの種類は異なる色で表示されます。ユーザーが一般フィールドを手動で適用するか、予測を受け入れて一般フィールドを確認すると、その一般フィールドは、以下のように、太く暗い枠線で強調表示されたテキストとして表示されます。

段落内に、割り当てられた一般フィールド、却下された一般フィールド、適用された一般フィールドがある場合、その段落は、以下のメッセージの本文のように灰色で強調表示されます。

一般フィールド形式の例

このプラットフォームでの、トレーニング可能な一般フィールドに対する一般フィールドの予測方法

トレーニング可能な一般フィールドを確認する際に留意すべき重要な点は、このプラットフォームは、ユーザーが割り当てた一般フィールドの値と、コミュニケーション内でその値が出現する場所のコンテキスト (値そのものの周囲で使用されている他の言語) の両方から学習するという点です。

このプラットフォームでは、一般フィールドの値と同じ段落内にある言語のコンテキストと、一般フィールドが存在する段落の直前・直後にある 1 つの段落 (改行で示される) が考慮されます。

注: [トレーニング可能] に設定されていない一般フィールドの場合、プラットフォームの予測は、プラットフォーム内でその一般フィールドに対して定義されているルールに完全に基づきます。これは、一般フィールドが必ず下流のオートメーションの所定の形式に従う必要があり、値が正しくないと失敗や例外が発生する場合に便利です。

一般フィールドの信頼度スコア

このプラットフォームは、コミュニケーションに適用される一般フィールドを予測する際に、各予測に信頼度スコア (%) を割り当てて、強調表示されたテキスト範囲にどの程度の信頼度で一般フィールドが適用されているかを示します。一般フィールドの信頼度スコアを表示するには、一般フィールド上でホバーします。

この信頼度スコアは API 経由でも利用できるため、下流で実行される自動化アクションに情報を提供できます。

一般フィールドの信頼度スコアの例

一般フィールドの予測を承認および却下する

一般フィールドが有効化されると (こちらを参照)、自動的にデータセット全体でメッセージ内の一般フィールドの予測が開始されます。その後、ユーザーは予測が正しければ承認し、正しくなければ却下できます。これらの各操作を実行することでトレーニング シグナルを送り、このシグナルを使用して、その一般フィールドに対するプラットフォームの理解を改善します。

オフラインでトレーニングされる事前トレーニング済みの一般フィールド (例: 金額、URL など) の場合、改善の観点から、ユーザーが正しい予測を承認することよりも、間違った予測を却下または修正することのほうが重要です。

プラットフォーム内でリアルタイムでトレーニングされる一般フィールドの場合は、正しい予測を承認することと、誤った予測を却下することは等しく重要です。ただし、間違って予測されたものが見つからなければ、同じ種類の一意の一般フィールドそれぞれについて正しい例をいくつも承認し続ける必要はありません (たとえば、Example Bank Ltd. は一意の組織の一般フィールドです)。

この場合の重要な注意点として、段落内の一般フィールドを 1 つでも確認した場合は、同じ段落内の他の一般フィールドをすべて確認する必要があります。

一般フィールドの予測を確認するには、予測の上にホバーすると、以下の例に示すように一般フィールドの確認モーダルが表示されます。承認するには [確定] をクリックし、却下するには [却下] をクリックします。

一般フィールドとラベルは、互いに独立してトレーニングできます。メッセージのラベルを確認しても、同じメッセージ内の一般フィールドを確認する必要はありませんただし、モデル トレーニング中に時間を最も効率的に使うために、両方を同時に行うことをお勧めします。

注: 一般フィールドをトレーニングする際には、以下で説明するベスト プラクティス (特に、段落に部分的にアノテーションを行わないことに関するベスト プラクティス) に従うことが非常に重要です。

データセットに対して有効化されている各一般フィールド (特にトレーニング可能な一般フィールド) を、プラットフォームがどの程度適切に予測できるかを理解するには、こちらをご覧ください。

割り当てられた一般フィールドと予測された一般フィールドの両方を含むメッセージの例

注:

一般フィールドの誤った予測を却下することは重要ですが、強調表示されたテキストが実際には別の一般フィールド内にあった場合 (日付関連の一般フィールドでよくあります)、後で正しい一般フィールドを適用します (一般フィールドの適用方法については、以下をご覧ください)。

一般フィールドを適用する

予測されなかった可能性があるテキストに一般フィールドを適用するには、コピーする場合と同じように、テキストのセクションを強調表示します。

以下に示すように、データセットに対して有効化したすべての一般フィールドを含むドロップダウン メニューが表示されます。正しい一般フィールドをクリックして適用するか、対応するキーボード ショートカットを押します。

各一般フィールドの既定のキーボード ショートカットは、その一般フィールドの先頭の文字です。複数の一般フィールドが同じ文字で始まる場合、もう一方の一般フィールドにはランダムな文字が割り当てられます。

一般フィールドの適用モーダルが表示されたメッセージの例

一般フィールドが適用されると、色と太い枠線付きで強調表示されます (以下を参照)。一般フィールドの種類ごとに独自の色があります。

適用された「保険証券番号」一般フィールドが表示されたメッセージの例

注:

特定の一般フィールドの種類の値を複数の段落に分割することはできません。1 つの一般フィールドの値として抽出するには、値全体が 1 つの段落内に含まれている必要があります。

ベスト プラクティス

メッセージ内の一般フィールドを承認、却下、適用する際に留意すべき非常に重要なベスト プラクティスは 2 つあります。

1. 単語を分割しない

単語を分割しないことが重要です。強調表示された一般フィールドは、対象となる単語の一部だけでなく、単語全体 (または複数の単語) をカバーする必要があります (下の左側にある誤った例と、右側にある正しい適用例をご覧ください)。

「住所行」一般フィールドの誤った適用例

「住所」一般フィールドの正しい適用例

2. 段落を部分的にアノテーションを行わない

アノテーションを行う際に、あるメッセージに 1 つのラベルを割り当てた場合、そのメッセージに適用できるラベルを「すべて」適用する必要があります。そうしないと、他のラベルは適用する必要がないとモデルに教えることになります。一般フィールドについても同じことが当てはまります。ただし、一般フィールドをメッセージ全体ではなく段落レベルで確認または適用する場合を除きます。

メッセージ内の段落は改行で区切られます。メールのメッセージの件名は、それ自体が 1 つの段落と見なされます。

段落内のいずれかの一般フィールドを確認または適用した場合は、必ず、同じ段落内のすべて一般フィールドを確認または適用してください。段落内の一般フィールドを適用、承認、却下すると、その段落は、一般フィールドの観点からは「確認済み」として扱われます。したがって、その段落の「すべて」の予測を承認または却下することが重要です。

以下の例は、メール メッセージ内で確認されたさまざまな段落を示しています。

複数の段落にまたがって正しく確認された一般フィールドが表示されたメール メッセージの例

以下に示すメッセージは同じ例を示していますが、こちらではユーザーが 1 つの段落内にあるすべての一般フィールドの予測を承認または却下していません。モデルが金額の一般フィールドを不正確な予測として扱うことになるため、これは間違いです。

適切に確認されていないメール メッセージの例

一般フィールドの検証

はじめに

プラットフォームの [検証] ページには、有効化されている一般フィールドの検証の統計情報、警告、および推奨されるアクションが表示されます。これはタクソノミー内のすべてのラベルの場合と同様です。

これらを確認するには、次の図に示すように、[検証] ページに移動して上部の [一般フィールド] タブを選択します。

一般フィールドの [検証] ページにアクセスする方法

一般フィールド検証はどのように機能しますか?

一般フィールドを正しく予測する能力をプラットフォームが検証するプロセスは、ラベルの場合と非常によく似ています。

メッセージを初めてデータセットに追加すると、トレーニング セットとテスト セット (各メッセージのメッセージ ID でランダムに決定) に分割されます (80 対 20)。割り当てられた一般フィールド (承認または修正された予測) は、その一般フィールドが含まれるメッセージが最初にトレーニング セットまたはテスト セットのどちらに割り当てられていたかに基づいて、どちらかのセットに分類されます。

場合によっては、1 件のメッセージに大量の一般フィールドが存在していて、メッセージがトレーニング セットまたはテスト セットのどちらに含まれるかを保証できないため、各セット内の一般フィールドの数に大きな差が見られることがあります。

割り当てられた一般フィールドがすべてトレーニング セットに分類されることもあります。検証スコアを計算するには、テスト セットに少なくとも 1 つの例が必要であるため、このような一般フィールドでは、テスト セットに例がいくつか存在するようになるまで、割り当てられた例を追加する必要があります。

スコアの計算方法

十分なトレーニング データがある各一般フィールドの個々の適合率と再現率の統計情報は、ラベルの統計情報と非常によく似た方法で計算されます。

精度 = 一致する一般フィールドの数/予測された一般フィールドの数

再現率 = 一致する一般フィールドの数/実際の一般フィールドの数

「一致する一般フィールド」とは、プラットフォームが一般フィールドを正確に予測した (部分一致のない) 場所です。

F1 スコアは、単に適合率再現率の両方の調和平均です。

トレーニング可能な一般フィールド

このページに示す適合率と再現率の統計情報は、プラットフォームで常時トレーニング可能な一般フィールド (上の 2 番目の段で説明) で最も役に立ちます。これらの一般フィールドの種類について確認されたすべての一般フィールドは、プラットフォームがその一般フィールドを予測する機能に直接影響するためです。

したがって、可能な限り、正しい一般フィールドを承認し、誤った一般フィールドを修正または却下する必要があります。

事前トレーニング済みの一般フィールド

テンプレートのフィールドの種類を使用して事前トレーニング済みの一般フィールドの場合、検証の統計情報にパフォーマンスを正確に反映させるには、かなりの量の正しい予測を承認することに加え、誤った予測を確実に修正する必要があります。

誤った予測を修正しただけでは、トレーニング セットとテスト セットは、プラットフォームが一般フィールドの予測に苦労した事例だけでいっぱいになってしまい、プラットフォームがより適切に予測できる事例は提供されず不自然です。このような一般フィールドの間違った予測を修正しても一般フィールドはリアルタイムに更新されないため (定期的にオフラインで更新されます)、検証の統計情報がしばらくの間変わらず、不自然に低くなる可能性があります。

正しい予測を大量に承認しても必ずしも便利であるとは限りません。このような一般フィールドは多くの場合、正しく予測されるためです。ただし、一般フィールドの予測の大部分が正しい場合は、[検証] ページの適合率と再現率の統計情報について心配する必要はないと考えられます。

統計情報の概要の意味

統計情報の概要 (平均適合率、平均再現率、平均 F1 スコア) とは、単に一般フィールドの個々のスコアそれぞれの平均値です。

ラベルの場合と同様に、十分なトレーニング データがある一般フィールドのみが平均スコアに含まれます。十分なトレーニング データがなく、スコアに含めることができない一般フィールドには、名前の横に警告アイコンが表示されます。

注: 統計情報の概要には、十分なトレーニング データがあるすべての一般フィールド (常時トレーニング可能な一般フィールドと事前トレーニング済みの一般フィールドの両方) が組み込まれます。事前トレーニング済みの一般フィールドの予測は、多くの場合、誤っているときに修正されるだけで、正しいときに常に承認されるとは限りません。つまり、その適合率と再現率の統計情報は不自然に低いことが多く、そのため平均スコアが低下します。

メトリック

一般フィールドの [検証] ページには、一般フィールドの平均パフォーマンスの統計情報、および各一般フィールドの平均 F1 スコアとトレーニング セットのサイズを示すグラフが表示されます。また、このグラフでは、琥珀色または赤色のパフォーマンス警告がある一般フィールドにフラグが付けられています。



表示される一般フィールドのパフォーマンス統計情報は次のとおりです。

  • 平均 F1 スコア: パフォーマンスを正確に推測するのに十分なデータがあるすべての一般フィールドの F1 スコアの平均値です。このスコアでは、再現率と適合率が均等に重み付けされています。F1 スコアが高いモデルでは偽陽性と偽陰性が少なくなります。
  • 平均適合率: パフォーマンスを正確に推定するのに十分なデータを含むすべての一般フィールドの適合率スコアの平均値です。適合率の高いモデルでは偽陽性が少なくなります。
  • 平均再現率: パフォーマンスを正確に推定するのに十分なデータを持つすべての一般フィールドの再現率スコアの平均値です。再現率の高いモデルでは偽陰性が少なくなります。

一般フィールドのパフォーマンスを理解する

[検証] ページの [メトリック] タブに表示される一般フィールドのパフォーマンスのグラフ (上記を参照) は、個々の一般フィールドのパフォーマンスを即座に視覚的に示します。

このグラフに一般フィールドを表示するには、検証中にプラットフォームによって使用されるトレーニング セットに、ピン留めされた例が 20 個以上含まれている必要があります。そのためには、25 件の異なるメッセージで、一般フィールド 1 個につき 25 個以上 (多くの場合それ以上) のピン留めされた例があるようにする必要があります。

各一般フィールドは、一般フィールドのパフォーマンスについてのモデルの理解に基づいて、3 色のいずれかでプロットされます。色の意味については、以下のセクションで説明します。

一般フィールドのパフォーマンス指標

一般フィールドのパフォーマンス指標:

  • グラフにでプロットされている一般フィールドは、パフォーマンス レベルが十分な一般フィールドです。これは、例の数と種類、その一般フィールドの平均適合率など、多様な要因に基づいています。
  • 琥珀色でプロットされている一般フィールドは、十分なパフォーマンスをわずかに下回る一般フィールドです。平均適合率が比較的低いか、トレーニング例が十分でない可能性があります。このような一般フィールドは、パフォーマンスを改善するためにトレーニング/修正が少し必要です。
  • でプロットされている一般フィールドは、パフォーマンスの低い一般フィールドです。平均適合率が非常に低いか、トレーニング例が十分でない可能性があります。このような一般フィールドは、パフォーマンスを十分なレベルに引き上げるために、さらにかなりのトレーニング/修正が必要である可能性があります。
注: 琥珀色と赤色のパフォーマンス インジケーターは、[探索]、[レポート]、および [検証] ページの一般フィールド フィルター バーに表示されます。このインジケーターは、どの一般フィールドを改善する必要があるかに加え、分析機能を使用するときにどの一般フィールドの予測を (改善作業なしでは) 信頼すべきではないかを素早く知るのに役立ちます。

個々の一般フィールドのパフォーマンス

一般フィールドのパフォーマンス統計情報を表示するには、一般フィールド フィルター バーから個々の一般フィールドを選択します (または、すべての一般フィールド グラフの一般フィールドのプロットをクリックします)。

特定の一般フィールド ビューには、パフォーマンスの警告と、パフォーマンスの改善に役立つ、推奨される次の操作の提案も表示されます。

一般フィールド ビューには、一般フィールドの平均 F1 スコア、およびその適合率と再現率が表示されます。
推奨事項が表示されている一般フィールド カードの例docs image

一般フィールドのパフォーマンスを改善する

必要なユーザー権限:「確認とアノテーション」

概要

ラベルのトレーニングと同様に、一般フィールドのトレーニングも、さまざまなトレーニング モードを使用して、どの一般フィールドが特定のメッセージに適用されるかをプラットフォームに教えるプロセスです。

ラベルと同様に、「教える」「確認」「見逃し」のモードを利用して、一般フィールドのトレーニングとパフォーマンスを改善できます。各モードにアクセスするには、1) [探索] ページのトレーニングのドロップダウンを使用するか、2) [検証] ページの [一般フィールド] タブの推奨されるアクションに従います。

[検索] の一般フィールド トレーニング モードを含むドロップダウン メニューは、以下のようになります。


一般フィールドの推奨アクション

特定の一般フィールドにパフォーマンス警告が付いている場合、その警告に対処するのに役立つと思われる推奨される次の操作優先度順に表示されます。これは、タクソノミーまたはすべての一般フィールドのグラフから特定の一般フィールドを選択すると表示されます。

次に行うべき操作の提案はリンクとして機能します。このリンクをクリックすると、プラットフォームによって提案されたトレーニング ビューに直接移動し、一般フィールドのパフォーマンスを向上させることができます。提案はインテリジェントに並べられており、一般フィールドを改善する上で最も優先度の高い操作が最初に表示されています。

提案は、一般フィールドのパフォーマンスを理解するのに役立つ最も重要なツールであり、一般フィールドのパフォーマンスを改善する際にガイドとして定期的に使用することをお勧めします。

推奨事項が表示されている一般フィールド カードの例を次に示します。


一般フィールド トレーニング モード

次の表は、どのような場合に一般フィールドの各トレーニング モードが推奨されるかをまとめたものです。

一般フィールドを教える一般フィールドを確認見逃された一般フィールド

- ラベルが適用されるかどうかについてモデルが最も混乱しているラベルの予測を表示する場合

- 未確認のメッセージで一般フィールドをトレーニングする場合

- 一般フィールドが誤って適用されている可能性があると考えられるメッセージを表示する場合

- 確認済みのメッセージで一般フィールドをトレーニングし、不一致を見つけて修正を試みる場合

- 選択した一般フィールドが見逃されている可能性があると考えられるメッセージを表示する場合

- 確認済みのメッセージで一般フィールドをトレーニングし、不一致を見つけて修正を試みる場合

「一般フィールドを教える」を使用する

「一般フィールドを教える」を使用して、一般フィールドのパフォーマンスを改善します。すでに信頼度の高い予測があるモデルではなく、モデルが確信を持って判断できないメッセージに関する新しい情報がモデルに提供されるためです。



次のような場合に「一般フィールドを教える」が推奨されます。

  • 一般フィールドの横にパフォーマンス警告が表示されている (以下を参照 – 少なくとも 25 個の例が提供されていない場合)
  • 特定の一般フィールドの F1 スコアが低い
  • 一般フィールドのテキスト内に必ずしも明確なコンテキストがあるとは限らないか、特定の種類の一般フィールドの値に多数のバリエーションがある
以下に、「一般フィールドを教える」モードでの一般フィールドのトレーニングの例を示します。

docs image

「一般フィールドを確認」を使用する

「一般フィールドを確認」を使用すると、確認済みのセット内の不整合を特定するのに役立つと同時に、予測を行うための一貫性のある正しい例がモデルに提供されていることを確認することで、一般フィールドに対するモデルの理解を改善するのに役立ちます。これにより、一般フィールドの再現率が向上します。

次のような場合に「一般フィールドを確認」が推奨されます。

  • 再現率は低いが、適合率が高い
  • 予測は非常に正確であるが、一般フィールドが適用されている多くの箇所で、これらの例が捉えられていない
以下に、「一般フィールドを確認」モードでの一般フィールドのトレーニングの例を示します。


(一般フィールドの検証の計算について詳しくは、こちらをご覧ください)

[見逃された一般フィールド] を使用する

「見逃された一般フィールド」を使用すると、確認済みのセット内で、選択された一般フィールドがあるべきなのに存在しない例を見つけるのに役立ちます。また、モデルが一般フィールドを予測する能力に悪影響を与える可能性のある、部分的にアノテーションされたメッセージを特定するのにも役立ちます。これにより、一般フィールドの適合率が向上し、予測を行うための一貫性のある正しい例がモデルに提供されます。

次のような場合に「見逃された一般フィールド」が推奨されます。

  • 再現率は高いが、適合率が低い
  • 一般フィールドを誤って予測することが多いが、一般フィールドを正しく予測すれば、そこに存在する多くの例を捉えられる
以下に、「見逃された一般フィールド」モードでの一般フィールドのトレーニングの例を示します。


一般フィールドの検証の計算について詳しくは、「一般フィールドの検証」ページをご覧ください。

カスタム正規表現の一般フィールドを構築する

必要な権限: 「データセットの更新」

注: カスタム正規表現の一般フィールドを構築するには、[データセット] の設定を使用するか、[生成 AI による抽出] フィールドのアノテーション エクスペリエンスの [管理] 一般フィールド オプションを使用します。詳細については、「生成 AI による抽出」ページをご覧ください。

カスタム正規表現の一般フィールドとは

カスタム正規表現一般フィールドを使用すると、ID や参照番号など、既知の繰り返し構造を持つテキストの範囲を抽出して書式設定できます。

これは、バリエーションがほとんどないシンプルで構造化された一般フィールドには便利なオプションです。大きなバリエーションがあり、コンテキストが予測に大きな影響を与えるような一般フィールドの場合は、マシン ラーニング ベースの一般フィールドが最適な選択肢です。この 2 つを組み合わせて Communications Mining 内の任意のデータセットで使用できます。

より広範な正規表現 (一般フィールドを定義する一連のルール) をカスタム一般フィールドのベースとして使用することもできます。このルールを、Communications Mining 内のトレーニングを通じた、コンテキストを理解するマシン ラーニング ベースの改良と組み合わせて、高度なカスタム一般フィールドを作成します。これにより、最適なパフォーマンスと、自動化のために抽出する値に必要な制約が提供されます。

カスタムの正規表現テンプレート

カスタム正規表現の一般フィールドは、正規表現データ型のフィールドの種類で構成され、1 つ以上のカスタム正規表現テンプレートを持ちます。各テンプレートは、一般フィールドを抽出 (および書式設定) する 1 つの方法を表します。

これらのテンプレートを組み合わせることで、同じ一般フィールドの種類の複数の表現をカバーする、柔軟で強力な方法が提供されます。

テンプレートは、次の 2 つの部分で構成されます。

  1. 正規表現。一般フィールドとして抽出するテキストの範囲が満たす必要がある制約を記述します。
  2. 書式設定。抽出した文字列を正規化して、より標準的な書式にする方法を表します。
たとえば、顧客 ID が、ID という単語とその後に続く 7 桁の数字、または 9 文字の英数字の文字列である場合、2 つのテンプレートは次のようになります。




先行入力の検証

[正規表現] または [書式設定] のいずれかのテキスト ボックスに入力すると、入力が有効かどうかについて即座にフィードバックが提供されます。たとえば、無効な正規表現「ID\d{}」を入力すると、次のように表示されます。

抽出結果のプレビュー

カスタム正規表現テンプレートをテキストでテストして、期待どおりに動作することを確認できます。テンプレートで抽出される一般フィールドが、その値、および開始文字と終了文字の位置と併せてリストに表示されます。

たとえば、[正規表現] が「\d{4}」で [書式設定] が「ID-{$}」の場合、次のテスト文字列では抽出結果が 1 つ表示されます。


正規表現

正規表現は、テキスト内の一般フィールドを抽出するために使用するパターンです。構文のドキュメントについては、こちらを確認してください。

名前付きキャプチャ グループを使用すると、抽出された文字列の特定のセクションを識別し、その後、書式を設定できます。キャプチャ グループの名前は、すべてのテンプレートで一意である必要があり、小文字または数字のみを使用する必要があります。

通貨の書式

書式設定を指定して、抽出した一般フィールドを後処理できます。

既定では、書式設定は適用されません。プラットフォームから返される文字列は、正規表現で抽出した文字列になります。ただし、必要に応じて、次のルールを使用してより複雑な変換を定義できます。

変数

正規表現で定義した名前付きキャプチャ グループは、プレフィックス $ を付けることで、書式設定ロジックで変数として利用できます。$ 記号そのものは、正規表現の完全一致を表すことに注意してください。
その後、変数を書式設定文字列で使用し、対応する抽出範囲をプラットフォームから返される値に挿入できます。変数名は中括弧 {} で囲む必要があります。
たとえば、7 桁の数字を ID として抽出し、この 7 桁の数字にプレフィックス ID- を付けて返す場合、正規表現と書式設定は次のようになります。


または、名前付きキャプチャ グループを使用します。


その後、プラットフォームで「My ID number is 1234567」というテキストが指定されると、1 つの一般フィールド ID-1234567 が返されます。

文字列の操作

生の文字列を使用できます。また、複数の文字列を & 記号で連結できます。
正規表現(?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b)
通貨の書式{$id1 & "-" & $id2}
テキスト最初の ID は 123 で、2 番目の ID は 4567 です
プラットフォームによって返される一般フィールド123-4567

関数

特定の関数を書式設定で使用して、抽出された文字列を変換することもできます。関数の名前とそのシグネチャは、Excel に準じます。

Upper

抽出された範囲内のすべての文字を大文字に変換します。

正規表現\w{3}
通貨の書式{upper($)}
テキストabc
プラットフォームによって返される一般フィールドABC

Lower

抽出された範囲内のすべての文字を小文字に変換します。

正規表現\w{3}
通貨の書式{lower($)}
テキストAbC
プラットフォームによって返される一般フィールドabc

Proper

抽出された範囲にある単語の最初の文字を大文字にし、それ以降の文字を小文字にします。

正規表現\w+\s\w+
通貨の書式{proper($)}
テキストalbert EINSTEIN
プラットフォームによって返される一般フィールドAlbert Einstein

Pad

抽出された範囲を、指定したサイズまで、指定した文字でパディングします。

関数の引数:

  1. パディングする文字を含むテキスト
  2. パディングする文字列のサイズ
  3. パディングに使用する文字
正規表現\d{2,5}
通貨の書式{pad($, 5, "0")}
テキスト123
プラットフォームによって返される一般フィールド00123

Substitute

文字を他の文字に置き換えます。

関数の引数:

  1. 置換する文字を含むテキスト
  2. 置き換える文字
  3. 古い文字を置き換えるのに使用する文字
正規表現ab
通貨の書式{substitute($, "a", "12")}
テキストab
プラットフォームによって返される一般フィールド12b

範囲の最初の n 文字を返します。

関数の引数:

  1. 抽出する文字を含むテキスト
  2. 返す文字の数
正規表現\w{4}
通貨の書式{left($, 2)}
テキストABCD
プラットフォームによって返される一般フィールドAB

範囲の最初の n 文字を返します。

関数の引数:

  1. 抽出する文字を含むテキスト
  2. 返す文字の数
正規表現\w{4}
通貨の書式{right($, 2)}
テキストABCD
プラットフォームによって返される一般フィールドCD

Mid

範囲内の指定した位置より後の n 文字を返します。

関数の引数:

  1. 抽出する文字を含むテキスト
  2. 返す最初の文字の位置
  3. 返す文字の数
正規表現\w{5}
通貨の書式{mid($, 2, 3)}
テキストABCDE
プラットフォームによって返される一般フィールドBCD

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.