Communications Mining ガイド
一般フィールドを使用する
このプラットフォームで一般フィールドを設定およびトレーニングするためのガイドです。
Communications Mining のデータから抽出する主要なデータ ポイント (フィールド) を定義することが重要です。これらは通常、下流の自動化を促進しますが、分析、特に自動化の機会の潜在的な成功率とメリットを評価する場合にも役立ちます。
- 一般フィールドとは、抽出対象のフィールドのことであり、データセット内の複数の異なるトピック/ラベルにまたがって存在する可能性があります。
- 抽出フィールドとは、特定のラベルに基づいて条件付けおよび作成されるフィールドのことです。つまり、自動化する特定のラベルに関連付けられます。
[生成 AI による抽出] フィールドおよび [一般] フィールドと [抽出] フィールドの比較について詳しくは、公式ドキュメントをご覧ください。お使いのリージョンで生成 AI による抽出を利用できない場合は、引き続き通常どおり一般フィールドを使用します。このセクションの残りの部分では、一般フィールドの使用方法に関するガイダンスを提供します。
最終的には、一般フィールドの予測をラベルと組み合わせることで、特定のタスクやプロセスを完了するために必要な構造化データ ポイントを提供して、自動化を促進できます。データセット内の一般フィールドをラベルと一緒にトレーニングするほうが、一方を重点的に作業した後に他方を重点的に作業するよりも (つまり、ラベルの完全なタクソノミーをトレーニングした後に一般フィールドをトレーニングするよりも)、はるかに時間効率に優れています。
[生成 AI による抽出] フィールドおよび [一般] フィールドと [抽出] フィールドの比較について詳しくは、公式ドキュメントをご覧ください。お使いのリージョンで生成 AI による抽出を利用できない場合は、引き続き通常どおり一般フィールドを使用します。このセクションの残りの部分では、一般フィールドの使用方法に関するガイダンスを提供します。
一般フィールドとは
一般フィールドは、データセットに含まれるメッセージ内から抽出できる構造化データの追加要素です。一般フィールドには、金額、日付、通貨コード、メール アドレス、URL などの他に、業界固有のさまざまなカテゴリのデータ ポイントが含まれます (以下の例を参照)。
ほとんどの一般フィールドは、有効化されるとすぐに予測可能になります (ゼロからトレーニングしたものを除く)。一般フィールドは、その一般的な形式 (場合によっては非常に特殊な形式) と、類似する一般フィールドのトレーニング セットに基づいて識別できるためです。
ラベルと同様に、正しく予測された一般フィールドや誤って予測された一般フィールドを承認または却下し、今後モデルがその一般フィールドを識別する能力を強化することができます。
一般フィールドの種類
現在、一般フィールドには主に次の 2 種類があります。
- 一連の標準的なルールまたはカスタム定義ルールに基づいた、事前トレーニング済みの一般フィールド (例: 金額、URL、日付)
- ユーザーが (ラベルをトレーニングする場合と同じ方法で) ゼロからトレーニングした、マシン ラーニングに基づいた一般フィールド
トレーニング可能な一般フィールドとトレーニング不可の一般フィールド
すべての一般フィールドは、本質的に「トレーニング可能」であるか (ゼロからトレーニングされた一般フィールド)、または有効化すると「トレーニング可能」にすることができます (その他のすべての一般フィールドの種類)。
トレーニング可能な一般フィールドとは、ユーザーが行うトレーニングに基づいてプラットフォーム内でリアルタイムで更新される一般フィールドです。一般フィールドのトレーニングについて詳しくは、こちらをご覧ください。
一連の標準的なルールまたはカスタム定義ルールに基づく事前トレーニング済みの一般フィールドでトレーニングを有効化すると、それらのルールのパラメーターの範囲内で、一般フィールドに対するプラットフォームの理解を改良できます。これらの一般フィールドでさらにトレーニングを行うと、プラットフォームがその一般フィールドと見なすことができる範囲は縮小し、拡大することはありません。
その理由は、日付 (例:「明日」) や金額 (例: £20) など、これらの一般フィールドの多くは、構造化されたデータ形式に正規化して下流のシステムで利用できるようにする必要があるためです。また、ISIN や CUSIP などの一般フィールドの場合、所定の形式が必須であるため、定義された形式に準拠しない一般フィールドを予測するようにプラットフォームに教えてはなりません。
トレーニング可能な一般フィールドを割り当てると、一般フィールドのテキストと、コミュニケーションの他の部分での一般フィールドコンテキスト、すなわち一般フィールドの値の前後 (同じ段落と前後の段落) の内容の両方が確認されます。プラットフォームは、値そのものと、その値がコミュニケーションのコンテキスト内にどのように出現するかに基づいて学習し、より適切に一般フィールドを予測するようになります。
事前トレーニング済みの一般フィールドがトレーニング可能として設定されていない場合でも、データセット内の一般フィールドの予測を承認または却下できます。エンティティの予測は、ユーザーがプラットフォーム内で行うフィードバックを使用してオフラインで更新および改良されます。メッセージの確認時に、これらの一般フィールドを承認または拒否すると便利です。データセットで一般フィールドを有効化する方法について詳しくは、「一般フィールドを有効化、無効化、更新、作成する」をご覧ください。
一般フィールドの種類を設定する場合は、フィールドの種類のデータ型を選択する際のテンプレート オプションを使用して、次の事前構築済みオプションのいずれかを選択できます。
一般フィールドの種類 | 説明 |
---|---|
メール | メール アドレスです。 |
通貨 | 通貨コードです (例: 英ポンド、スイスフラン、米ドル)。 |
URL | Uniform Resource Locator (Web アドレス) です。 |
SEDOL (SEDOL コード) | 金融証券識別子です。Stock Exchange Daily Official List の略語で、長さは 7 文字です。 |
BIC コード | 金融機関識別コード (BIC) は、ビジネス トランザクションをルーティングし、関係者を識別するための ISO 9362 に基づく国際標準です。BIC コードの長さは 8 文字または 11 文字です。 |
LEI (取引主体識別子) | A Legal Entity Identifier (LEI) is a unique global identifier of legal entities participating in financial transactions. LEI is formatted as a 20-character alpha-numeric code. |
ISIN (ISIN コード) | 国際証券コード番号 (ISIN) は、金融証券を一意に識別します。ISIN は 12 文字の英数字のコードです。 |
Mark-to-market (MTM または M2M) | Mark-to-market とは、資産または負債の公正価格を指します。Mark-to-market は、現在の市場価格、類似する資産と負債の価格、または客観的に考慮した公正な価格に基づきます。 |
CUSIP (証券識別コード) | CUSIP は北米の金融証券を識別する 9 桁の数字または 9 文字の英数字コードであり、取引の決済を容易にすることを目的としています。 |
必要なユーザー権限: 「ソースの表示」および「データセットの更新」、または「データセット管理者」
新しいデータセットで一般フィールドを有効化する
新しく作成するデータセットで一般フィールドを有効化するには、設定プロセス中に一般フィールドを選択します。
以下に示すボックスの [+] ボタンをクリックすると、そのデータセットに対して有効化できるすべての一般フィールドのドロップダウン メニューが表示されます。データセットを作成する前に、有効化する一般フィールドをすべてクリックします。間違って追加した一般フィールドがある場合は、その一般フィールド名の横にある [X] アイコンをクリックして削除できます。
新しいデータセットの作成方法について詳しくは、こちらをご覧ください。
既存のデータセットの一般フィールドを有効化、更新、無効化する
既存のデータセットの一般フィールドを有効化、更新、無効化するには、上部のナビゲーション バーにある [設定] タブから [ラベルと抽出フィールド] タブを選択します。
一般フィールドを有効化する
既存の一般フィールドを有効化するには、[一般フィールド] ボックス内をクリックし、ドロップダウン メニューから有効化する一般フィールドを選択します。選択した項目に問題がなければ、[一般フィールドを更新する] を選択します (以下を参照)。
これらの一般フィールドでは、設定が事前に選択されます。その後、以下に示すように、一般フィールドをトレーニング可能にするなど、一般フィールドを更新できます。
一般フィールドを更新する
有効化された一般フィールドを更新するには、上の画像に示すように、[一般フィールド] ボックスで一般フィールドをクリックすると、[一般フィールドを編集] モーダル (以下) が表示されます。
ここでは、ベースの一般フィールド、一般フィールドのタイトル、API 名 (これらの概念については後で詳しく説明します) を更新したり、一般フィールドを「トレーニング可能」に設定したりできます。
「トレーニング可能」に設定されていなかった一般フィールドの種類について、一般フィールドを以前に確認済みである場合、この情報は引き続き保存されます。
一般フィールドを無効化する
選択した一般フィールドを削除するには、一般フィールドの名前の横にある [X] アイコンをクリックし、[一般フィールドを更新する] をクリックします。
一般フィールドを削除して [一般フィールドを更新する] をクリックすると、このデータセットの削除した一般フィールドのトレーニング データも削除されます。この一般フィールドを再度有効化する場合は、一般フィールドを再度トレーニングする必要があります。
一般フィールドの更新中に操作を間違えた場合は、[一般フィールドを更新する] をクリックする前に [リセット] をクリックすると、変更は適用されません。
新しい一般フィールドを作成する
上記のセクションでは、新しいデータセットと既存のデータセットの両方に対して、既存の事前トレーニング済みの一般フィールドを有効化および更新する方法について説明しました。また、新しいデータセットまたは既存のデータセットのいずれにおいても、新しい一般フィールドを作成することもできます。
新しく作成した一般フィールドは、既存の事前トレーニング済みの一般フィールドを基にすることも、ゼロからトレーニングすることもできます (新しいラベルの場合と同様)。
このためには、「データセットの作成」フローまたはデータセットの設定ページ (上記を参照) で、[一般フィールド] ボックスの [+] アイコンをクリックします。
これにより、以下に示すように [新しい一般フィールドを追加する] モーダルが表示されます。
ここで、フィールドの種類、タイトル、API 名を設定できるほか、一般フィールドをトレーニング可能にするかどうかを選択できます (上記の説明のように、これらは後で更新できます)。
各フィールドに入力したら (以下で説明)、[作成] をクリックします。
フィールドの型
- これは新しい一般フィールドの初期ステートとして機能します。ドロップダウンには、利用可能な事前トレーニング済みのすべての一般フィールドのリストが表示されます。
- たとえば、ベースの一般フィールドとして「日付」を選択した場合、この種類の一般フィールドに対して予測される一般フィールドはすべて日付になります。その後、特定の日付のみを認識するようにプラットフォームをトレーニングできます。
-
一般フィールドを完全にゼロからトレーニングする場合は、[なし (ゼロからトレーニング)] を選択できます。こうすることで、一般フィールドをトレーニングする際に、基本的に空のキャンバスから始めることができます。この一般フィールドに対するプラットフォームの予測は完全に、ユーザーが提供するトレーニング例に基づきます。
一般フィールドのタイトル
- 一般フィールドのタイトルは、プラットフォームの UI に表示される一般フィールドの名前です。
API 名
- 一般フィールドの API 名は、メッセージの予測を提供するときに API 経由で返される名前です。
- API 名にスペースや句読点を含めることはできません。ただし、ダッシュ ( - ) とアンダースコア ( _ ) は使用できます。
必要なユーザー権限:「ソースの表示」および「View general fields」
ラベルの場合と同様に、[探索] と [レポート] のどちらでも、一般フィールドが予測されているか、割り当てられているかどうかでメッセージをフィルター処理できます。
複数の一般フィールド フィルターを適用する場合、「AND」「次のいずれか」「NOT」を任意に組み合わせて適用できます。これらのフィルターにより、データのトレーニングや解釈をさらに柔軟に行うことができ、コミュニケーション チャネルで何が起こっているかについて、より深い洞察を得ることができます。
一般フィールドの予測でフィルター処理するときに実行できる操作の一部を次に示します。
- [探索] と [レポート] の両方で複数の一般フィールド フィルターを同時に適用する
- フィルターを適用し、選択した複数の一般フィールドの 1 つが予測されているメッセージに絞り込む (つまり、次のいずれか: 一般フィールド X AND 一般フィールド Y AND ...)
- フィルターを適用し、複数の異なる一般フィールドが予測されているメッセージに絞り込む (つまり、一般フィールド X AND 一般フィールド Y AND ...)
- フィルターを適用し、特定の一般フィールドが予測されていないメッセージに絞り込む (つまり、NOT 一般フィールド Y)
- 一般フィールド フィルターを適用しながら、特定の検索語句を含む一般フィールドを検索する
以下のように、データセットで有効化されているすべての一般フィールドがフィルター バーに表示されます。一般フィールドの割り当てについては、「一般フィールドを確認および適用する」で詳しく説明しています。
一般フィールド フィルターを適用する方法は 2 つあり、これらを互いに組み合わせて使用することで、適切な種類のクエリを作成できます。
上の図は既定のステートを示しています。ここではフィルターは適用されておらず、すべてのメッセージが表示されています (ただし、別のフィルターが適用されている場合を除きます)。
一般フィールド フィルターを更新するには、以下で説明するボタンを使用します。選択すると色が変わります。
アノテーション済みの一般フィールドを含むメッセージを表示 | |
一般フィールドを含むと予測されたメッセージを表示 |
メッセージにフィルターを適用して、アノテーション済みの一般フィールドを持つ、または一般フィールドを含むと予測されているメッセージに絞り込む場合は、上部にあるボタンを使用します (上図を参照)。メッセージにフィルターを適用して、特定のアノテーション済みまたは予測されている一般フィールドを含むメッセージに絞り込む場合は、対象の一般フィールドにカーソルを合わせると、同じ 2 つのボタンが右側に表示されます。
フィルターを適用して、割り当てられているか予測されている一般フィールドに絞り込む場合は、一般フィールドの名前を選択すると、いずれかを含むメッセージが表示されます。
選択項目を削除するには、ボタンをもう一度選択し、複数の選択項目を削除するには、[すべて] を選択します。フィルター バーの上部にある [すべてクリア] を選択することもできますが、この場合、一般フィールド フィルターだけでなく選択したすべてのフィルターがクリアされます。
一般フィールドのタクソノミーは通常のフィルター バーとして機能します。各一般フィールドを 1 回クリックするだけで、複数の一般フィールドを一度に選択できます。
リストから複数の一般フィールドを選択すると、「次のいずれか」の種類のクエリが作成されます。
一般フィールド バーで、一般フィールド A、一般フィールド B、および一般フィールド C を選択した場合は、「一般フィールド A、一般フィールド B、または一般フィールド C が予測されたメッセージを表示してください。」というクエリが作成されます。
フィルターを適用して特定の一般フィールドに絞り込む場合、複数の一般フィールドを選択できます。たとえば、フィルターを適用して、住所の一般フィールドが割り当てられているメッセージ、または市区町村の一般フィールド (以下を参照) が予測されているメッセージに絞り込んで表示できます。
2 番目のフィルター オプションは、一般フィールド バーの上にある [+ 一般フィールド フィルターを追加] ボタンです。
これをクリックすると、ドロップダウンの一般フィールド バーが有効化され、特定の一般フィールドを対象から除外するなどの、より複雑なフィルターを選択できます。
このドロップダウンから、含める/除外する一般フィールドを複数選択できます。その場合、一般フィールドの名前をクリックするか (割り当てられていて、かつ予測されている場合)、または個々のボタンをクリックします (この一般フィールドが割り当てられておらず、予測もされていない場合にマイナス ボタンをクリックすることを含みます)。
結果は次の例のようになり、請求書 ID の一般フィールドがあると予測されているが、製品 ID 一般フィールドは割り当てられても予測されてもいないメッセージが返されます。
[+ 一般フィールド フィルターを追加] を複数回選択して、クエリにレイヤーを追加できます。一般フィールド フィルターを 2 つ設定すると AND の種類のクエリが作成されるのに対し、同じ一般フィールド フィルターで複数の一般フィールドを選択すると「次のいずれか」の種類のクエリが作成されます。
以下の例では、複数の一般フィールド フィルターが個別に適用されています。これにより、1 つ目のフィルターの 3 つの一般フィールドのいずれかに加えて Policy Number 一般フィールドが含まれると予測されており、UK Postcode 一般フィールドは含まれないと予測されている、または UK Postcode 一般フィールドが割り当てられていないメッセージを返すフィルターが作成されます。
役立つヒントとして、複数の一般フィールドが含まれる個々のフィルターで & 記号を選択すると、自動的に別々のフィルターに分割できます。これにより、クエリが「次のいずれか」 (これらの一般フィールドのいずれかが予測されている) から AND (これらの一般フィールドがすべて予測されている) に変更されます。
一般フィールド バー フィルターと、個別に追加した一般フィールド フィルターを組み合わせることができます。一般フィールド バーで適用したフィルターは、個別に適用した一般フィールド フィルターとともに AND クエリとして扱われます。
たとえば、次の図に示すクエリの組み合わせは、ORDER ID または PROD ID のいずれかが予測されているメッセージを返します。
一般フィールド バーを使用した一般フィールド フィルターと、個別に追加された一般フィールド フィルターを組み合わせます。
必要なユーザー権限:「ソースの表示」および「確認とラベル付け」
予測された一般フィールドは、以下のメッセージの 1 行目のように、色で強調表示されたテキストとして表示されます。異なる一般フィールドの種類は異なる色で表示されます。ユーザーが一般フィールドを手動で適用するか、予測を受け入れて一般フィールドを確認すると、その一般フィールドは、以下のように、太く暗い枠線で強調表示されたテキストとして表示されます。
段落内に、割り当てられた一般フィールド、却下された一般フィールド、適用された一般フィールドがある場合、その段落は、以下のメッセージの本文のように灰色で強調表示されます。
トレーニング可能な一般フィールドを確認する際に留意すべき重要な点は、このプラットフォームは、ユーザーが割り当てた一般フィールドの値と、コミュニケーション内でその値が出現する場所のコンテキスト (値そのものの周囲で使用されている他の言語) の両方から学習するという点です。
このプラットフォームでは、一般フィールドの値と同じ段落内にある言語のコンテキストと、一般フィールドが存在する段落の直前・直後にある 1 つの段落 (改行で示される) が考慮されます。
注: [トレーニング可能] に設定されていない一般フィールドの場合、プラットフォームの予測は、プラットフォーム内でその一般フィールドに対して定義されているルールに完全に基づきます。これは、一般フィールドが必ず下流のオートメーションの所定の形式に従う必要があり、値が正しくないと失敗や例外が発生する場合に便利です。
このプラットフォームは、コミュニケーションに適用される一般フィールドを予測する際に、各予測に信頼度スコア (%) を割り当てて、強調表示されたテキスト範囲にどの程度の信頼度で一般フィールドが適用されているかを示します。一般フィールドの信頼度スコアを表示するには、一般フィールド上でホバーします。
この信頼度スコアは API 経由でも利用できるため、下流で実行される自動化アクションに情報を提供できます。
一般フィールドが有効化されると (こちらを参照)、自動的にデータセット全体でメッセージ内の一般フィールドの予測が開始されます。その後、ユーザーは予測が正しければ承認し、正しくなければ却下できます。これらの各操作を実行することでトレーニング シグナルを送り、このシグナルを使用して、その一般フィールドに対するプラットフォームの理解を改善します。
オフラインでトレーニングされる事前トレーニング済みの一般フィールド (例: 金額、URL など) の場合、改善の観点から、ユーザーが正しい予測を承認することよりも、間違った予測を却下または修正することのほうが重要です。
プラットフォーム内でリアルタイムでトレーニングされる一般フィールドの場合は、正しい予測を承認することと、誤った予測を却下することは等しく重要です。ただし、間違って予測されたものが見つからなければ、同じ種類の一意の一般フィールドそれぞれについて正しい例をいくつも承認し続ける必要はありません (たとえば、Example Bank Ltd. は一意の組織の一般フィールドです)。
この場合の重要な注意点として、段落内の一般フィールドを 1 つでも確認した場合は、同じ段落内の他の一般フィールドをすべて確認する必要があります。
一般フィールドの予測を確認するには、予測の上にホバーすると、以下の例に示すように一般フィールドの確認モーダルが表示されます。承認するには [確定] をクリックし、却下するには [却下] をクリックします。
一般フィールドとラベルは、互いに独立してトレーニングできます。メッセージのラベルを確認しても、同じメッセージ内の一般フィールドを確認する必要はありません。ただし、モデル トレーニング中に時間を最も効率的に使うために、両方を同時に行うことをお勧めします。
注: 一般フィールドをトレーニングする際には、以下で説明するベスト プラクティス (特に、段落に部分的にアノテーションを行わないことに関するベスト プラクティス) に従うことが非常に重要です。
データセットに対して有効化されている各一般フィールド (特にトレーニング可能な一般フィールド) を、プラットフォームがどの程度適切に予測できるかを理解するには、こちらをご覧ください。
一般フィールドの誤った予測を却下することは重要ですが、強調表示されたテキストが実際には別の一般フィールド内にあった場合 (日付関連の一般フィールドでよくあります)、後で正しい一般フィールドを適用します (一般フィールドの適用方法については、以下をご覧ください)。
予測されなかった可能性があるテキストに一般フィールドを適用するには、コピーする場合と同じように、テキストのセクションを強調表示します。
以下に示すように、データセットに対して有効化したすべての一般フィールドを含むドロップダウン メニューが表示されます。正しい一般フィールドをクリックして適用するか、対応するキーボード ショートカットを押します。
各一般フィールドの既定のキーボード ショートカットは、その一般フィールドの先頭の文字です。複数の一般フィールドが同じ文字で始まる場合、もう一方の一般フィールドにはランダムな文字が割り当てられます。
一般フィールドが適用されると、色と太い枠線付きで強調表示されます (以下を参照)。一般フィールドの種類ごとに独自の色があります。
特定の一般フィールドの種類の値を複数の段落に分割することはできません。1 つの一般フィールドの値として抽出するには、値全体が 1 つの段落内に含まれている必要があります。
メッセージ内の一般フィールドを承認、却下、適用する際に留意すべき非常に重要なベスト プラクティスは 2 つあります。
1. 単語を分割しない
単語を分割しないことが重要です。強調表示された一般フィールドは、対象となる単語の一部だけでなく、単語全体 (または複数の単語) をカバーする必要があります (下の左側にある誤った例と、右側にある正しい適用例をご覧ください)。
2. 段落を部分的にアノテーションを行わない
アノテーションを行う際に、あるメッセージに 1 つのラベルを割り当てた場合、そのメッセージに適用できるラベルを「すべて」適用する必要があります。そうしないと、他のラベルは適用する必要がないとモデルに教えることになります。一般フィールドについても同じことが当てはまります。ただし、一般フィールドをメッセージ全体ではなく段落レベルで確認または適用する場合を除きます。
メッセージ内の段落は改行で区切られます。メールのメッセージの件名は、それ自体が 1 つの段落と見なされます。
段落内のいずれかの一般フィールドを確認または適用した場合は、必ず、同じ段落内のすべての一般フィールドを確認または適用してください。段落内の一般フィールドを適用、承認、却下すると、その段落は、一般フィールドの観点からは「確認済み」として扱われます。したがって、その段落の「すべて」の予測を承認または却下することが重要です。
以下の例は、メール メッセージ内で確認されたさまざまな段落を示しています。
以下に示すメッセージは同じ例を示していますが、こちらではユーザーが 1 つの段落内にあるすべての一般フィールドの予測を承認または却下していません。モデルが金額の一般フィールドを不正確な予測として扱うことになるため、これは間違いです。
プラットフォームの [検証] ページには、有効化されている一般フィールドの検証の統計情報、警告、および推奨されるアクションが表示されます。これはタクソノミー内のすべてのラベルの場合と同様です。
これらを確認するには、次の図に示すように、[検証] ページに移動して上部の [一般フィールド] タブを選択します。
一般フィールドを正しく予測する能力をプラットフォームが検証するプロセスは、ラベルの場合と非常によく似ています。
メッセージを初めてデータセットに追加すると、トレーニング セットとテスト セット (各メッセージのメッセージ ID でランダムに決定) に分割されます (80 対 20)。割り当てられた一般フィールド (承認または修正された予測) は、その一般フィールドが含まれるメッセージが最初にトレーニング セットまたはテスト セットのどちらに割り当てられていたかに基づいて、どちらかのセットに分類されます。
場合によっては、1 件のメッセージに大量の一般フィールドが存在していて、メッセージがトレーニング セットまたはテスト セットのどちらに含まれるかを保証できないため、各セット内の一般フィールドの数に大きな差が見られることがあります。
割り当てられた一般フィールドがすべてトレーニング セットに分類されることもあります。検証スコアを計算するには、テスト セットに少なくとも 1 つの例が必要であるため、このような一般フィールドでは、テスト セットに例がいくつか存在するようになるまで、割り当てられた例を追加する必要があります。
十分なトレーニング データがある各一般フィールドの個々の適合率と再現率の統計情報は、ラベルの統計情報と非常によく似た方法で計算されます。
精度 = 一致する一般フィールドの数/予測された一般フィールドの数
再現率 = 一致する一般フィールドの数/実際の一般フィールドの数
「一致する一般フィールド」とは、プラットフォームが一般フィールドを正確に予測した (部分一致のない) 場所です。
F1 スコアは、単に適合率と再現率の両方の調和平均です。
このページに示す適合率と再現率の統計情報は、プラットフォームで常時トレーニング可能な一般フィールド (上の 2 番目の段で説明) で最も役に立ちます。これらの一般フィールドの種類について確認されたすべての一般フィールドは、プラットフォームがその一般フィールドを予測する機能に直接影響するためです。
したがって、可能な限り、正しい一般フィールドを承認し、誤った一般フィールドを修正または却下する必要があります。
テンプレートのフィールドの種類を使用して事前トレーニング済みの一般フィールドの場合、検証の統計情報にパフォーマンスを正確に反映させるには、かなりの量の正しい予測を承認することに加え、誤った予測を確実に修正する必要があります。
誤った予測を修正しただけでは、トレーニング セットとテスト セットは、プラットフォームが一般フィールドの予測に苦労した事例だけでいっぱいになってしまい、プラットフォームがより適切に予測できる事例は提供されず不自然です。このような一般フィールドの間違った予測を修正しても一般フィールドはリアルタイムに更新されないため (定期的にオフラインで更新されます)、検証の統計情報がしばらくの間変わらず、不自然に低くなる可能性があります。
正しい予測を大量に承認しても必ずしも便利であるとは限りません。このような一般フィールドは多くの場合、正しく予測されるためです。ただし、一般フィールドの予測の大部分が正しい場合は、[検証] ページの適合率と再現率の統計情報について心配する必要はないと考えられます。
統計情報の概要 (平均適合率、平均再現率、平均 F1 スコア) とは、単に一般フィールドの個々のスコアそれぞれの平均値です。
ラベルの場合と同様に、十分なトレーニング データがある一般フィールドのみが平均スコアに含まれます。十分なトレーニング データがなく、スコアに含めることができない一般フィールドには、名前の横に警告アイコンが表示されます。
一般フィールドの [検証] ページには、一般フィールドの平均パフォーマンスの統計情報、および各一般フィールドの平均 F1 スコアとトレーニング セットのサイズを示すグラフが表示されます。また、このグラフでは、琥珀色または赤色のパフォーマンス警告がある一般フィールドにフラグが付けられています。
表示される一般フィールドのパフォーマンス統計情報は次のとおりです。
- 平均 F1 スコア: パフォーマンスを正確に推測するのに十分なデータがあるすべての一般フィールドの F1 スコアの平均値です。このスコアでは、再現率と適合率が均等に重み付けされています。F1 スコアが高いモデルでは偽陽性と偽陰性が少なくなります。
- 平均適合率: パフォーマンスを正確に推定するのに十分なデータを含むすべての一般フィールドの適合率スコアの平均値です。適合率の高いモデルでは偽陽性が少なくなります。
- 平均再現率: パフォーマンスを正確に推定するのに十分なデータを持つすべての一般フィールドの再現率スコアの平均値です。再現率の高いモデルでは偽陰性が少なくなります。
[検証] ページの [メトリック] タブに表示される一般フィールドのパフォーマンスのグラフ (上記を参照) は、個々の一般フィールドのパフォーマンスを即座に視覚的に示します。
このグラフに一般フィールドを表示するには、検証中にプラットフォームによって使用されるトレーニング セットに、ピン留めされた例が 20 個以上含まれている必要があります。そのためには、25 件の異なるメッセージで、一般フィールド 1 個につき 25 個以上 (多くの場合それ以上) のピン留めされた例があるようにする必要があります。
各一般フィールドは、一般フィールドのパフォーマンスについてのモデルの理解に基づいて、3 色のいずれかでプロットされます。色の意味については、以下のセクションで説明します。
一般フィールドのパフォーマンス指標:
- グラフに青でプロットされている一般フィールドは、パフォーマンス レベルが十分な一般フィールドです。これは、例の数と種類、その一般フィールドの平均適合率など、多様な要因に基づいています。
- 琥珀色でプロットされている一般フィールドは、十分なパフォーマンスをわずかに下回る一般フィールドです。平均適合率が比較的低いか、トレーニング例が十分でない可能性があります。このような一般フィールドは、パフォーマンスを改善するためにトレーニング/修正が少し必要です。
- 赤でプロットされている一般フィールドは、パフォーマンスの低い一般フィールドです。平均適合率が非常に低いか、トレーニング例が十分でない可能性があります。このような一般フィールドは、パフォーマンスを十分なレベルに引き上げるために、さらにかなりのトレーニング/修正が必要である可能性があります。
必要なユーザー権限:「確認とアノテーション」
ラベルのトレーニングと同様に、一般フィールドのトレーニングも、さまざまなトレーニング モードを使用して、どの一般フィールドが特定のメッセージに適用されるかをプラットフォームに教えるプロセスです。
ラベルと同様に、「教える」「確認」「見逃し」のモードを利用して、一般フィールドのトレーニングとパフォーマンスを改善できます。各モードにアクセスするには、1) [探索] ページのトレーニングのドロップダウンを使用するか、2) [検証] ページの [一般フィールド] タブの推奨されるアクションに従います。
特定の一般フィールドにパフォーマンス警告が付いている場合、その警告に対処するのに役立つと思われる推奨される次の操作が優先度順に表示されます。これは、タクソノミーまたはすべての一般フィールドのグラフから特定の一般フィールドを選択すると表示されます。
次に行うべき操作の提案はリンクとして機能します。このリンクをクリックすると、プラットフォームによって提案されたトレーニング ビューに直接移動し、一般フィールドのパフォーマンスを向上させることができます。提案はインテリジェントに並べられており、一般フィールドを改善する上で最も優先度の高い操作が最初に表示されています。
提案は、一般フィールドのパフォーマンスを理解するのに役立つ最も重要なツールであり、一般フィールドのパフォーマンスを改善する際にガイドとして定期的に使用することをお勧めします。
次の表は、どのような場合に一般フィールドの各トレーニング モードが推奨されるかをまとめたものです。
一般フィールドを教える | 一般フィールドを確認 | 見逃された一般フィールド |
- ラベルが適用されるかどうかについてモデルが最も混乱しているラベルの予測を表示する場合 - 未確認のメッセージで一般フィールドをトレーニングする場合 |
- 一般フィールドが誤って適用されている可能性があると考えられるメッセージを表示する場合 - 確認済みのメッセージで一般フィールドをトレーニングし、不一致を見つけて修正を試みる場合 |
- 選択した一般フィールドが見逃されている可能性があると考えられるメッセージを表示する場合 - 確認済みのメッセージで一般フィールドをトレーニングし、不一致を見つけて修正を試みる場合 |
「一般フィールドを教える」を使用して、一般フィールドのパフォーマンスを改善します。すでに信頼度の高い予測があるモデルではなく、モデルが確信を持って判断できないメッセージに関する新しい情報がモデルに提供されるためです。
次のような場合に「一般フィールドを教える」が推奨されます。
- 一般フィールドの横にパフォーマンス警告が表示されている (以下を参照 – 少なくとも 25 個の例が提供されていない場合)
- 特定の一般フィールドの F1 スコアが低い
- 一般フィールドのテキスト内に必ずしも明確なコンテキストがあるとは限らないか、特定の種類の一般フィールドの値に多数のバリエーションがある
「一般フィールドを確認」を使用すると、確認済みのセット内の不整合を特定するのに役立つと同時に、予測を行うための一貫性のある正しい例がモデルに提供されていることを確認することで、一般フィールドに対するモデルの理解を改善するのに役立ちます。これにより、一般フィールドの再現率が向上します。
次のような場合に「一般フィールドを確認」が推奨されます。
- 再現率は低いが、適合率が高い
- 予測は非常に正確であるが、一般フィールドが適用されている多くの箇所で、これらの例が捉えられていない
(一般フィールドの検証の計算について詳しくは、こちらをご覧ください)
「見逃された一般フィールド」を使用すると、確認済みのセット内で、選択された一般フィールドがあるべきなのに存在しない例を見つけるのに役立ちます。また、モデルが一般フィールドを予測する能力に悪影響を与える可能性のある、部分的にアノテーションされたメッセージを特定するのにも役立ちます。これにより、一般フィールドの適合率が向上し、予測を行うための一貫性のある正しい例がモデルに提供されます。
次のような場合に「見逃された一般フィールド」が推奨されます。
- 再現率は高いが、適合率が低い
- 一般フィールドを誤って予測することが多いが、一般フィールドを正しく予測すれば、そこに存在する多くの例を捉えられる
一般フィールドの検証の計算について詳しくは、「一般フィールドの検証」ページをご覧ください。
必要な権限: 「データセットの更新」
カスタム正規表現一般フィールドを使用すると、ID や参照番号など、既知の繰り返し構造を持つテキストの範囲を抽出して書式設定できます。
これは、バリエーションがほとんどないシンプルで構造化された一般フィールドには便利なオプションです。大きなバリエーションがあり、コンテキストが予測に大きな影響を与えるような一般フィールドの場合は、マシン ラーニング ベースの一般フィールドが最適な選択肢です。この 2 つを組み合わせて Communications Mining 内の任意のデータセットで使用できます。
より広範な正規表現 (一般フィールドを定義する一連のルール) をカスタム一般フィールドのベースとして使用することもできます。このルールを、Communications Mining 内のトレーニングを通じた、コンテキストを理解するマシン ラーニング ベースの改良と組み合わせて、高度なカスタム一般フィールドを作成します。これにより、最適なパフォーマンスと、自動化のために抽出する値に必要な制約が提供されます。
カスタム正規表現の一般フィールドは、正規表現データ型のフィールドの種類で構成され、1 つ以上のカスタム正規表現テンプレートを持ちます。各テンプレートは、一般フィールドを抽出 (および書式設定) する 1 つの方法を表します。
これらのテンプレートを組み合わせることで、同じ一般フィールドの種類の複数の表現をカバーする、柔軟で強力な方法が提供されます。
テンプレートは、次の 2 つの部分で構成されます。
- 正規表現。一般フィールドとして抽出するテキストの範囲が満たす必要がある制約を記述します。
- 書式設定。抽出した文字列を正規化して、より標準的な書式にする方法を表します。
ID\
d{}
」を入力すると、次のように表示されます。
カスタム正規表現テンプレートをテキストでテストして、期待どおりに動作することを確認できます。テンプレートで抽出される一般フィールドが、その値、および開始文字と終了文字の位置と併せてリストに表示されます。
\d{4}
」で [書式設定] が「ID-{$}
」の場合、次のテスト文字列では抽出結果が 1 つ表示されます。
正規表現は、テキスト内の一般フィールドを抽出するために使用するパターンです。構文のドキュメントについては、こちらを確認してください。
名前付きキャプチャ グループを使用すると、抽出された文字列の特定のセクションを識別し、その後、書式を設定できます。キャプチャ グループの名前は、すべてのテンプレートで一意である必要があり、小文字または数字のみを使用する必要があります。
書式設定を指定して、抽出した一般フィールドを後処理できます。
既定では、書式設定は適用されません。プラットフォームから返される文字列は、正規表現で抽出した文字列になります。ただし、必要に応じて、次のルールを使用してより複雑な変換を定義できます。
$
を付けることで、書式設定ロジックで変数として利用できます。$
記号そのものは、正規表現の完全一致を表すことに注意してください。
{
と }
で囲む必要があります。
ID-
を付けて返す場合、正規表現と書式設定は次のようになります。
ID-1234567
が返されます。&
記号で連結できます。
正規表現 | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
通貨の書式 | {$id1 & "-" & $id2} |
テキスト | 最初の ID は 123 で、2 番目の ID は 4567 です |
プラットフォームによって返される一般フィールド | 123-4567 |
抽出された範囲にある単語の最初の文字を大文字にし、それ以降の文字を小文字にします。
正規表現 | \w+\s\w+ |
通貨の書式 | {proper($)} |
テキスト | albert EINSTEIN |
プラットフォームによって返される一般フィールド | Albert Einstein |
抽出された範囲を、指定したサイズまで、指定した文字でパディングします。
関数の引数:
- パディングする文字を含むテキスト
- パディングする文字列のサイズ
- パディングに使用する文字
正規表現 | \d{2,5} |
通貨の書式 | {pad($, 5, "0")} |
テキスト | 123 |
プラットフォームによって返される一般フィールド | 00123 |
文字を他の文字に置き換えます。
関数の引数:
- 置換する文字を含むテキスト
- 置き換える文字
- 古い文字を置き換えるのに使用する文字
正規表現 | ab |
通貨の書式 | {substitute($, "a", "12")} |
テキスト | ab |
プラットフォームによって返される一般フィールド | 12b |
範囲の最初の n 文字を返します。
関数の引数:
- 抽出する文字を含むテキスト
- 返す文字の数
正規表現 | \w{4} |
通貨の書式 | {left($, 2)} |
テキスト | ABCD |
プラットフォームによって返される一般フィールド | AB |
範囲の最初の n 文字を返します。
関数の引数:
- 抽出する文字を含むテキスト
- 返す文字の数
正規表現 | \w{4} |
通貨の書式 | {right($, 2)} |
テキスト | ABCD |
プラットフォームによって返される一般フィールド | CD |
- フィールドを定義および設定する
- 一般フィールドについて
- 一般フィールドで利用可能な既製のテンプレート
- 一般フィールドの標準テンプレートのフィールドの種類
- 一般フィールドを有効化、無効化、更新、作成する
- 一般フィールドのフィルター処理
- 高度な予測フィルターを適用する
- 一般フィールド バー
- 一般フィールド フィルターを追加
- 一般フィールド バーのフィルターと追加された一般フィールドのフィルターを組み合わせる
- トレーニング用に一般フィールドのフィルターを組み合わせて一般フィールドで並べ替える
- 一般フィールドを確認および適用する
- 一般フィールドの予測を識別する
- このプラットフォームでの、トレーニング可能な一般フィールドに対する一般フィールドの予測方法
- 一般フィールドの信頼度スコア
- 一般フィールドの予測を承認および却下する
- 一般フィールドを適用する
- ベスト プラクティス
- 一般フィールドの検証
- はじめに
- 一般フィールド検証はどのように機能しますか?
- スコアの計算方法
- トレーニング可能な一般フィールド
- 事前トレーニング済みの一般フィールド
- 統計情報の概要の意味
- メトリック
- 一般フィールドのパフォーマンスを理解する
- 個々の一般フィールドのパフォーマンス
- 一般フィールドのパフォーマンスを改善する
- 概要
- 一般フィールドの推奨アクション
- 一般フィールド トレーニング モード
- 「一般フィールドを教える」を使用する
- [一般フィールドを確認] を使用する
- [見逃された一般フィールド] を使用する
- カスタム正規表現の一般フィールドを構築する
- カスタム正規表現の一般フィールドとは
- カスタムの正規表現テンプレート
- 先行入力の検証
- 抽出結果のプレビュー
- 正規表現
- 通貨の書式
- 変数
- 文字列の操作
- 関数
- Upper
- Lower
- Proper
- Pad
- Substitute
- 左
- 右
- Mid