- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- トレーニング
- 一般フィールドの使用
- 生成 AI による抽出
- 分析と監視の使用
- オートメーションと Communications Mining
- ライセンス情報
- よくある質問など
一般フィールドの使用
プラットフォームで [一般フィールド] を設定およびトレーニングするためのガイドです。
キーデータポイントを定義することが重要です(つまり、 フィールド) を Communications Mining のデータから抽出します。 これらは通常、ダウンストリームの自動化を促進しますが、分析、特に自動化の機会の潜在的な成功率とメリットを評価する場合にも役立ちます。
- 全般フィールド とは、抽出対象のフィールドで、データセット内の複数の異なるトピック/ラベルにまたがって存在するフィールドです。
- 抽出フィールド とは、特定のラベルに対して条件付けされ、作成されるフィールドです。 つまり、自動化する特定のラベルに関連付けられます。
[生成 AI による抽出] フィールドおよび [一般] フィールドと [抽出] フィールドの比較について詳しくは、公式ドキュメントをご覧ください。お使いのリージョンで生成 AI による抽出を利用できない場合は、引き続き通常どおり一般フィールドを使用します。このセクションの残りの部分では、一般フィールドの使用方法に関するガイダンスを提供します。
最終的に、一般的なフィールド予測とラベルを組み合わせることで、特定のタスクやプロセスを完了するために必要な構造化されたデータ ポイントが提供されるため、自動化を促進することができます。 データセット内の一般的なフィールドをラベルと組み合わせてトレーニングする方が、一方に焦点を当ててからもう一方に焦点を当てるよりも (つまり、ラベルの完全なタクソノミーをトレーニングした後に一般フィールドをトレーニングする)、はるかに時間効率が高くなります。
[生成 AI による抽出] フィールドおよび [一般] フィールドと [抽出] フィールドの比較について詳しくは、公式ドキュメントをご覧ください。お使いのリージョンで生成 AI による抽出を利用できない場合は、引き続き通常どおり一般フィールドを使用します。このセクションの残りの部分では、一般フィールドの使用方法に関するガイダンスを提供します。
一般フィールドとは
一般フィールドは、データセット内のメッセージ内から抽出できる構造化データの追加要素です。 一般フィールドには、金額、日付、通貨コード、電子メールアドレス、URL、その他多くの業界固有のカテゴリなどのデータポイントが含まれます(例については以下を参照してください)。
プラットフォームは、一般的なフィールド (ゼロからトレーニングしたものを除く) を有効化するとすぐに予測できます。これは、典型的な (場合によっては非常に特殊な) 形式と、類似の一般フィールドのトレーニング セットに基づいてフィールドを識別できるからです。
ラベルと同様に、ユーザーは正しいまたは誤って予測された一般的なフィールドを承認または拒否できるため、今後モデルがそれらを識別する能力が向上します。
一般フィールドの種類
現在、 一般フィールドには主に 2 つのタイプがあります。
- 事前トレーニング済みの一般フィールド 。通常は一連の標準ルールまたはカスタム定義のルールに基づいています。例: 金額、URL、および日付
- ユーザーがゼロからトレーニングした (ラベルのトレーニングと同様) マシン ラーニングに基づく一般的なフィールド
トレーニング可能な一般フィールドとトレーニング不可能な一般フィールド
すべての一般フィールドは、本質的にトレーニング可能であるか (ゼロからトレーニングされた一般的なフィールド)、有効化するとトレーニング可能にすることができます (他のすべての一般的なフィールドの種類)。
トレーニング可能な 一般フィールドとは、ユーザーが提供したトレーニングに基づいてプラットフォーム上で ライブ 更新されるフィールドです。 一般的なフィールドのトレーニングについて詳しくは、 こちらをご覧ください。
通常、標準またはカスタム定義のルールのセットに基づく事前トレーニング済みの一般フィールドでトレーニングを有効化すると、それらのルールのパラメーター内でその全般フィールドに対するプラットフォームの理解を深めることができます。 基本的に、これらに関するさらなるトレーニングは、プラットフォームがその一般的な分野と見なすことができる範囲を縮小しますが、それを増やすことはありません。
これは、これらの一般的なフィールドの多くが日付 (例: 「明日」)と金額(例: £20)、ダウンストリームシステムの構造化データ形式に正規化する必要があります。 また、ISINやCUSIPなどの一般的なフィールドの場合、これらは設定された形式を持っている 必要がある ため、定義された形式に準拠していないものを予測するようにプラットフォームに教えるべきではありません。
トレーニング可能な一般フィールドが割り当てられると、プラットフォームは一般フィールドのテキストと、通信の残りの部分内の一般フィールドのコンテキスト、つまり一般フィールド値の前後(同じ段落と上下の段落)で何が起こっているかを調べます。 このコンポーネントは、値自体と、その値が通信のコンテキスト内でどのように表示されるかに基づいて、一般的なフィールドをより適切に予測することを学習します。
事前トレーニング済みの一般フィールドがトレーニング可能として設定されていない場合でも、データセット内の一般フィールドの予測を承認または却下できます。エンティティの予測は、ユーザーがプラットフォーム内で行うフィードバックを使用してオフラインで更新および改良されます。メッセージの確認時に、これらの一般フィールドを承認または拒否すると便利です。データセットで一般フィールドを有効化する方法について詳しくは、「一般フィールドを有効化、無効化、更新、作成する」をご覧ください。
一般フィールドの種類を設定する場合は、フィールドの種類のデータ型を選択する際のテンプレート オプションを使用して、次の事前構築済みオプションのいずれかを選択できます。
一般的なフィールドの種類 | 説明 |
---|---|
メール | メール アドレスです。 |
通貨 | 通貨コードです (例: 英ポンド、スイスフラン、または米ドル。 |
URL | 統一されたリソース ロケーター (つまり、 ウェブアドレス)。 |
SEDOL (SEDOL コード) | 金融証券識別子 (証券取引所の日次公式リストの略で、長さは 7 文字)。 |
BIC コード | ビジネス識別コード(BIC)は、ビジネストランザクションのルーティングとビジネスパーティの識別に関するISO 9362の国際標準です。 BICコードの長さは8文字または11文字です。 |
LEI (取引主体識別子) | 法的一般フィールド識別子(LEI)は、金融取引に関与する法的一般フィールドの一意のグローバル識別子です。 LEIは20文字の英数字コードとしてフォーマットされています。 |
ISIN (ISIN コード) | 国際証券識別番号(ISIN)は、金融証券を一意に識別します。 ISIN は 12 文字の英数字コードです。 |
Mark-to-market (MTM または M2M) | マークトゥマーケットとは、資産または負債の公正価値を指します。 時価評価は、現在の市場価格、同様の資産および負債の価格、または別の客観的に取りつかれた公正価値に基づいています。 |
CUSIP (証券識別コード) | CUSIPは、取引の清算と決済を容易にする目的で北米の金融証券を識別する9桁の数字または9文字の英数字コードです。 |
必要なユーザー権限: 「ソースの表示」および「データセットの更新」、または「データセット管理者」
新しいデータセットで一般フィールドを有効化する
作成する新しいデータセットで全般フィールドを有効化するには、設定プロセス中にフィールドを選択するだけです。
以下に示すボックスの [+] ボタンをクリックすると、そのデータセットに対して有効化できるすべての一般フィールドのドロップダウン メニューが表示されます。 データセットを作成する前に、有効化するすべての一般フィールドをクリックするだけです。 エラーを追加した場合は、一般的なフィールド名の横にある「X」アイコンをクリックして削除できます。
新しいデータセットの作成方法について詳しくは、こちらをご覧ください。
既存のデータセットの一般フィールドを有効化、更新、無効化する
既存のデータセットの全般フィールドを有効化、更新、無効化するには、上部のナビゲーション バーにある [設定] タブから [ラベルおよび抽出フィールド] タブを選択します。
一般フィールドを有効化する
既存の一般フィールドを有効化するには、[一般フィールド] ボックス内の をクリックし、有効化する一般フィールドをドロップダウン メニューから選択します。 選択内容に満足したら、[一般フィールドの更新] を選択します (以下を参照)。
これらの全般フィールドには、 設定が事前に選択されています。 その後、以下に示すように、 トレーニング可能にするなどして更新できます。
一般フィールドの更新:
有効な一般フィールドを更新するには、上の画像に示すように、一般フィールドボックスの一般フィールドをクリックすると、[一般フィールドの編集]モーダル(下)が表示されます。
ここでは、 基本の [全般] フィールド、[ 全般] フィールドのタイトル 、 API 参照名 (これらの概念については後述) を更新したり、[全般] フィールドを「トレーニング可能」にしたりできます。
以前に「トレーニング可能」に設定されていない一般的なフィールドの種類の全般フィールドを確認したことがある場合、この情報は引き続き保存されます。
一般フィールドの無効化:
選択した一般フィールドを削除するには、一般フィールド名の横にある「X」アイコンをクリックし、[一般フィールドの更新]をクリックします。
一般フィールドを削除して [一般フィールドを更新] をクリックすると、このデータセットのその一般フィールドのトレーニング データも削除されます。 [全般] フィールドを再度有効化した場合は、再度トレーニングする必要があります。
一般フィールドの更新中に操作を間違えた場合は、[一般フィールドを更新する] をクリックする前に [リセット] をクリックすると、変更は適用されません。
新しい一般フィールドの作成
上記のセクションでは、新しいデータセットと既存のデータセットの両方に対して、事前トレーニング済みの既存の全般フィールドを有効化および更新する方法について説明しました。 各インスタンスで、新規または既存のデータセットに対して、新しい一般フィールドを作成することもできます。
新しく作成した全般フィールドは、既存の事前トレーニング済みの全般フィールドに基づくことも、(新しいラベルのように) ゼロからトレーニング することもできます。
これを行うには、[データセットの作成] フローまたはデータセット設定ページ (上記を参照) の [全般] フィールド ボックスで [+] アイコンをクリックします。
これにより、以下に示すように、「新しい一般フィールドの追加」モーダル が表示されます。
ここでは、 フィールドの型、 タイトル、 API 参照名を設定したり、 全般フィールドをトレーニング可能かどうかを選択したりできます (これらは上記のように後から更新できます )。
各フィールドに入力したら (以下で説明)、[作成] をクリックします。
フィールドの型
- これが新しい全般フィールドの初期ステートとなり、ドロップダウンには利用可能な事前トレーニング済みの全般フィールドすべてのリストが含まれます
- たとえば、基本の一般フィールドとして「日付」を選択した場合、この種類のフィールドに対して予測される一般的なフィールドはすべて日付になり、特定の日付のみを認識するようにプラットフォームをトレーニングできます
-
一般フィールドを完全にゼロからトレーニングする場合は、[なし - ゼロからトレーニング] を選択して、基本的には空白のキャンバスから始めて、一般フィールドをトレーニングします。この一般的なフィールドに対するプラットフォームの予測は、提供するトレーニング例に完全に基づいています
一般フィールドのタイトル
- 一般的なフィールドのタイトルは、プラットフォームのUIに表示される一般的なフィールドの名前です
API 名
- 全般フィールドの API 参照名は、メッセージの予測を提供するときに API を介して返される参照名です
- API 名にスペースや句読点を含めることはできません。ただし、ダッシュ ( - ) とアンダースコア ( _ ) は使用できます。
必要なユーザー権限: [ソースを表示] および [全般フィールドを表示]
ラベルの場合と同様に、ExploreとReportsの両方で、一般的なフィールドが予測または割り当てられているかどうかでメッセージをフィルタリングできます。
複数の一般フィールド フィルターを適用する場合は、[AND]、[ANY OF]、[NOT (非推奨)] の任意の組み合わせを適用できます。これらのフィルターを使用すると、データのトレーニングと解釈の柔軟性が大幅に向上し、コミュニケーションチャネルで何が起こっているかについてより深い洞察を得ることができます。
一般的なフィールド予測でフィルター処理するときに実行できる操作の一部を次に示します。
- 複数の一般フィールド フィルターを Explore とレポートの両方で一度に適用する
- フィルターを適用し、選択した複数の一般フィールドの 1 つが予測されているメッセージに絞り込む (つまり、ANY OF 一般フィールド X AND 一般フィールド Y AND ...)
- 予測される複数の異なる一般フィールド (一般フィールド X と一般フィールド Y AND ...) を持つメッセージにフィルター処理する
- 特定の一般フィールドが予測されない (つまり、GENERAL フィールド Y ではない) メッセージにフィルターを適用する
- 一般フィールド フィルターが適用されている状態で、特定の検索用語を含む一般フィールドを検索します。
以下のように、データセットで有効化されているすべての一般フィールドがフィルター バーに表示されます。一般フィールドの割り当てについては、「一般フィールドを確認および適用する」で詳しく説明しています。
一般フィールド フィルターを適用する方法は 2 つあり、それらを組み合わせて使用して適切な種類のクエリを作成できるようになりました。
上の図は既定のステートを示しています。ここではフィルターは適用されておらず、すべてのメッセージが表示されています (ただし、別のフィルターが適用されている場合を除きます)。
全般フィールド フィルターを更新するには、以下で説明するボタンを使用します。 選択すると色が変わります。
注釈付きの一般フィールドを含むメッセージを表示します。 | |
一般フィールドを含むと予測されたメッセージを表示 |
メッセージにフィルターを適用して、アノテーション済みの一般フィールドを持つ、または一般フィールドを含むと予測されているメッセージに絞り込む場合は、上部にあるボタンを使用します (上図を参照)。メッセージにフィルターを適用して、特定のアノテーション済みまたは予測されている一般フィールドを含むメッセージに絞り込む場合は、対象の一般フィールドにカーソルを合わせると、同じ 2 つのボタンが右側に表示されます。
フィルターを適用して、割り当てられているか予測されている一般フィールドに絞り込む場合は、一般フィールドの名前を選択すると、いずれかを含むメッセージが表示されます。
選択内容を削除するにはボタンをもう一度選択し、複数の選択を削除するには [ すべて] を選択します。 フィルター バーの上部にある [すべてクリア] を選択することもできますが、一般的なフィールド フィルターだけでなく、選択したすべてのフィルターがクリアされます。
一般フィールドのタクソノミーは通常のフィルター バーとして機能し、複数の一般フィールドを 1 回のクリックで一度に選択できます。
リストから複数の一般フィールドを選択すると、ANY OF 型のクエリが作成されます。
[全般] フィールド バーで [全般フィールド A]、[一般フィールド B]、および [一般] フィールド C を選択した場合は、[ 全般] フィールド A、一般フィールド B、または [全般] フィールド C の予測クエリで [メッセージを表示する] クエリ が作成されます。
特定の一般フィールドにフィルターを適用する場合、複数の選択を行うことができます。 たとえば、住所明細行の一般フィールドが割り当てられているメッセージ や 、予測された市区町村の一般フィールドが予測されているメッセージを表示するようにフィルター処理できます (以下を参照)。
2 番目のフィルター オプションは、一般フィールド バーの上にある [+ 一般フィールドの追加] フィルター ボタンです。
これにより、全般フィールド バーのドロップダウンを有効化し 、特定の全般 フィールドを考慮する対象から除外するなど、より複雑なフィルターを選択できます。
このドロップダウンから、一般フィールドの名前 (割り当て済みおよび予測用)、または個々のボタン (この一般フィールドが割り当ても予測もされていないマイナスを含む) をクリックして、含めるまたは除外する複数の一般フィールドを選択できます。
結果は次の例のようになり、請求書 ID 一般フィールドがあると予測されているが、製品 ID 一般フィールドは割り当てられても予測されてもいないメッセージが返されます。
[+ 一般フィールド フィルターの追加] を複数回選択して、クエリにレイヤーを追加できます。 2 つの異なる一般フィールド フィルターは AND 型のクエリを作成しますが、同じ一般フィールド フィルターで複数の一般フィールドを選択すると、ANY OF 型のクエリが作成されます。
以下の例では、複数の一般フィールド フィルターが個別に適用されています。 これにより、最初のフィルターの 3 つの全般フィールドのいずれかを持つと予測されるが、[ポリシー番号] 全般フィールドも予測され、英国郵便番号全般フィールドが予測または割り当てられていないメッセージを返すフィルターが作成されます。
役に立つヒントは、複数の一般フィールドを含む個々のフィルターで & 記号を選択することで、それらを個々のフィルターに自動的に分割できることです。 これにより、クエリがANY OFから変更されます(つまり、 予測されるこれらの一般的なフィールドのいずれか)をAND(つまり、 これらの一般的なフィールドはすべて予測されます)。
全般フィールド バーのフィルターと、個別に追加された全般フィールド フィルターの両方からフィルターを組み合わせることができます。 全般フィールド バーに適用されたフィルターは、個別に適用された全般フィールド フィルターとの AND クエリとして扱われます。
たとえば、次の図に示すクエリの組み合わせは、ORDER ID または PROD ID のいずれかが予測されているメッセージを返します。
一般フィールド バーを使用する一般フィールド フィルターと、個別に追加された一般フィールド フィルターを組み合わせます。
必要なユーザー権限:「ソースの表示」および「確認とラベル付け」
予測される一般フィールドは、以下のメッセージの最初の行のように、色で強調表示されたテキストとして表示され、異なる一般フィールド タイプごとに異なる色で表示されます。 一般フィールドがユーザーによって確認されると、手動で適用するか、予測を受け入れると、以下に示すように、一般フィールドは太字の暗いアウトラインで強調表示されたテキストとして表示されます。
段落に一般フィールドが割り当てられ、閉じられ、または適用されている場合は、以下のメッセージの本文に示すように、灰色で強調表示されます。
トレーニング可能な一般的なフィールドを確認する場合、プラットフォームは、割り当てた一般的なフィールド値と、それらが通信内のどこに表示されるかのコンテキスト (値自体の周りで使用される他の言語) の両方から学習することを覚えておくことが重要です。
プラットフォームは、同じ段落内の言語のコンテキストを一般的なフィールド値として考慮し、一般的なフィールドが配置されている段落の直前と直後の単一の段落(新しい区切り行で示される)を考慮します。
ご注意: 「トレーニング可能」に設定されていない一般的なフィールドの場合、プラットフォームの予測は、その全般フィールドに対してプラットフォーム内で定義されたルールに完全に基づいています。 これは、全般フィールドがダウンストリーム オートメーションに設定された形式に絶対に従う必要があり、値が正しくないと失敗や例外が発生する場合に便利です。
プラットフォームは、どの一般フィールドが通信に適用されるかを予測するときに、各予測に信頼度スコア (%) を割り当てて、強調表示されたテキスト範囲に一般フィールドが適用されることの信頼度を示します。 一般フィールドの信頼度スコアを表示するには、全般フィールドの上にカーソルを合わせます。
この信頼度スコアは API 経由でも利用できるため、下流で実行される自動化アクションに情報を提供できます。
全般フィールドを有効化すると ( こちらを参照)、プラットフォームによってデータセット全体のメッセージ内で予測が自動的に開始されます。 その後、ユーザーは正しい予測を受け入れるか、正しくない場合は拒否できます。 これらの各アクションは、その一般的なフィールドに対するプラットフォームの理解を深めるために使用されるトレーニング信号を送信します。
オフラインでトレーニングされる事前トレーニング済みの一般フィールド (例: 金額、URLなど)、ユーザーが正しい予測を受け入れることよりも、間違った予測を拒否または修正することが改善の観点から重要です。
プラットフォームでライブをトレーニングする一般的なフィールドでは、正しい予測を受け入れることと、誤った予測を拒否することも同様に重要です。 ただし、これらの種類の各一意の一般的なフィールドの多くの正しい例を受け入れ続ける必要はありません(たとえば、 Example Bank Ltd.は、誤って予測されたものが見つからない場合のユニークな組織一般フィールドです。
段落内の一般的なフィールドを確認する場合は、その段落内の他のすべての一般的な フィールドを確認する必要がある場合 に、これに対する重要な注意点があります。
一般的なフィールド予測を確認するには、予測の上にマウスを置くと、以下の例に示すように、一般的なフィールド レビューモーダルが表示されます。 承認するには [確認] をクリックし、拒否するには [却下] をクリックします。
一般的なフィールドとラベルは、互いに独立してトレーニングできます。 メッセージのラベルを確認しても、同じメッセージの全般フィールドを確認する 必要はありません 。 ただし、モデル トレーニング中の時間を最も効率的に使うために、両方を同時に行うことをお勧めします。
ご注意: 一般的なフィールドをトレーニングするときは、以下で説明する ベストプラクティス に従うことが 非常に重要です -特に段落に部分的に注釈を付けないことに関して。
データセットに対して有効になっている一般的な各フィールド (特にトレーニング可能なフィールド) を、プラットフォームがどの程度適切に予測できるかを理解するには、 こちらをご覧ください。
誤った一般フィールド予測を拒否することは重要ですが、強調表示されたテキストが実際には別の一般フィールドであった場合(これは日付関連の一般フィールドでより一般的です)、後で正しいフィールドを適用します(一般フィールドの適用方法については以下を参照してください)。
プラットフォームが予測していない可能性のあるテキストに一般的なフィールドを適用するには、ユーザーは、コピーする場合と同じように、テストのセクションを強調表示するだけです。
以下に示すように、データセットに対して有効にしたすべての一般フィールドを含むドロップダウン メニューが表示されます。 正しいものをクリックして適用するか、対応するキーボードショートカットを押すだけです。
各一般フィールドの既定のキーボード ショートカットは、文字の先頭です。 複数の一般フィールドが同じ文字で始まる場合、一方が他方にランダムに割り当てられます。
一般的なフィールドが適用されると、太字のアウトラインで色付きで強調表示されます(以下を参照)。 各一般的なフィールドタイプには、独自の特定の色があります。
特定の一般フィールド型の値を複数の段落に分割することはできません。 1 つの一般フィールド値として抽出するには、段落内に完全な値が含まれている必要があります。
メッセージ内の一般フィールドを承認、拒否、または適用する際に覚えておくべき非常に重要なベストプラクティスが2つあります。
1. 単語を分割しない
単語を分割しないことが重要です–強調表示された一般フィールドは、問題の単語の一部だけでなく、問題の単語全体(または複数)をカバーする必要があります(下の左側の間違った例と右側の正しいアプリケーションを参照してください)
2. 段落を部分的にアノテーションを行わない
注釈を付けるときに、ユーザーがメッセージに 1 つのラベルを割り当てる場合は、そのメッセージに適用できるすべてのラベルを適用する必要があります。 一般フィールドの場合も同様ですが、一般フィールドはメッセージ全体ではなく段落レベルでレビューまたは適用される点が異なります。
メッセージ内の段落は改行で区切られます。メールのメッセージの件名は、それ自体が 1 つの段落と見なされます。
段落内のすべての一般フィールドをレビューまたは適用する場合は、必ずすべての 一般フィールド の種類にわたって、段落内のすべての一般フィールドを確認または適用してください。 段落内の一般的なフィールドを適用、承認、または拒否することは、その段落が一般的なフィールドの観点からプラットフォームによって「レビュー済み」として扱われることを意味します。 したがって、その段落のすべての予測を受け入れるか拒否することが重要です。
以下の例は、メール メッセージ内で確認されたさまざまな段落を示しています。
以下に示すメッセージは、ユーザーが 1 つの段落ですべての一般的なフィールド予測を承認または拒否していない同じ例を示しています。 モデルが一般フィールド金額を誤った予測として誤って扱うため、これは正しくありません。
このプラットフォームでは、タクソノミー内のすべてのラベルの場合と同様に、[検証] ページの有効な全般フィールドに対して検証の統計、警告、および推奨されるアクションが表示されます。
これらを確認するには、以下の画像に示すように、[ 検証] ページに移動し、上部にある [ 全般フィールド ] タブを選択します。
一般的なフィールドを正しく予測する能力をプラットフォームが検証するプロセスは、ラベルの場合と非常によく似ています。
メッセージは、データセットに最初に追加されたときに、トレーニング セットとテスト セット (各メッセージのメッセージ ID によってランダムに決定) に分割されます (80:20)。 割り当てられた一般的なフィールド (承認または修正された予測) は、元のメッセージが最初に割り当てられたセットに基づいて、トレーニング セットまたはテスト セットに分類されます。
1 つのメッセージに非常に多くの一般フィールドが存在し、メッセージがトレーニング セットに含まれるかテスト セットに含まれるかが保証されない場合があるため、各セットの一般フィールドの数に大きな差が生じることがあります。
また、割り当てられたすべての一般フィールドがトレーニング セットに含まれる場合もあります。 検証スコアを計算するには、テスト セットに少なくとも 1 つの例が必要であるため、この全般フィールドには、テスト セットにいくつかの例が存在するまで、さらに割り当てられた例が必要になります。
十分なトレーニングデータを持つ各一般フィールドの個々の 精度と再現率 の統計は、ラベルの統計と非常によく似た方法で計算されます。
精度 = 一致する一般フィールドの数/予測された一般フィールドの数
リコール =いいえ。一致する一般フィールドの数 / いいえ実際の一般フィールド数
「一致する一般フィールド」とは、プラットフォームが一般フィールドを正確に予測した場合です(つまり、 部分一致なし)
F1 スコアは、単に適合率と再現率の両方の調和平均です。
このページで示している適合率と再現率の統計は、プラットフォームでライブでトレーニング可能な一般的なフィールド (上記の 2 列目を参照) に最も役立ちます。これらの一般的なフィールドの種類についてレビューするすべての一般的なフィールドは、それらの一般的なフィールドを予測するプラットフォームの機能に直接影響するためです。
したがって、正しい一般フィールドを受け入れ、間違った一般フィールドを修正または拒否することは、可能な限り行う必要があります。
テンプレート フィールド タイプを使用して事前にトレーニングされた一般的なフィールドの場合、検証統計がパフォーマンスを正確に反映できるようにするには、ユーザーは、間違った予測を修正するだけでなく、かなりの量の正しい予測を受け入れることを確認する必要があります。
間違った予測を修正するだけの場合、トレーニングセットとテストセットは、プラットフォームが一般的なフィールドを予測するのに苦労したインスタンスのみで人為的にいっぱいになり、それらをより適切に予測できるインスタンスは埋め尽くされません。 これらの一般フィールドの誤った予測を修正しても、これらの一般フィールドはリアルタイムで更新されないため (オフラインで定期的に更新されます)、検証統計はしばらくの間変更されず、人為的に低くなる可能性があります。
多くの正しい予測を受け入れることは、これらの一般的なフィールドが正しく予測される頻度がはるかに高いため、必ずしも便利であるとは限りません。 ただし、予測の大部分がこれらの一般的なフィールドに対して正しい場合は、[検証] ページで精度と再現率の統計について心配する必要はない可能性があります。
要約統計(平均精度、平均再現率、平均F1スコア)は、個々の一般的なフィールドスコアのそれぞれの平均です。
ラベルと同様に、十分なトレーニング データを持つ一般フィールドのみが平均スコアに含まれます。 含めるのに十分なトレーニング データがない場合は、名前の横に警告アイコンが表示されます。
[一般フィールドの検証] ページには、一般的なフィールドの平均パフォーマンス統計と、トレーニング セットのサイズに対する各一般フィールドの平均 F1 スコアを示すグラフが表示されます。 このグラフでは、琥珀色または赤色のパフォーマンス警告がある全般フィールドにもフラグが付けられます。
表示される一般的なフィールドパフォーマンス統計は次のとおりです。
- 平均F1スコア: パフォーマンスを正確に推定するのに十分なデータを含むすべての一般フィールドにわたるF1スコアの平均。 このスコアは、再現率と精度を等しく重み付けします。 F1 スコアが高いモデルでは、偽陽性と偽陰性が少なくなります。
- 平均精度: パフォーマンスを正確に推定するのに十分なデータを含むすべての一般フィールドの精度スコアの平均。 精度の高いモデルほど、誤検知が少なくなります。
- 平均再現率: パフォーマンスを正確に推定するのに十分なデータを含むすべての一般フィールドにわたる再現率スコアの平均。 再現率が高いモデルほど、偽陰性が少なくなります。
[検証] ページの [メトリック] タブに表示される一般的なフィールドのパフォーマンス グラフ (上記を参照) は、個々の一般的なフィールドのパフォーマンスを視覚的に示します。
一般的なフィールドをこのグラフに表示するには、検証中にプラットフォームによって使用されるトレーニング セットに、ピン留めされた例が少なくとも 20 個含まれている必要があります。 これを確実に行うために、ユーザーは、25の異なるメッセージから一般フィールドごとに少なくとも25(多くの場合それ以上)の固定された例を提供することを確認する必要があります。
各一般フィールドは、一般フィールドのパフォーマンスに関するモデルの理解に基づいて、3 つの色のいずれかとしてプロットされます。 以下で、これらの意味を説明します。
一般的なフィールドパフォーマンス指標:
- グラフに 青 でプロットされた一般フィールドは、 満足のいくパフォーマンス レベルを持っています。 これは、例の数と種類、その一般的なフィールドの平均精度など、多くの要因に基づいています
- 琥珀色としてプロットされた一般フィールドのパフォーマンスは、満足のいくものではありません。それらは比較的低い平均精度を持っているかもしれませんまたは十分なトレーニング例ではありません。 これらの一般的なフィールドは、パフォーマンスを向上させるために少しトレーニング/修正が必要です
- 赤でプロットされた一般フィールドは、パフォーマンスの低い一般フィールドです。 平均精度が非常に低いか、 トレーニング例が十分でない可能性があります。 これらの一般的な分野は、パフォーマンスを満足のいくレベルに引き上げるために、かなり多くのトレーニング/修正が必要になる場合があります
必要なユーザー権限: 確認と注釈付け。
トレーニングラベルと同様に、一般的なフィールドのトレーニングは、さまざまなトレーニングモードを使用して、特定のメッセージに適用される一般的なフィールドをユーザーがプラットフォームに教えるプロセスです。
ラベルと同様に、「ティーチング」、「チェック」、「ミス」モードは、一般フィールドのパフォーマンスのトレーニングと改善に役立ちます。1)[検索] ページのトレーニング ドロップダウンを使用するか、2) [検証] ページの [全般フィールド] タブの推奨アクションに従うことによってアクセスできます。
特定の一般フィールドにパフォーマンス警告がある場合、プラットフォームは、その警告に対処するのに役立つと思われる 次善のアクション を 優先度順に一覧表示します。 これは、タクソノミーまたは [すべての全般] フィールド チャートから特定の一般フィールドを選択した場合に表示されます。
ネクストベストアクションの提案は 、 リンクとして機能し、クリックすると、一般的なフィールドのパフォーマンスを向上させるためにプラットフォームが提案するトレーニングビューに直接移動できます。 提案は、最初にリストされた一般フィールドを改善するために、 最も優先度の高いアクション で インテリジェントに順序付けられ ます。
これは、一般的なフィールドのパフォーマンスを理解するのに役立つ 最も重要なツール であり、一般的なフィールドのパフォーマンスを向上させる際の ガイド として定期的に使用する必要があります。
次の表は、プラットフォームが各一般的なフィールドトレーニングモードを推奨する場合をまとめたものです。
一般フィールドを教える | 一般フィールドを確認 | 見逃された一般フィールド |
- ラベルが適用されるかどうかについてモデルが最も混乱しているラベルの予測を表示する場合 - 未レビューメッセージの一般的なフィールドのトレーニング用 |
- 全般フィールドが誤って適用された可能性があるとプラットフォームが判断したメッセージを表示します - レビューされたメッセージの一般的なフィールドをトレーニングして、不整合を見つけて修正しようとするため |
- 選択した全般フィールドが欠落している可能性があるとプラットフォームが判断するメッセージを表示します。 - レビューされたメッセージの一般的なフィールドをトレーニングして、不整合を見つけて修正しようとするため |
[全般を教える] フィールドを使用すると、モデルの予測の信頼度が高いメッセージではなく、不明なメッセージに関する新しい情報がモデルに与えられるため、全般的なフィールドのパフォーマンスが向上します。
次のような場合に「一般フィールドを教える」が推奨されます。
- 一般フィールドの横にパフォーマンス警告があります(以下に示すように、min. 25例は提供されていません)
- 特定の一般フィールドの F1 スコアが低い
- 一般的なフィールドのテキスト内に常に明確なコンテキストがあるとは限らない場合や、特定の型の一般的なフィールド値内に多くのバリエーションがある場合があります
一般フィールドを確認すると、モデルに予測を行うための正確で一貫性のある例があることで、一般フィールドに対するモデルの理解を向上させながら、レビューされたセットの不整合を特定するのに役立ちます。 これにより、一般的なフィールドの想起が向上します。
プラットフォームでは、以下の場合に [全般フィールドの確認] を推奨します。
- 再現率は低いが、適合率が高い
- プラットフォームが行う予測は非常に正確ですが、一般的なフィールドが適用されている多くの場合、これらの例をキャッチしません
(一般的なフィールド検証の計算の詳細については、 こちらをご覧ください)
欠落した一般フィールドを使用すると、選択した一般フィールドを持つ必要があるが、選択されていないレビュー済みセット内の例を見つけるのに役立ちます。 また、一般的なフィールドを予測するモデルの機能に悪影響を及ぼす可能性のある、部分的に注釈が付けられたメッセージを識別するのにも役立ちます。 これにより、一般的なフィールドの精度が向上し、モデルに予測を行うための正確で一貫性のある例が含まれるようになります。
プラットフォームは、次の場合に一般フィールドを見逃すことを推奨します。
- 再現率は高いが、適合率が低い
- 一般的なフィールドを誤って予測することがよくありますが、それらを正しく予測すると、そこにあるはずの例の多くをキャッチします
一般フィールドの検証の計算について詳しくは、「一般フィールドの検証」ページをご覧ください。
必要な権限: データセットの変更
カスタムの正規表現一般フィールドを使用して、ID や参照番号など、繰り返し構造がわかっているテキストの範囲を抽出して書式設定します。
このオプションは、バリエーションの少ないシンプルで構造化された一般フィールドの場合に便利です。 ばらつきが大きく、コンテキストが予測に大きな影響を与える一般的なフィールドの場合は、機械学習ベースの一般的なフィールドが最適な選択肢です。 この 2 つを組み合わせて、Communications Mining 内の任意のデータセットで使用できます。
また、より広範な正規表現 (すなわち、一般フィールドを定義するための一連のルール) をカスタム一般フィールドのベースとして使用することもできます。 この機能により、ルールと、Communications Mining 内でのトレーニングによるコンテキストに応じたマシン ラーニング ベースの絞り込みが組み合わされ、高度なカスタム一般フィールドが作成されます。 これにより、最適なパフォーマンスと、自動化のために抽出される値に必要な制限が提供されます。
カスタム正規表現の一般フィールドは、正規表現データ型のフィールドの種類で構成され、1 つ以上のカスタム正規表現テンプレートを持ちます。各テンプレートは、一般フィールドを抽出 (および書式設定) する 1 つの方法を表します。
これらのテンプレートを組み合わせることで、同じ一般フィールドの種類の複数の表現をカバーする、柔軟で強力な方法が提供されます。
テンプレートは、次の 2 つの部分で構成されます。
- 正規表現 (正規表現) は、一般的なフィールドとして抽出されるテキストの範囲が満たす必要がある制約を記述します。
- 抽出された文字列をより標準的な形式に正規化する方法を表す書式設定。
ID\
d{}
」を入力すると、次のように表示されます。
カスタム正規表現テンプレートをテキストでテストして、期待どおりに動作することを確認できます。テンプレートで抽出される一般フィールドが、その値、および開始文字と終了文字の位置と併せてリストに表示されます。
\d{4}
」で [書式設定] が「ID-{$}
」の場合、次のテスト文字列では抽出結果が 1 つ表示されます。
正規表現は、テキスト内の一般的なフィールドを抽出するために使用されるパターンです。 構文のドキュメントを確認してください。
名前付きキャプチャ グループを使用すると、抽出された文字列の特定のセクションを識別し、その後、書式を設定できます。キャプチャ グループの名前は、すべてのテンプレートで一意である必要があり、小文字または数字のみを使用する必要があります。
書式設定を指定して、抽出した一般フィールドを後処理できます。
既定では、書式設定は適用されません。プラットフォームから返される文字列は、正規表現で抽出した文字列になります。ただし、必要に応じて、次のルールを使用してより複雑な変換を定義できます。
$
を付けることで、書式設定ロジックで変数として利用できます。$
記号そのものは、正規表現の完全一致を表すことに注意してください。
{
と }
で囲む必要があります。
ID-
を付けて返す場合、正規表現と書式設定は次のようになります。
ID-1234567
が返されます。&
記号で連結できます。
正規表現 | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
通貨の書式 | {$id1 & "-" & $id2} |
テキスト | 最初の ID は 123 で、2 番目の ID は 4567 です |
プラットフォームによって返される一般フィールド | 123-4567 |
抽出された範囲にある単語の最初の文字を大文字にし、それ以降の文字を小文字にします。
正規表現 | \w+\s\w+ |
通貨の書式 | {proper($)} |
テキスト | albert EINSTEIN |
プラットフォームによって返される一般フィールド | Albert Einstein |
抽出された範囲を、指定したサイズまで、指定した文字でパディングします。
関数の引数:
- パディングする文字を含むテキスト
- パディングする文字列のサイズ
- パディングに使用する文字
正規表現 | \d{2,5} |
通貨の書式 | {pad($, 5, "0")} |
テキスト | 123 |
プラットフォームによって返される一般フィールド | 00123 |
文字を他の文字に置き換えます。
関数の引数:
- 置換する文字を含むテキスト
- 置き換える文字
- 古い文字を置き換えるのに使用する文字
正規表現 | ab |
通貨の書式 | {substitute($, "a", "12")} |
テキスト | ab |
プラットフォームによって返される一般フィールド | 12b |
範囲の最初の n 文字を返します。
関数の引数:
- 抽出する文字を含むテキスト
- 返す文字の数
正規表現 | \w{4} |
通貨の書式 | {left($, 2)} |
テキスト | ABCD |
プラットフォームによって返される一般フィールド | AB |
範囲の最初の n 文字を返します。
関数の引数:
- 抽出する文字を含むテキスト
- 返す文字の数
正規表現 | \w{4} |
通貨の書式 | {right($, 2)} |
テキスト | ABCD |
プラットフォームによって返される一般フィールド | CD |
- フィールドの定義と設定
- 一般フィールドについて
- 一般フィールドで利用可能な既製のテンプレート
- 一般フィールドの標準テンプレートのフィールドの種類
- 一般フィールドの有効化、無効化、更新、作成
- 一般的なフィールドフィルタリング
- 高度な予測フィルターを適用する
- 一般フィールド バー
- 一般フィールド フィルターを追加
- 一般フィールド バーのフィルターと追加された一般フィールドのフィルターを組み合わせる
- トレーニング用に一般フィールドのフィルターを組み合わせて一般フィールドで並べ替える
- 一般フィールドの確認と適用
- 一般フィールドの予測を識別する
- プラットフォームは、トレーニング可能な一般フィールドの一般的なフィールド予測をどのように行いますか?
- 一般フィールドの信頼度スコア
- 一般的なフィールド予測の受け入れと拒否
- 一般フィールドの適用
- ベスト プラクティス
- 一般フィールドの検証
- はじめに
- 一般フィールド検証はどのように機能しますか?
- スコアの計算方法
- トレーニング可能な一般フィールド
- 事前トレーニング済みの一般フィールド
- 統計情報の概要の意味
- メトリック
- 一般的なフィールドパフォーマンスの理解
- 個々の一般的なフィールドパフォーマンス
- 一般フィールドのパフォーマンスを改善する
- 概要
- 一般フィールドの推奨アクション
- 一般的なフィールドトレーニングモード
- 「一般ティーチング」フィールドの使用
- [Check General Field] を使用する
- [見逃された一般フィールド] を使用する
- カスタム正規表現の一般フィールドを構築する
- カスタム正規表現の一般フィールドとは
- カスタムの正規表現テンプレート
- 先行入力の検証
- 抽出結果のプレビュー
- 正規表現
- 通貨の書式
- 変数
- 文字列の操作
- 関数
- Upper
- Lower
- Proper
- Pad
- Substitute
- 左
- 右
- Mid