- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 分析と監視を使用する
- オートメーションと Communications Mining
- よくある質問など
エンティティについて
エンティティとは
エンティティは、データセットに含まれるメッセージ内から抽出できる構造化データの追加要素です。エンティティには、金額、日付、通貨コード、メール アドレス、URL などの他に、業界固有のさまざまなカテゴリのデータ ポイントが含まれます (以下の例を参照)。
エンティティはラベルとは異なり、有効化されるとすぐにほとんどのエンティティが予測可能になります (最初からトレーニングしたものを除く)。エンティティは、その一般的な形式 (場合によっては非常に特殊な形式) と、類似するエンティティのトレーニング セットに基づいて識別できるためです。
ラベルと同様に、正しく予測されたエンティティや誤って予測されたエンティティを承認または却下し、今後モデルがそのエンティティを識別する能力を強化することができます。
エンティティの種類
現在、エンティティには主に次の 2 種類があります。
- 一連の標準的なルールまたはカスタム定義ルールに基づいた、事前トレーニング済みのエンティティ (例: 金額、URL、日付)
- ユーザーが (ラベルをトレーニングする場合と同じ方法で) ゼロからトレーニングした、マシン ラーニングに基づいたエンティティ
トレーニング可能なエンティティとトレーニング不可のエンティティ
すべてのエンティティは、本質的に「トレーニング可能」であるか (ゼロからトレーニングされたエンティティ)、または有効化すると「トレーニング可能」にすることができます (その他のすべてのエンティティの種類)。
「トレーニング可能な」エンティティとは、ユーザーが行うトレーニングに基づいてプラットフォーム内でリアルタイムで更新されるエンティティです。エンティティのトレーニングについて詳しくは、こちらをご覧ください。
一連の標準的なルールまたはカスタム定義ルールに基づく事前トレーニング済みのエンティティでトレーニングを有効化すると、それらのルールのパラメーターの範囲内で、エンティティに対するプラットフォームの理解を改良できます。これらのエンティティでさらにトレーニングを行うと、プラットフォームがそのエンティティと見なすことができる範囲は縮小し、拡大することはありません。
その理由は、日付 (例:「明日」) や金額 (例: £20) など、これらのエンティティの多くは、構造化されたデータ形式に正規化して下流のシステムで利用できるようにする必要があるためです。また、ISIN や CUSIP などのエンティティの場合、所定の形式が必須であるため、定義された形式に準拠しないエンティティを予測するようにプラットフォームに教えてはなりません。
トレーニング可能なエンティティを割り当てると、エンティティのテキストと、コミュニケーションの他の部分でのエンティティのコンテキスト、すなわちエンティティの値の前後 (同じ段落と前後の段落) の内容の両方が確認されます。プラットフォームは、値そのものと、その値がコミュニケーションのコンテキスト内にどのように出現するかに基づいて学習し、より適切にエンティティを予測するようになります。
事前トレーニング済みのエンティティがトレーニング可能として設定されていない場合でも (データセットでエンティティを有効化する方法について詳しくはこちらを参照)、ユーザーはデータセット内のエンティティの予測を承認または却下できます。エンティティの予測は、ユーザーがプラットフォーム内で行うフィードバックを使用してオフラインで更新および改良されます。そのため、メッセージの確認時にはエンティティを承認または却下することが大事です。