IXP - ベストプラクティスと考慮事項

ixp

latest

false

Communications Mining ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

ベストプラクティスと考慮事項

強調表示された一般フィールドは、対象となる単語の一部だけでなく、単語全体または複数の単語をカバーする必要があります。フィールドの末尾にスペースを追加しないでください。

ラベルと同様に、一般フィールドと抽出フィールドを部分的に確認しないでください。

一般フィールドは、メッセージ全体レベルではなく、段落レベルで確認されます。段落のフィールドを確認するときは、段落内のすべてのフィールドを確認します。段落内のあるフィールドの確認を行わず、そのフィールド以外のすべてのフィールドにラベル付けした場合、そのフィールドは予測されたフィールドの真の例ではない、とモデルに示すことになります。これは、検証スコアと一般フィールドのパフォーマンスに反映されます。
抽出フィールドは、段落レベルだけでなく、メッセージレベルでも確認されます。メッセージ全体のフィールドを確認する場合は、メッセージ内のすべてのフィールドを確認します。メッセージ内のあるフィールドの確認を行わず、そのフィールド以外のすべてのフィールドにラベル付けした場合、そのフィールドは予測されたフィールドの真の例ではない、とモデルに示すことになります。これは、検証スコアと抽出フィールドのパフォーマンスに反映されます。

注:

フィールドレベルの考慮事項と、抽出およびラベルのパフォーマンスは、一般フィールドと抽出フィールドの両方を割り当てる際に覚えておくべき最も重要なことです。

グローバルフィールドは、相互に重複していたり、そのフィールド自体の別の例と重複していたりしてはなりません。
グローバルフィールドと抽出フィールドは相互に重複していても構いません。
異なる抽出フィールドで同じテキスト範囲を必要な回数だけ使用できます。
現在、Communications Mining™ には、一般フィールドの正規化のプレビュー機能はありません。正規化する必要があるフィールドは、下流の応答で正規化されます。Communications Mining での正規化は、今後モデルで利用できるようになる予定です。
子ラベルに抽出が含まれている場合、その親は抽出例を自動的に継承しません。ラベルの場合、その親は自動的に抽出例を継承します。

追加の抽出例を提供しても、ラベルのパフォーマンスは向上しません。ラベルのパフォーマンスを向上させるには、ラベル固有のトレーニングに重点を置きます。
ラベルのパフォーマンスを向上させると、ラベルとその後の抽出が予測されるはずであった発生をキャプチャする可能性を高めることができます。抽出のパフォーマンスを向上させるには、抽出自体に対して検証済みの例を提供します。

前へ生成された抽出データを検証してアノテーションを行う

次へ抽出データの検証と抽出パフォーマンスについて