Communications Mining ガイド

最終更新日時 2025年10月20日

抽出データを生成する

手記：パフォーマンス指標や警告がなくユースケースに適した適合率または再現率レベルのラベルを選択します。

抽出の検証プロセスは、検証を通じてこれらの抽出のパフォーマンスを把握するために必要です。

トレーニングする抽出データを決定します。Report (レポート) > Statement of Accounts (勘定書) を、トレーニングするスキーマの例として使用します。

このプロセスを自動化するには、次のデータポイントを抽出して下流のシステムに入力します。

注: これは、[探索] でトレーニングしている場合にのみ当てはまることです。[トレーニング] では、抽出トレーニングバッチを選択すると、抽出データが事前に読み込まれます。

必要に応じてこのトレーニングモードを使用して、各抽出のトレーニング例 (つまり、ラベルに割り当てられた一連のフィールド) の数を 25 以上に増やします。これにより、モデルは抽出のパフォーマンスを正確に推定できます。

重要: Preview LLM を使用する場合は、各フィールドの例が 25 個になったら、それ以上例にアノテーションを行うのを止めることをお勧めします。コンテキスト内学習と検証には 25 個で十分であり、例を増やしてもパフォーマンスは向上しません。

抽出データを生成するには、以下の手順に従います。

[探索] タブに移動します。
[ ラベル] を選択し、抽出データを生成するラベルを選択します。
[抽出データを予測] を選択します。これにより、[探索] でページごとに抽出データが生成されます。つまり、指定したページのすべてのコメントに予測が適用されます。

注: 次のページに移動するたびに、再度 [抽出データを予測] を選択する必要があります。

さらに、[ フィールドのアノテーションを行う]、[ 抽出データを予測] の順に選択して、個別のコメントレベルで抽出データを生成できます。詳しくは、「抽出データを予測する」をご覧ください。
抽出予測を行った後、モデルがコメントの抽出されたフィールドを取得すると、テキスト内の関連する範囲が強調表示されます。モデルのサイドパネルに抽出された値が表示されます。予測値の検証方法については、「生成された抽出データを検証してアノテーションを行う」をご覧ください。

このセクションでは、抽出データを予測した場合の動作について説明します。

このモデルでは、生成 AI モデルを使用し、抽出スキーマで以前に定義した各データポイントをマッピングして、それらを意図 (ラベル) に関連付けます。
それらデータポイントを抽出して構造化されたスキーマで返し、SME が確認できるようにします。
構造化スキーマは、より複雑なオートメーションを可能にすることを意図したものであり、下流のオートメーションで使用できるよう API 内で JSON 形式で構造化されています。