IXP - 抽出予測を検証する

ixp

latest

false

非構造化ドキュメントと複雑なドキュメントユーザーガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

抽出予測を検証する

注釈からモデルを直接トレーニングすることなく、プロンプトの指示を調整した後に IXP モデルの予測を検証してグラウンドトゥルースを確立します。

現在、このモデルはユーザーのアノテーションからは直接学習しません。モデルのパフォーマンスを向上させるには、プロンプト、指示、またはモデルの設定を変更します。

プロンプトの指示に問題がなければ、モデルの予測の検証を開始して、パフォーマンスの評価のためのグラウンドトゥルースを確立できます。その前に、予測と参照の違いを理解しておくことが重要です。

予測と参照

予測は予測値であり、グラウンドトゥルースと比較されます。

注:

予測が不正確であったり欠落していたりすると、[評価] タブのモデルのスコアとパフォーマンスメトリックに影響します。

参照とは、ドキュメント内で見つかった予測値に一致する参照です。参照の目的は、ユーザーがドキュメントの正しい部分を特定しやすくすることです。

注:

参照が正しくなかったり欠落したりしても、モデルのスコアやパフォーマンスメトリックには影響しません。ただし、人間による検証エクスペリエンスを向上させるために、参照を追加または修正すると役立つ場合があります。

参照と強調表示された範囲には既知の制限があり、これらは改善すべき重要な優先事項の 1 つです。

以下のいずれかのシナリオが発生する可能性があります。

予測は正しく、参照も正しいが、間違った範囲が強調表示されている。通常は、最初に見つかった一致です。
予測は正しいが、参照および強調表示された範囲が欠落している。このような場合は、フォールバックとしてページ番号を指定します。

注:

予測と参照は独立しています。つまり、参照が欠落していたり誤っていたりしても、予測値には影響しません。

抽出結果を検証する

抽出データが予測されると、以下のように強調表示されます。

下線 - 予測値です。
塗りつぶし - 確認された値です。
破線の枠線 - 未確認の値です。

抽出データを検証するには、以下の手順を実行します。

[ 構築 ] タブに移動し、[予測またはアップロードされたドキュメント を検証する ] を選択して検証プロセスを開始します。モデルによって、ドキュメント内の関連するテキスト範囲が強調表示され、生成された予測がサイドパネルに表示されます。複数の抽出に適用できる値 (アカウント番号など) には、関連するセクションに移動するのに役立つ矢印ボタンがあります。ボタンは、値をポイントすると表示されます。

以下の図は、予測されたステートでの抽出の外観を示しています。予測値には常に下線が付きます。

2. 予測を確認し、抽出データを 1 つずつ確認するか、フィールドグループ全体を確認して一括で確認します。各抽出結果を慎重に確認せずに [ すべて確定して次へ ] ボタンを選択するのはお勧めしません。次の図は、次の画像を示しています。

表の最初の行では、未確認ステートでの抽出の外観、つまり、一度確認されていたものの、現在は未確認になっている値です。未確認の値には破線の枠線が付きます。
表の 2 行目と 3 行目では、確認済みステートでの抽出の外観、つまり確認または修正済みの値です。確認済みの値は常に塗りつぶしされています。

注:

加えたが送信しなかった変更は下書きとして保存され、後で戻って更新できます。詳しくは、「注釈の下書き」をご覧ください。

3. 抽出スキーマの追加のフィールドは、[ タクソノミーを管理 ] または [ 構築 ] タブからいつでも設定できます。

Action Center からの抽出データを検証する例

抽出データの検証を停止する

フィールドごとに少なくとも 10 個の例を検証して、モデルが有意義な検証の統計情報を提供できるようにすることをお勧めします。

確認済みおよび未確認の参照と抽出

検証プロセスでは以下を行う必要があります。

抽出データが正しいかどうかを確認する
抽出データが間違っている場合は修正する
フィールドがドキュメントに存在しない場合は、存在しないとしてマークする
抽出スキーマに追加のフィールドを設定する

このセクションでは、抽出データと参照が確認済みステート (検証済み) と未確認ステート (未検証) でどのように表示されるかを示します。

注:

加えたが送信しなかった変更は下書きとして保存され、後で戻って更新できます。詳しくは、「注釈の下書き」をご覧ください。

予測値

未確認の値

ドキュメント内の参照は破線の枠線で強調表示されます。

図 1. 未確認の参照

確認済みとしてマークされている抽出データがない場合は、次のように表示されます。

図 2. 未確認の抽出データ

確認済み

参照は実線の枠線で強調表示されます。

図 3. 確認済みの参照

抽出データが確認済みとしてマークされている場合は、次のように表示されます。

図 4. 確認済みの抽出データ

検証済みの抽出データ

このセクションでは、モデルの予測がユーザーのアノテーションと一致する場合と一致しない場合のシナリオの例を示します。

アノテーションが予測と一致する場合、抽出データは次のようになります。

図 5. 正しい予測

アノテーションが予測と一致しない場合、抽出データは次のようになります。

図 6. 誤った予測

アノテーションはあるが予測がない場合、抽出データは次のようになります。

図 7. 欠落している予測

注:

予測は参照ではなくアノテーションと比較されます。参照が欠落していたり、正しくなかったりする可能性がありますが、不一致のフラグは付けられません。

抽出データを修正する

抽出データを修正するには、以下の手順を実行します。

抽出にカーソルを合わせ、鉛筆アイコンを選択して予測値を編集します。
正しい値を入力します。
プラス + アイコンを選択して、予測値または参照を更新します。
ドキュメント内の正しい値を強調表示します。

注:
加えたが送信しなかった変更は下書きとして保存され、後で戻って更新できます。詳しくは、「注釈の下書き」をご覧ください。

抽出データを編集する

[構築] タブの [予測を検証] ページで、以下の手順で抽出データを編集します。

プラス記号のアイコンを選択して、欠落している抽出データを追加します。
表アイコンを選択して、表ビューを開きます。
サイドパネルまたは表ビューから抽出データを確認します。
抽出データをポイントし、鉛筆アイコンとプラス記号のアイコンを使用して抽出データを個別に修正します。
- 鉛筆アイコンを使用すると、予測値を編集して正しい値を入力できます。
- プラス記号のアイコンを使用すると、予測値または参照を更新して、正しい値をドキュメント内で強調表示できます。
[フィールドグループを追加] を選択して、欠落しているフィールドグループを追加します。

注:
加えたが送信しなかった変更は下書きとして保存され、後で戻って更新できます。詳しくは、「注釈の下書き」をご覧ください。

アノテーションの下書き

ドキュメント上の値と参照に加えた編集内容は、アノテーションとしてモデルに送信するまで、アノテーションの下書きとして保存されます。その結果、ドキュメントのステータスは [進行中] と表示されます。

抽出データの検証、修正、編集、そしてアノテーションの送信など、前述のすべてのアクションは、変更を加える際に下書きとして保持されます。

ドキュメントが下書きステートにある間に新しい予測をリクエストすると、システムは新しい予測を再入力する際にアノテーションの下書きを保持し、モデルの新しい予測セットをアノテーションの下書きに一致させます。

このページは役に立ちましたか?

前へ予測を確認する

次へモデルの設定

予測と参照​

抽出結果を検証する​

Action Center からの抽出データを検証する例​

抽出データの検証を停止する​

確認済みおよび未確認の参照と抽出​

予測値​

未確認の値​

確認済み​

検証済みの抽出データ​

抽出データを修正する​

抽出データを編集する​

アノテーションの下書き​