- 概要
- モデルの構築
- モデルの検証
- モデルのデプロイ
- API
- よくある質問

非構造化ドキュメントと複雑なドキュメント ユーザー ガイド
抽出予測を検証する
現在、このモデルはユーザーのアノテーションからは直接学習しません。モデルのパフォーマンスを向上させるには、プロンプト、指示、またはモデルの設定を変更します。
プロンプトの指示に問題がなければ、モデルの予測の検証を開始して、パフォーマンスの評価のためのグラウンド トゥルースを確立できます。その前に、予測と参照の違いを理解しておくことが重要です。
予測と参照
予測は予測値であり、グラウンド トゥルースと比較されます。
予測が不正確であったり欠落していたりすると、[評価] タブのモデルのスコアとパフォーマンス メトリックに影響します。
参照とは、ドキュメント内で見つかった予測値に一致する参照です。参照の目的は、ユーザーがドキュメントの正しい部分を特定しやすくすることです。
参照が正しくなかったり欠落したりしても、モデルのスコアやパフォーマンス メトリックには影響しません。ただし、人間による検証エクスペリエンスを向上させるために、参照を追加または修正すると役立つ場合があります。
参照と強調表示された範囲には既知の制限があり、これらは改善すべき重要な優先事項の 1 つです。
以下のいずれかのシナリオが発生する可能性があります。
-
予測は正しく、参照も正しいが、間違った範囲が強調表示されている。通常は、最初に見つかった一致です。
-
予測は正しいが、参照および強調表示された範囲が欠落している。このような場合は、フォールバックとしてページ番号を指定します。

予測と参照は独立しています。つまり、参照が欠落していたり誤っていたりしても、予測値には影響しません。

抽出結果を検証する
抽出データが予測されると、以下のように強調表示されます。
-
下線 - 予測値です。

-
塗りつぶし - 確認された値です。

-
破線の枠線 - 未確認の値です。

抽出データを検証するには、以下の手順を実行します。
- [構築] タブに移動し、[予測を検証] またはアップロードされたドキュメントを選択して検証プロセスを開始します。モデルによってドキュメント内の関連するテキスト範囲が強調表示され、生成された予測がサイド パネルに表示されます。 口座番号など、複数の抽出に適用できる値には、関連するセクションに移動するのに役立つ矢印ボタンがあります。ホバーするとボタンが表示されます。
以下の図は、予測されたステートでの抽出の外観を示しています。予測値には常に下線が付きます。
2. 予測を確認し、抽出データを 1 つずつ確認するか、フィールド グループ全体を確認して一括で確認します。各抽出結果を慎重に確認せずに [ すべて確定して次へ ] ボタンを選択するのはお勧めしません。次の図は、次の画像を示しています。
- 表の最初の行では、未確認ステートでの抽出の外観、つまり、一度確認されていたものの、現在は未確認になっている値です。未確認の値には破線の枠線が付きます。
- 表の 2 行目と 3 行目では、確認済みステートでの抽出の外観、つまり確認または修正済みの値です。確認済みの値は常に塗りつぶしされています。
加えたが送信しなかった変更は下書きとして保存され、後で戻って更新できます。詳しくは、「 注釈の下書き」をご覧ください。
3. 抽出スキーマの追加のフィールドは、[ タクソノミーを管理 ] または [ 構築 ] タブからいつでも設定できます。
Action Center からの抽出データを検証する例

抽出データの検証を停止する
フィールドごとに少なくとも 10 個の例を検証して、モデルが有意義な検証の統計情報を提供できるようにすることをお勧めします。
確認済みおよび未確認の参照と抽出
検証プロセスでは以下を行う必要があります。
- 抽出データが正しいかどうかを確認する
- 抽出データが間違っている場合は修正する
- フィールドがドキュメントに存在しない場合は、存在しないとしてマークする
- 抽出スキーマに追加のフィールドを設定する
このセクションでは、抽出データと参照が確認済みステート (検証済み) と未確認ステート (未検証) でどのように表示されるかを示します。
加えたが送信しなかった変更は下書きとして保存され、後で戻って更新できます。詳しくは、「 注釈の下書き」をご覧ください。
予測値

未確認の値
ドキュメント内の参照は破線の枠線で強調表示されます。
図 1. 未確認の参照

確認済みとしてマークされている抽出データがない場合は、次のように表示されます。
図 2. 未確認の抽出データ

確認済み
参照は実線の枠線で強調表示されます。
図 3. 確認済みの参照

抽出データが確認済みとしてマークされている場合は、次のように表示されます。
図 4. 確認済みの抽出データ

検証済みの抽出データ
このセクションでは、モデルの予測がユーザーのアノテーションと一致する場合と一致しない場合のシナリオの例を示します。
アノテーションが予測と一致する場合、抽出データは次のようになります。
図 5. 正しい予測

アノテーションが予測と一致しない場合、抽出データは次のようになります。
図 6. 誤った予測

アノテーションはあるが予測がない場合、抽出データは次のようになります。
図 7. 欠落している予測

予測は参照ではなくアノテーションと比較されます。参照が欠落していたり、正しくなかったりする可能性がありますが、不一致のフラグは付けられません。
抽出データを修正する
抽出データを修正するには、以下の手順を実行します。
-
抽出データの上にマウスをホバーし、鉛筆アイコンを選択して予測値を編集します。
-
正しい値を入力します。
-
プラス
+アイコンを選択して、予測値または参照を更新します。 -
ドキュメント内の正しい値を強調表示します。
注:加えたが送信しなかった変更は下書きとして保存され、後で戻って更新できます。詳しくは、「 注釈の下書き」をご覧ください。

抽出データを編集する
[構築] タブの [予測を検証] ページで、以下の手順で抽出データを編集します。
-
プラス記号のアイコンを選択して、欠落している抽出データを追加します。
-
表アイコンを選択して、表ビューを開きます。
-
サイド パネルまたは表ビューから抽出データを確認します。
-
抽出データ上にホバーし、鉛筆アイコンとプラス記号のアイコンを使用して抽出データを個別に修正します。
- 鉛筆アイコンを使用すると、予測値を編集して正しい値を入力できます。
- プラス記号のアイコンを使用すると、予測値または参照を更新して、正しい値をドキュメント内で強調表示できます。
-
[フィールド グループを追加] を選択して、欠落しているフィールド グループを追加します。
注:加えたが送信しなかった変更は下書きとして保存され、後で戻って更新できます。詳しくは、「 注釈の下書き」をご覧ください。


アノテーションの下書き
ドキュメント上の値と参照に加えた編集内容は、アノテーションとしてモデルに送信するまで、アノテーションの下書きとして保存されます。その結果、ドキュメントのステータスは [進行中] と表示されます。
抽出データの検証、修正、編集、そしてアノテーションの送信など、前述のすべてのアクションは、変更を加える際に下書きとして保持されます。
ドキュメントが下書きステートにある間に新しい予測をリクエストすると、システムは新しい予測を再入力する際にアノテーションの下書きを保持し、モデルの新しい予測セットをアノテーションの下書きに一致させます。