
非構造化ドキュメントと複雑なドキュメント ユーザー ガイド
現在、このモデルはユーザーのアノテーションからは直接学習しません。モデルのパフォーマンスを向上させるには、プロンプト、指示、またはモデルの設定を変更します。
プロンプトの指示に問題がなければ、モデルの予測の検証を開始して、パフォーマンスの評価のためのグラウンド トゥルースを確立できます。その前に、予測と参照の違いを理解しておくことが重要です。
参照と強調表示された範囲には既知の制限があり、これらは改善すべき重要な優先事項の 1 つです。
- 予測は正しく、参照も正しいが、間違った範囲が強調表示されている。通常は、最初に見つかった一致です。
- 予測は正しいが、参照および強調表示された範囲が欠落している。このような場合は、フォールバックとしてページ番号を指定します。
- 下線 - 予測値です。
- 塗りつぶし - 確認された値です。
- 破線の枠線 - 未確認の値です。
抽出データを検証するには、以下の手順を実行します。
- [構築] タブに移動し、[予測を検証] またはアップロードされたドキュメントを選択して検証プロセスを開始します。モデルによってドキュメント内の関連するテキスト範囲が強調表示され、生成された予測がサイド パネルに表示されます。
口座番号など、複数の抽出に適用できる値には、関連するセクションに移動するのに役立つ矢印ボタンがあります。ホバーするとボタンが表示されます。
以下の図は、予測されたステートでの抽出の外観を示しています。予測値には常に下線が付きます。 - 予測を確認し、抽出データを 1 つずつ確認するか、フィールド グループ全体を確認して一括で確認します。各抽出結果を慎重に確認せずに [すべて確定して次へ] ボタンを選択することはお勧めしません。
以下の図は、次のことを示しています。
- 表の最初の行では、未確認ステートでの抽出の外観、つまり、一度確認されていたものの、現在は未確認になっている値です。未確認の値には破線の枠線が付きます。
- 表の 2 行目と 3 行目では、確認済みステートでの抽出の外観、つまり確認または修正済みの値です。確認済みの値は常に塗りつぶしされています。
注: 変更を加えても送信しない場合は下書きとして保存され、後で戻って更新できます。詳しくは、「アノテーションの下書き」をご覧ください。 - [タクソノミーを管理] または [構築] タブから、いつでも抽出スキーマに追加のフィールドを設定できます。
Action Center からの抽出データを検証する例
- 抽出データが正しいかどうかを確認する
- 抽出データが間違っている場合は修正する
- フィールドがドキュメントに存在しない場合は、存在しないとしてマークする
- 抽出スキーマに追加のフィールドを設定する
このセクションでは、抽出データと参照が確認済みステート (検証済み) と未確認ステート (未検証) でどのように表示されるかを示します。
予測値
未確認の値
ドキュメント内の参照は破線の枠線で強調表示されます。
確認済みとしてマークされている抽出データがない場合は、次のように表示されます。
確認済み
参照は実線の枠線で強調表示されます。
抽出データが確認済みとしてマークされている場合は、次のように表示されます。
このセクションでは、モデルの予測がユーザーのアノテーションと一致する場合と一致しない場合のシナリオの例を示します。
アノテーションが予測と一致する場合、抽出データは次のようになります。
アノテーションが予測と一致しない場合、抽出データは次のようになります。
アノテーションはあるが予測がない場合、抽出データは次のようになります。
- 抽出データの上にマウスをホバーし、鉛筆アイコンを選択して予測値を編集します。
- 正しい値を入力します。
- プラス
+アイコンを選択して、予測値または参照を更新します。 - ドキュメント内の正しい値を強調表示します。
[構築] タブの [予測を検証] ページで、以下の手順で抽出データを編集します。
- プラス記号のアイコンを選択して、欠落している抽出データを追加します。
- 表アイコンを選択して、表ビューを開きます。
- サイド パネルまたは表ビューから抽出データを確認します。
- 抽出データ上にホバーし、鉛筆アイコンとプラス記号のアイコンを使用して抽出データを個別に修正します。
- 鉛筆アイコンを使用すると、予測値を編集して正しい値を入力できます。
- プラス記号のアイコンを使用すると、予測値または参照を更新して、正しい値をドキュメント内で強調表示できます。
- [フィールド グループを追加] を選択して、欠落しているフィールド グループを追加します。