Document Understanding - 評価パイプライン

document-understanding

2021.10

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

評価パイプライン

評価パイプラインは、トレーニング済みの ML モデルの評価に使用します。

評価パイプラインを次のように設定します。

[パイプラインの種類] フィールドで [評価の実行] を選択します。
[パッケージを選択] フィールドで、評価するパッケージを選択します。
[パッケージのメジャーバージョンを選択] フィールドで、パッケージのメジャーバージョンを選択します。
[パッケージのマイナーバージョンを選択] フィールドで、評価するマイナーバージョンを選択します。
[評価データセットを選択] フィールドで、代表的な評価データセットを選択します。
[パラメーターを入力] セクションには、評価パイプラインに関連する、使用できる環境変数が 1 つあります。
eval.redo_ocr を true に設定すると、パイプラインの実行時に OCR を再実行して、抽出の精度に OCR が与える影響を評価できます。この前提として、ML パッケージの作成時に OCR エンジンが構成されているものとします。

[GPU を有効化] スライダーは既定で無効化されており、パイプラインは CPU で実行されます。評価パイプラインの実行は CPU でのみ行うことを強くお勧めします。

評価パイプラインの場合、[出力] ペインには、次の 2 つのファイルを含む [成果物]/[eval_metrics] フォルダーも含まれます。

evaluation_default.xlsx: モデルにより予測された各フィールドのグラウンドトゥルース (正解) と予測値を比較したデータと、ドキュメントごとの精度メトリック (精度が低い順) を含む、Excel スプレッドシートです。最も精度の低いドキュメントが一番上に表示されるため、診断とトラブルシューティングをスムーズに進められます。
evaluation_metrics_default.txt: 予測されたフィールドの F1 スコアが含まれます。

明細項目の場合は、共に取得されたすべての列のグローバルスコアが取得されます。

前へトレーニングパイプライン

次へフルパイプライン