Document Understanding ガイド

デリバリー:

最終更新日時 2025年4月4日

フルパイプライン

フルパイプラインでは、トレーニングパイプラインと評価パイプラインを一緒に実行します。

重要:

データセットの最小サイズ

トレーニングパイプラインの実行を成功させるには、少なくとも 10 個以上のドキュメントと、データセット内の各ラベル付きフィールドからの 5 件以上のサンプルを使用することを強く推奨します。そうしないと、パイプラインで「Dataset Creation Failed (データセットの作成に失敗しました。)」というエラーが発生します。

GPU または CPU でトレーニングする

データセットが大きい場合は GPU を使用してトレーニングする必要があります。GPU を使用すると、CPU を使用するよりも 10 倍以上高速になります。
CPU を使用したトレーニングは、ML パッケージ v21.10.x では最大 5000 ページのデータセット、その他のバージョンの ML パッケージでは最大 1000 ページのデータセットでのみサポートされています。
CPU を使用したトレーニングは v2021.10 より前は 500 ページに制限されていましたが、v2021.10 で 5000 ページに増量されました。なお、v2022.4 では最大 1000 ページになります。

モデルのトレーニングと評価を同時に行う

トレーニングパイプラインを次のように設定します。

[パイプラインの種類] フィールドで [フルパイプラインの実行] を選択します。
[パッケージを選択] フィールドで、トレーニングおよび評価するパッケージを選択します。
[パッケージのメジャーバージョンを選択] フィールドで、パッケージのメジャーバージョンを選択します。
[パッケージのマイナーバージョンを選択] フィールドで、パッケージのマイナーバージョンを選択します。常にマイナーバージョンの 0 (ゼロ) を使用することを強くお勧めします。
[入力データセットを選択] フィールドで、代表的なトレーニングデータセットを選択します。
[評価データセットを選択] フィールドで、代表的な評価データセットを選択します。
[パラメーターを入力] セクションに、パイプラインで定義され、使用される環境変数を入力します (存在する場合)。ほとんどのユースケースではパラメーターを指定する必要がなく、モデルは高度な手法を使用して効率の良い構成を検出します。ただし、次のような環境変数を使用できます。
auto_retraining: 自動再トレーニングループを完了できます。変数が True に設定されている場合は、データがタグ付けされたラベル付けセッションに関連付けられている export フォルダーを入力データセットとする必要があります。変数が False に設定されたままである場合は、入力データセットがこちらのデータセットの形式に対応している必要があります。
model.epochs: トレーニングパイプラインのエポック数をカスタマイズします (既定値は 100)。
GPU と CPU のどちらでパイプラインをトレーニングするかを選択します。[GPU を有効化] スライダーは既定で無効化されており、パイプラインは CPU でトレーニングされます。トレーニングに GPU を使用すると、CPU を使用するよりも 10 倍以上高速になります。また、CPU を使用したトレーニングでは、データセットの画像数が最大 1000 個までしかサポートされません。それより大きなデータセットの場合は、GPU を使用してトレーニングする必要があります。
パイプラインの実行頻度として、[今すぐ実行]、[時間ベース]、[定期的] のいずれかのオプションを選択します。auto_retraining 変数を使用している場合は、[定期的] を選択します。
すべてのフィールドを設定したら、[作成] をクリックします。パイプラインが作成されます。

成果物

フルパイプラインの場合、[出力] ペインには、次の 2 つのファイルを含む artifacts/eval_metrics フォルダーも含まれます。

evaluation_default.xlsx: モデルにより予測された各フィールドのグラウンドトゥルース (正解) と予測値を比較したデータと、ドキュメントごとの精度メトリック (精度が低い順) を含む、Excel スプレッドシートです。最も精度の低いドキュメントが一番上に表示されるため、診断とトラブルシューティングをスムーズに進められます。
evaluation_metrics_default.txt: 予測されたフィールドの F1 スコアが含まれます。
明細項目の場合は、共に取得されたすべての列のグローバルスコアが取得されます。