Document Understanding クラシックユーザーガイド

フルパイプライン

フルパイプラインでは、トレーニングパイプラインと評価パイプラインを一緒に実行します。

重要:

データセットの最小サイズトレーニングパイプラインを正常に実行するには、データセット内のラベル付けされた各フィールドから少なくとも 10 個のドキュメントと 5 個以上のサンプルを収集することを強くお勧めします。そうしないと、パイプラインは「 Dataset Creation Failed」というエラーをスローします。GPU と CPU でのトレーニング

データセットが大きい場合は GPU を使用してトレーニングする必要があります。GPU を使用すると、CPU を使用するよりも 10 倍以上高速になります。
CPU を使用したトレーニングは、ML パッケージ v21.10.x では最大 5000 ページのデータセット、その他のバージョンの ML パッケージでは最大 1000 ページのデータセットでのみサポートされています。
CPU を使用したトレーニングは v2021.10 より前は 500 ページに制限されていましたが、v2021.10 で 5000 ページに増量されました。なお、v2022.4 では最大 1000 ページになります。

モデルのトレーニングと評価を同時に行う

トレーニングパイプラインを次のように設定します。

[パイプラインの種類] フィールドで [フルパイプラインの実行] を選択します。
[パッケージを選択] フィールドで、トレーニングおよび評価するパッケージを選択します。
[パッケージのメジャーバージョンを選択] フィールドで、パッケージのメジャーバージョンを選択します。
[パッケージのマイナーバージョンを選択] フィールドで、パッケージのマイナーバージョンを選択します。常にマイナーバージョンの 0 (ゼロ) を使用することを強くお勧めします。
[入力データセットを選択] フィールドで、代表的なトレーニングデータセットを選択します。
[評価データセットを選択] フィールドで、代表的な評価データセットを選択します。
[パラメーターを入力] セクションに、パイプラインで定義され、使用される環境変数を入力します (存在する場合)。ほとんどのユースケースではパラメーターを指定する必要がなく、モデルは高度な手法を使用して効率の良い構成を検出します。ただし、次のような環境変数を使用できます。
auto_retraining : 自動再トレーニングループを完了できます。変数が True に設定されている場合は、データがタグ付けされたラベル付けセッションに関連付けられている export フォルダーを入力データセットとする必要があります。変数が False に設定されたままである場合は、入力データセットがこちらのデータセットの形式に対応している必要があります。
model.epochs: トレーニングパイプラインのエポック数をカスタマイズします (既定値は 100)。
GPU と CPU のどちらでパイプラインをトレーニングするかを選択します。[GPU を有効化] スライダーは既定で無効化されており、パイプラインは CPU でトレーニングされます。トレーニングに GPU を使用すると、CPU を使用するよりも 10 倍以上高速になります。また、CPU を使用したトレーニングでは、データセットの画像数が最大 1000 個までしかサポートされません。それより大きなデータセットの場合は、GPU を使用してトレーニングする必要があります。
パイプラインの実行頻度として、[今すぐ実行]、[時間ベース]、[定期的] のいずれかのオプションを選択します。auto_retraining 変数を使用している場合は、[定期的] を選択します。
すべてのフィールドを設定したら、[作成] をクリックします。パイプラインが作成されます。

成果物

フルパイプラインの場合、[出力] ペインには、次の 2 つのファイルを含む artifacts/eval_metrics フォルダーも含まれます。

evaluation_default.xlsx: モデルにより予測された各フィールドのグラウンドトゥルース (正解) と予測値を比較したデータと、ドキュメントごとの精度メトリック (精度が低い順) を含む、Excel スプレッドシートです。最も精度の低いドキュメントが一番上に表示されるため、診断とトラブルシューティングをスムーズに進められます。
evaluation_metrics_default.txt: 予測されたフィールドの F1 スコアが含まれます。明細項目の場合は、共に取得されたすべての列のグローバルスコアが取得されます。

モデルのトレーニングと評価を同時に行う
成果物

このページは役に立ちましたか?

前へ評価パイプライン

次へ微調整する

Document Understanding クラシック ユーザー ガイド

モデルのトレーニングと評価を同時に行う​

成果物​

このページは役に立ちましたか?

Document Understanding クラシックユーザーガイド

モデルのトレーニングと評価を同時に行う

成果物