Document Understanding ガイド

デリバリー:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

最終更新日時 2025年2月4日

トレーニングパイプライン

重要:

データセットの最小サイズ

トレーニングパイプラインの実行を成功させるには、25 個以上のドキュメントと、データセット内の各ラベル付きフィールドからの 10 件以上のサンプルを使用することを強く推奨します。そうしないと、パイプラインで「Dataset Creation Failed (データセットの作成に失敗しました。)」というエラーが発生します。

GPU または CPU でトレーニングする

データセットが大きい場合は、GPU を使用してトレーニングする必要があります。GPU (AI Robot Pro) を使用すると、CPU (AI Robot) を使用するよりも 10 倍以上高速になります。
CPU を使用したトレーニングは、ML パッケージ v21.10.x では最大 5000 ページのデータセット、その他のバージョンの ML パッケージでは最大 1000 ページのデータセットでのみサポートされています。
CPU を使用したトレーニングは v2021.10 より前は 500 ページに制限されていましたが、v2021.10 で 5000 ページに増量されました。なお、v2022.4 では最大 1000 ページになります。

ML モデルをトレーニングする方法は 2 つあります。

モデルをゼロからトレーニングする
すぐに使えるモデルを再トレーニングする

モデルをゼロからトレーニングするには DocumentUnderstanding (ドキュメントの理解) ML パッケージを使用します。トレーニングには、入力データとして提供するデータセットを使用します。

モデルを再トレーニングするには、すぐに使える ML パッケージを使用します。たとえば、Invoices (請求書)、Receipts (領収書)、Purchase Orders (発注書)、Utility Bills (公共料金請求書)、Invoices India (請求書 - インド)、Invoices Australia (請求書 - オーストラリア) などがあります。基本的に、DocumentUnderstanding (ドキュメントの理解) を除くすべてのデータ抽出 ML パッケージが利用可能です。これらのパッケージのいずれかを使用したトレーニングでは、入力データの 1 つとしてベースモデルも利用できます。ゼロから開始するのではなくベースモデルを利用するため、このようなトレーニングを再トレーニングと呼びます。このアプローチでは「転移学習」と呼ばれる手法を用いており、モデルが別の既存モデルでエンコードされた情報を活用します。モデルはすぐに使える知識をいくつか保持していますが、新しいデータからも学習します。これは主に小規模から中規模のトレーニングデータセット (最大 500 から 800 ページ) に言えることであり、トレーニングデータセットのサイズが大きくなればなるほど事前トレーニング済みのベースモデルの活用度は下がります。

トレーニングパイプラインを次のように設定します。

[パイプラインの種類] フィールドで [トレーニングの実行] を選択します。
[パッケージを選択] フィールドで、DocumentUnderstanding (ドキュメントの理解) ML パッケージに基づいて作成したパッケージを選択します。
[パッケージのメジャーバージョンを選択] フィールドで、パッケージのメジャーバージョンを選択します。
[パッケージのマイナーバージョンを選択] フィールドで、パッケージのマイナーバージョンを選択します。常にマイナーバージョンの 0 (ゼロ) を使用することを強くお勧めします。
[入力データセットを選択] フィールドで、代表的なトレーニングデータセットを選択します。
[パラメーターを入力] セクションに、お使いのパイプラインで定義され、使用される環境変数を入力します (存在する場合)。ほとんどのユースケースではパラメーターを指定する必要がなく、モデルは高度な手法を使用して効率の良い構成を検出します。ただし、次のような環境変数を使用できます。
auto_retraining: 自動再トレーニングループを完了できます。変数が True に設定されている場合は、データがタグ付けされたラベル付けセッションに関連付けられている export フォルダーを入力データセットとする必要があります。変数が False に設定されたままである場合は、入力データセットがこちらのデータセットフォーマットに対応している必要があります。
model.epochs: トレーニングパイプラインのエポック数をカスタマイズします (既定値は 100)。
注: 5,000 ページを超えるサイズの大きいデータセットの場合、最初に既定のエポック数でフルパイプラインを実行できます。こうすることでモデルの精度を評価できます。その後、エポック数を 30〜40 程度まで減らすことができます。この方法により、結果の精度を比較して、エポックを削減しても同等の適合率が得られるかどうかを判断できます。
サイズの小さいデータセット、特に 5,000 ページ未満のデータセットを使用する場合は、既定のエポック数を維持できます。
GPU と CPU のどちらでパイプラインをトレーニングするかを選択します。[GPU を有効化] スライダーは既定で無効化されており、パイプラインは CPU でトレーニングされます。
パイプラインの実行頻度として、[今すぐ実行]、[時間ベース]、[定期的] のいずれかのオプションを選択します。auto_retraining 変数を使用している場合は、[定期的] を選択します。
すべてのフィールドを設定したら、[作成] をクリックします。パイプラインが作成されます。