document-understanding
2021.10
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
Document Understanding ガイド
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年10月17日

トレーニング パイプライン

重要:

データセットの最小サイズ

トレーニング パイプラインの実行を成功させるには、25 個以上のドキュメントと、データセット内の各ラベル付きフィールドからの 10 件以上のサンプルを使用することを強く推奨します。そうしないと、パイプラインで「Dataset Creation Failed (データセットの作成に失敗しました。)」というエラーが発生します。

GPU または CPU でトレーニングする

データセットが大きい場合は GPU を使用してトレーニングする必要があります。ですが、GPU (AI Robot Pro) を使用すると、CPU (AI Robot) を使用するより 5 倍以上スピードが低下します。

CPU を使用したトレーニングは、ML パッケージ v21.10.x では最大 5000 ページのデータセット、その他のバージョンの ML パッケージでは最大 1000 ページのデータセットでしかサポートされていません。また、GPU ではなく CPU でトレーニングを行った場合、精度の低いモデル (0 から 5% の間) が発生する可能性もあります。

CPU を使用したトレーニングは v2021.10 より前は 500 ページに制限されていましたが、v2021.10 で 5000 ページに増量されました。なお、v2022.4 では最大 1000 ページになります。

ML モデルをトレーニングする方法は 2 つあります。

  • モデルをゼロからトレーニングする
  • すぐに使えるモデルを再トレーニングする

モデルをゼロからトレーニングするには DocumentUnderstanding (ドキュメントの理解) ML パッケージを使用します。トレーニングには、入力データとして提供するデータセットを使用します。

モデルを再トレーニングするには、すぐに使える ML パッケージを使用します。たとえば、Invoices (請求書)、Receipts (領収書)、Purchase Orders (発注書)、Utility Bills (公共料金請求書)、Invoices India (請求書 - インド)、Invoices Australia (請求書 - オーストラリア) などがあります。基本的に、DocumentUnderstanding (ドキュメントの理解) を除くすべてのデータ抽出 ML パッケージが利用可能です。これらのパッケージのいずれかを使用したトレーニングでは、入力データの 1 つとしてベース モデルも利用できます。ゼロから開始するのではなくベース モデルを利用するため、このようなトレーニングを再トレーニングと呼びます。このアプローチでは「転移学習」と呼ばれる手法を用いており、モデルが別の既存モデルでエンコードされた情報を活用します。モデルはすぐに使える知識をいくつか保持していますが、新しいデータからも学習します。これは主に小規模から中規模のトレーニング データセット (最大 500 から 800 ページ) に言えることであり、トレーニング データセットのサイズが大きくなればなるほど事前トレーニング済みのベース モデルの活用度は下がります。

再トレーニングのパイプラインを次のように設定します。

  • [パイプラインの種類] フィールドで [トレーニングの実行] を選択します。
  • [パッケージを選択] フィールドで、すぐに使える ML パッケージに基づいて作成したパッケージを選択します。
  • [パッケージのメジャー バージョンを選択] フィールドで、パッケージのメジャー バージョンを選択します。
  • [パッケージのマイナー バージョンを選択] フィールドで、パッケージのマイナー バージョンを選択します。常にマイナー バージョンの 0 (ゼロ) を使用することを強くお勧めします。
  • [入力データセットを選択] フィールドで、代表的なトレーニング データセットを選択します。
  • [パラメーターを入力] セクションに、パイプラインで定義され、使用される環境変数を入力します (存在する場合)。ほとんどのユース ケースではパラメーターを指定する必要がなく、モデルは高度な手法を使用して効率の良い構成を検出します。ただし、次のような環境変数を使用できます。
  • auto_retraining: 自動再トレーニング ループを完了できます。変数が True に設定されている場合は、データがタグ付けされたラベル付けセッションに関連付けられている export フォルダーを入力データセットとする必要があります。変数が False に設定されたままである場合は、入力データセットがこちらのデータセットの形式に対応している必要があります。
  • model.epochs: トレーニング パイプラインのエポック数をカスタマイズします (既定値は 100)。
  • GPU と CPU のどちらでパイプラインをトレーニングするかを選択します。[GPU を有効化] スライダーは既定で無効化されており、パイプラインは CPU でトレーニングされます。
  • パイプラインの実行頻度として、[今すぐ実行][時間ベース][定期的] のいずれかのオプションを選択します。auto_retraining 変数を使用している場合は、[定期的] を選択します。


すべてのフィールドを設定したら、[作成] をクリックします。パイプラインが作成されます。

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.