UiPath Documentation
document-understanding
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding classic user guide

最終更新日時 2026年4月23日

トレーニング パイプライン

ヒント:

The ability to train extractors and classifiers is now more convenient by using Document UnderstandingTM product (rather than the AI Center service), by leveraging the One Click Extraction and the One Click Classification features.

重要:

Minimal dataset size For successfully running a Training pipeline, we strongly recommend minimum 10 documents and at least 5 samples from each labeled field in your dataset. Otherwise, the pipeline throws the following error: Dataset Creation Failed. Training on GPU vs CPU For larger datasets, you need to train using GPU. Moreover, using a GPU for training is at least 10 times faster than using a CPU. For the maximum dataset size depeding on the version and infrastructure, check the table below.

Table 1. Maximum dataset for each version

インフラストラクチャ<2021.10.x2021.10.x>2021.10.x
CPU500 ページ5,000 ページ1000 ページ
GPU18,000 ページ18,000 ページ18,000 ページ

If you are encountering failed pipelines when training large datasets, we recommend upgrading to ML packages version 24.4 or newer. The most recent versions provide stability enhancements, which could significantly reduce these issues. For more information on dataset structure, check the Dataset format section.

ML モデルをトレーニングする方法は 2 つあります。

  • モデルをゼロからトレーニングする
  • すぐに使えるモデルを再トレーニングする

モデルをゼロからトレーニングするには DocumentUnderstanding (ドキュメントの理解) ML パッケージを使用します。トレーニングには、入力データとして提供するデータセットを使用します。

モデルを再トレーニングするには、すぐに使える ML パッケージを使用します。たとえば、Invoices (請求書)、Receipts (領収書)、Purchase Orders (発注書)、Utility Bills (公共料金請求書)、Invoices India (請求書 - インド)、Invoices Australia (請求書 - オーストラリア) などがあります。基本的に、DocumentUnderstanding (ドキュメントの理解) を除くすべてのデータ抽出 ML パッケージが利用可能です。これらのパッケージのいずれかを使用したトレーニングでは、入力データの 1 つとしてベース モデルも利用できます。ゼロから開始するのではなくベース モデルを利用するため、このようなトレーニングを再トレーニングと呼びます。このアプローチでは「転移学習」と呼ばれる手法を用いており、モデルが別の既存モデルでエンコードされた情報を活用します。モデルはすぐに使える知識をいくつか保持していますが、新しいデータからも学習します。これは主に小規模から中規模のトレーニング データセット (最大 500 から 800 ページ) に言えることであり、トレーニング データセットのサイズが大きくなればなるほど事前トレーニング済みのベース モデルの活用度は下がります。

トレーニング パイプラインを次のように設定します。

  • [パイプラインの種類] フィールドで [トレーニングの実行] を選択します。

  • [パッケージを選択] フィールドで、DocumentUnderstanding (ドキュメントの理解) ML パッケージに基づいて作成したパッケージを選択します。

  • [パッケージのメジャー バージョンを選択] フィールドで、パッケージのメジャー バージョンを選択します。

  • In the Choose package minor version field, select a minor version for your package. Check the Choosing the minor version section below for more information.

  • In the Choose input dataset field, select a dataset as shown in the video below on this page. For building high quality training datasets, you can check this tutorial.

  • [パラメーターを入力] セクションに、パイプラインで定義され、使用される環境変数を入力します (存在する場合)。ほとんどのユース ケースではパラメーターを指定する必要がなく、モデルは高度な手法を使用して効率の良い構成を検出します。ただし、次のような環境変数を使用できます。

  • auto_retraining which allows you to complete the Auto-retraining Loop; if the variable is set to True, then the input dataset needs to be the export folder associated with the labeling session where the data is tagged; if the variable remains set to False, then the input dataset needs to correspond to the dataset format.

  • model.epochs: トレーニング パイプラインのエポック数をカスタマイズします (既定値は 100)。 Optional

    注:

    For larger datasets, containing more than 5000 pages, you can initially perform a full pipeline run with the default number of epochs. This allows you to evaluate the model’s accuracy. After that, you can decrease the number of epochs to about 30-40. This approach allows you to compare the accuracy of the results and determine if the reduction of epochs yields comparable precision. When using smaller datasets, in particular those with fewer than 5000 pages, you can maintain the default number of epochs.

  • For ML Packages v23.4 or higher, training on datasets smaller than 400 pages uses an approach called Frozen Backbone to accelerate the training and improve performance. However, you have the option to override this behavior and force Full Training even for smaller datasets, or conversely, to force Frozen Backbone training even for larger datasets (up to a maximum of 3000 pages). You can use the following environment variables, with the condition to combine them when in use, either use the first and the second, or the first and the third variables together. Optional.

    • model.override_finetune_freeze_backbone_mode=True - 既定の動作を上書きするには、この環境変数を含めます。次のどちらの状況でも必要です。
    • model.finetune_freeze_backbone_mode=True - 大きいデータセットにも Frozen Backbone を使用するようにモデルに強制するには、この環境変数を含めます。
    • model.finetune_freeze_backbone_mode=False - 小さいデータセットにもフル トレーニングを使用するようにモデルに強制するには、この環境変数を含めます。
  • GPU と CPU のどちらでパイプラインをトレーニングするかを選択します。[GPU を有効化] スライダーは既定で無効化されており、パイプラインは CPU でトレーニングされます。

  • パイプラインの実行頻度として、[今すぐ実行]、[時間ベース]、[定期的] のいずれかのオプションを選択します。auto_retraining 変数を使用している場合は、[定期的] を選択します。

    ドキュメントの画像

  • すべてのフィールドを設定したら、[作成] をクリックします。パイプラインが作成されます。

以下に、以前に AI Center にエクスポートしたデータセットを使用して新しいトレーニング パイプラインを作成する場合の例を示します。

ドキュメントの画像

マイナー バージョンを選択する

In most situations, minor version 0 should be chosen. This is because the larger and more diverse your training dataset, the better your model's performance. This principle aligns with the current state-of-the-art ML technology's goal of using large, high-quality, and representative training sets. Therefore, as you accumulate more training data for a model, you should add the data to the same dataset to further enhance the model's performance.

There are situations, however, where training on a minor version other than 0 makes sense. This is typically the case when a partner needs to service multiple customers in the same industry, but UiPath® doesn't have a pre-trained model optimized for that industry, geography, or document type.

In such a case, the partner might develop a pre-trained model using a variety of document samples from that industry (not from a single source, but from many for better generalization). This model would be used as a base model to train specific customer models, being trained on version 0 of the ML package. Following versions, like version 1, would be used to refine either the pre-trained model or create customer-specific models.

ただし、良好な結果を得るには、事前トレーニング済みのモデルに偏りがなく、極めて多様性の高いトレーニング セットに基づいている必要があります。ベース モデルが特定の顧客向けに最適化されている場合、他の顧客では良好なパフォーマンスが得られない可能性があります。このような場合は、ゼロのマイナー バージョンをベース モデルとして使用すると、より良好な結果が得られます。

  • マイナー バージョンを選択する

このページは役に立ちましたか?

接続

ヘルプ リソース サポート

学習する UiPath アカデミー

質問する UiPath フォーラム

最新情報を取得