UiPath Documentation
document-understanding
2.2510
true
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding ガイド

最終更新日時 2026年4月6日

トレーニング パイプライン

重要:

Minimal dataset size For successfully running a Training pipeline, we strongly recommend minimum 10 documents and at least 5 samples from each labeled field in your dataset. Otherwise, the pipeline throws the following error: Dataset Creation Failed.

Training on GPU vs CPU For larger datasets, you need to train using GPU. Moreover, using a GPU for training is at least 10 times faster than using a CPU. For the maximum dataset size depeding on the version and infrastructure, check the following table. Table 1. Maximum dataset for each version

インフラストラクチャ<2021.10.x2021.10.x>2021.10.x
CPU500 ページ5,000 ページ1000 ページ
GPU18,000 ページ18,000 ページ18,000 ページ

For more information on dataset structure, check the Dataset format section.

ML モデルをトレーニングする方法は 2 つあります。

  • モデルをゼロからトレーニングする
  • すぐに使えるモデルを再トレーニングする

モデルをゼロからトレーニングするには DocumentUnderstanding (ドキュメントの理解) ML パッケージを使用します。トレーニングには、入力データとして提供するデータセットを使用します。

モデルを再トレーニングするには、すぐに使える ML パッケージを使用します。たとえば、Invoices (請求書)Receipts (領収書)Purchase Orders (発注書)Utility Bills (公共料金請求書)Invoices India (請求書 - インド)Invoices Australia (請求書 - オーストラリア) などがあります。基本的に、DocumentUnderstanding (ドキュメントの理解) を除くすべてのデータ抽出 ML パッケージが利用可能です。これらのパッケージのいずれかを使用したトレーニングでは、入力データの 1 つとしてベース モデルも利用できます。ゼロから開始するのではなくベース モデルを利用するため、このようなトレーニングを再トレーニングと呼びます。このアプローチでは「転移学習」と呼ばれる手法を用いており、モデルが別の既存モデルでエンコードされた情報を活用します。モデルはすぐに使える知識をいくつか保持していますが、新しいデータからも学習します。これは主に小規模から中規模のトレーニング データセット (最大 500 から 800 ページ) に言えることであり、トレーニング データセットのサイズが大きくなればなるほど事前トレーニング済みのベース モデルの活用度は下がります。

トレーニング パイプラインを次のように設定します。

  • [パイプラインの種類] フィールドで [トレーニングの実行] を選択します。

  • [パッケージを選択] フィールドで、DocumentUnderstanding (ドキュメントの理解) ML パッケージに基づいて作成したパッケージを選択します。

  • [パッケージのメジャー バージョンを選択] フィールドで、パッケージのメジャー バージョンを選択します。

  • In the Choose package minor version field, select a minor version for your package. It is strongly recommended to always use minor version 0 (zero). Check the Choosing the minor version section for more information.

  • In the Choose input dataset field, select a dataset. For building high quality training datasets, you can check this tutorial.

  • [パラメーターを入力] セクションに、お使いのパイプラインで定義され、使用される環境変数を入力します (存在する場合)。ほとんどのユース ケースではパラメーターを指定する必要がなく、モデルは高度な手法を使用して効率の良い構成を検出します。ただし、次のような環境変数を使用できます。

  • model.epochs: トレーニング パイプラインのエポック数をカスタマイズします (既定値は 100)。

    注:

    For larger datasets, containing more than 5000 pages, you can initially perform a full pipeline run with the default number of epochs. This allows you to evaluate the model’s accuracy. After that, you can decrease the number of epochs to about 30-40. This approach allows you to compare the accuracy of the results and determine if the reduction of epochs yields comparable precision. When using smaller datasets, in particular those with fewer than 5000 pages, you can maintain the default number of epochs.

  • GPU と CPU のどちらでパイプラインをトレーニングするかを選択します。[GPU を有効化] スライダーは既定で無効化されており、パイプラインは CPU でトレーニングされます。

  • パイプラインの実行頻度として、[今すぐ実行][時間ベース][定期的] のいずれかのオプションを選択します。auto_retraining 変数を使用している場合は、[定期的] を選択します。

    [新しいパイプライン実行を作成] インターフェイスのスクリーンショット

  • After you configure all the fields, select Create. The pipeline is created.

以下に、以前に AI Center にエクスポートしたデータセットを使用して新しいトレーニング パイプラインを作成する場合の例を示します。

マイナー バージョンを選択する

In most situations, minor version 0 should be chosen. This is because the larger and more diverse your training dataset, the better your model's performance. This principle aligns with the current state-of-the-art ML technology's goal of using large, high-quality, and representative training sets. Therefore, as you accumulate more training data for a model, you should add the data to the same dataset to further enhance the model's performance.

There are situations, however, where training on a minor version other than 0 makes sense. This is typically the case when a partner needs to service multiple customers in the same industry, but UiPath® doesn't have a pre-trained model optimized for that industry, geography, or document type.

In such a case, the partner might develop a pre-trained model using a variety of document samples from that industry (not from a single source, but from many for better generalization). This model would be used as a base model to train specific customer models, being trained on version 0 of the ML package. Following versions, like version 1, would be used to refine either the pre-trained model or create customer-specific models.

ただし、良好な結果を得るには、事前トレーニング済みのモデルに偏りがなく、極めて多様性の高いトレーニング セットに基づいている必要があります。ベース モデルが特定の顧客向けに最適化されている場合、他の顧客では良好なパフォーマンスが得られない可能性があります。このような場合は、ゼロのマイナー バージョンをベース モデルとして使用すると、より良好な結果が得られます。

  • マイナー バージョンを選択する

このページは役に立ちましたか?

接続

ヘルプ リソース サポート

学習する UiPath アカデミー

質問する UiPath フォーラム

最新情報を取得