document-understanding
2021.10
false
- 基本情報
- フレームワーク コンポーネント
- ML パッケージ
- パイプライン
- データ マネージャー (Data Manager)
- OCR サービス
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ディープ ラーニング
- ライセンス
- 参照
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
Document Understanding ガイド
Last updated 2024年10月17日
フル パイプライン
フル パイプラインでは、トレーニング パイプラインと評価パイプラインを一緒に実行します。
重要:
データセットの最小サイズ
トレーニング パイプラインの実行を成功させるには、25 個以上のドキュメントと、データセット内の各ラベル付きフィールドからの 10 件以上のサンプルを使用することを強く推奨します。そうしないと、パイプラインで「
Dataset Creation Failed
(データセットの作成に失敗しました。)」というエラーが発生します。
GPU または CPU でトレーニングする
- データセットが大きい場合は GPU を使用してトレーニングする必要があります。ですが、GPU (AI Robot Pro) を使用すると、CPU (AI Robot) を使用するより 5 倍以上スピードが低下します。
- CPU を使用したトレーニングは、ML パッケージ v21.10.x では最大 5000 ページのデータセット、その他のバージョンの ML パッケージでは最大 1000 ページのデータセットでしかサポートされていません。また、GPU ではなく CPU でトレーニングを行った場合、精度の低いモデル (0 から 5% の間) が発生する可能性もあります。
- CPU を使用したトレーニングは v2021.10 より前は 500 ページに制限されていましたが、v2021.10 で 5000 ページに増量されました。なお、v2022.4 では最大 1000 ページになります。
トレーニング パイプラインを次のように設定します。
- [パイプラインの種類] フィールドで [フル パイプラインの実行] を選択します。
- [パッケージを選択] フィールドで、トレーニングおよび評価するパッケージを選択します。
- [パッケージのメジャー バージョンを選択] フィールドで、パッケージのメジャー バージョンを選択します。
- [パッケージのマイナー バージョンを選択] フィールドで、パッケージのマイナー バージョンを選択します。常にマイナー バージョンの 0 (ゼロ) を使用することを強くお勧めします。
- [入力データセットを選択] フィールドで、代表的なトレーニング データセットを選択します。
- [評価データセットを選択] フィールドで、代表的な評価データセットを選択します。
- [パラメーターを入力] セクションに、お使いのパイプラインで定義され、使用される環境変数を入力します (存在する場合)。ほとんどのユース ケースではパラメーターを指定する必要がなく、モデルは高度な手法を使用して効率の良い構成を検出します。ただし、次のような環境変数を使用できます。
auto_retraining
: 自動再トレーニング ループを完了できます。変数が True に設定されている場合は、データがタグ付けされたラベル付けセッションに関連付けられている export フォルダーを入力データセットとする必要があります。変数が False に設定されたままである場合は、入力データセットがこちらのデータセットの形式に対応している必要があります。model.epochs
: トレーニング パイプラインのエポック数をカスタマイズします (既定値は 100)。- GPU と CPU のどちらでパイプラインをトレーニングするかを選択します。[GPU を有効化] スライダーは既定で無効化されており、パイプラインは CPU でトレーニングされます。
- パイプラインの実行頻度として、[今すぐ実行]、[時間ベース]、[定期的] のいずれかのオプションを選択します。
auto_retraining
変数を使用している場合は、[定期的] を選択します。
すべてのフィールドを設定したら、[作成] をクリックします。パイプラインが作成されます。
評価パイプラインの場合、[出力] ペインには、次の 2 つのファイルを含む [成果物]/[eval_metrics] フォルダーも含まれます。
evaluation_default.xlsx
: モデルにより予測された各フィールドのグラウンド トゥルース (正解) と予測値を比較したデータと、ドキュメントごとの精度メトリック (精度が低い順) を含む、Excel スプレッドシートです。最も精度の低いドキュメントが一番上に表示されるため、診断とトラブルシューティングをスムーズに進められます。evaluation_metrics_default.txt
: 予測されたフィールドの F1 スコアが含まれます。明細項目の場合は、共に取得されたすべての列のグローバル スコアが取得されます。