UiPath Documentation
document-understanding
2024.10
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding ガイド

最終更新日時 2026年4月6日

自動微調整ループ (パブリック プレビュー)

ML モデルをトレーニング/再トレーニングするときにまず留意すべきは、最適な結果は、すべてのデータを 1 つの大きな、そして理想的には、慎重にキュレーションされたデータセットに蓄積することによって得られるということです。データセット A でトレーニングしてから、生成されたモデルをデータセット B で再トレーニングした場合の結果は、結合されたデータセット A+B でトレーニングした場合よりもはるかに悪くなります。

2 つ目に留意すべき点は、すべてのデータが同じではないということです。Document Manager などの専用ツールでラベル付けされたデータは、検証ステーションなどの、別の目的で使用されるツールでラベル付けされたデータよりも一般に質が高いため、より優れたパフォーマンスのモデルが生成されます。検証ステーションから得られるデータは、業務プロセスの観点からは高品質かもしれませんが、モデルのトレーニングの観点から見るとそれほど高品質ではありません。ML モデルは独特の形式のデータを必要としており、それはほとんどの場合、業務プロセスで必要な形式とは異なるためです。たとえば、10 ページの請求書では請求書番号が各ページに表示されている可能性がありますが、検証ステーションでは最初のページで指定すれば十分であるのに対して、Document Manager ではすべてのページでラベル付けを行います。この場合、正しいラベルの 90% が検証ステーションのデータに存在しないことになります。以上の理由から、検証ステーションのデータの有用性は限定的といえます。

ML モデルを効果的にトレーニングするには、包括的、高品質、かつ代表的な単一のデータセットが必要です。そのため、累積的アプローチでは、追加のデータを入力データセットに加えて、毎回 ML モデルをより大きなデータセットでトレーニングします。これを行う方法の 1 つに、自動再トレーニング ループの使用が挙げられます。

ML モデルのライフサイクル

マシン ラーニング モデルのライフサイクルには、次の 2 つの主要なフェーズがあります。

  • 構築フェーズ
  • メンテナンス フェーズ

構築フェーズ

この最初のフェーズでは、可能なかぎり最適なパフォーマンスを得るために、Document Manager を使用してトレーニング データセットと評価データセットを準備します。

同時に、RPA オートメーションおよび ML モデルに関連するビジネス ロジックを構築します。これは、期待する投資利益率を実現する上で、モデルそのものと同じくらい重要なことです。

メンテナンス フェーズ

この第 2 フェーズでは、構築フェーズで達成した高いパフォーマンス レベルを維持し、回帰を防ぎます。

自動微調整機能 (と、ほとんどの場合の検証ステーションのデータ) は、厳密にはメンテナンス フェーズに属します。自動微調整機能の主な目的は、プロセスを流れるデータの変化に伴う ML モデルの回帰を防ぐことです。

重要:

Data fed back from the human validation using Validation Station should not be used to build a model from scratch. Building a model should be done by preparing training and evaluation datasets in Document Manager.

自動微調整ループの構成要素

自動微調整ループの構成要素は次のとおりです。

  1. ロボット ワークフロー: [マシン ラーニング抽出器トレーナー] アクティビティ
  2. Document Manager: エクスポートのスケジュール設定機能
  3. AI Center: スケジュールされた自動再トレーニング パイプライン
    1. (Optional) Auto-update ML Skills

前提条件

この機能を実装するには、事前に次の 2 つの要件を満たしている必要があります。

  • AI Center で Document Manager セッションを作成して、特定数のフィールドを設定しておく必要があります。正確には、高品質なトレーニング データセットと評価データセットをラベル付けしておく必要があります。フィールドを手動で定義するか、スキーマをインポートできます。フィールドを設定していないと、[スケジュール (プレビュー)] タブは有効化されず、画面に次のメッセージが表示されます。

    [ファイルをエクスポート] インターフェイスのスクリーンショット

  • ML モデルの複数のバージョンをトレーニングおよびテストし、発生した可能性のある問題を修正して、RPA+AI オートメーションにデプロイしておく必要があります。

1. ロボット ワークフロー: [マシン ラーニング抽出器トレーナー] アクティビティ

  • [マシン ラーニング抽出器トレーナー] アクティビティをワークフロー内の [抽出器トレーニング スコープ] に追加し、スコープを適切に設定します。

  • [フレームワーク エイリアス] に含まれるエイリアスが [データ抽出スコープ][マシン ラーニング抽出器] のエイリアスと同じであることを確認します。

  • トレーニング データセットと評価データセットを含む Document Manager セッションに関連付けられたプロジェクトデータセットを選択します。Orchestrator に接続すると、ドロップダウン メニューに自動で入力されます。

    注:

    You can set a value for the Output Folder property if you want to export the data locally in the workflow.

    [抽出器トレーニング スコープ] インターフェイスのスクリーンショット

データセット名は、AI Center の [データのラベル付け] ビューで、[データのラベル付けセッション] の名前の横に表示されます。

[データのラベル付けセッション] インターフェイスのスクリーンショット

選択されたデータセットに対して、[マシン ラーニング抽出器トレーナー] アクティビティは fine-tune という名前のフォルダーを作成し、エクスポートしたドキュメントをその 3 つのフォルダー [documents][metadata][predictions] に書き込みます。

[データセット] インターフェイスのスクリーンショット

このフォルダーは、データを Document Manager に自動的にインポートするために指定されています。インポートされたデータは既存のデータとマージされ、その後、マージされたデータが、トレーニング パイプラインまたはフル パイプラインで使用できる正しい形式でエクスポートされます。インポートされたデータは、自動的にトレーニングと検証の 2 つのセットに分類され、80%/20% の分割が維持されます。結果として、エクスポートされたデータには、新たに収集されたデータのトレーニング セットと検証セットの両方が含まれます。データは、スケジュールされたエクスポートが Document Manager で有効化されている場合にのみ、自動的にインポートされます。

2. Document Manager: エクスポートのスケジュール設定機能

From a Document Manager session, select the Export button エクスポートボタン, go to the Schedule (Preview) tab, and enable the Scheduling slider. Then select a start time and a recurrence. When ready, select the Schedule button.

[後方互換性のあるエクスポート] チェックボックスをオンにすると、従来のエクスポートの挙動を適用して、各ページを個別のドキュメントとしてエクスポートできます。既定のエクスポートでトレーニングしたモデルの評価結果が期待値より低い場合は、この機能をお試しください。ドキュメントを元の複数ページの形式でエクスポートする場合は、このチェックボックスをオフのままにします。

注:

最小繰り返し間隔は 7 日で、最大 60 日です。

AI Center のトレーニング パイプラインは、たいていは毎週実行するように設定されているため、繰り返し間隔は 7 日が推奨されます。

[ファイルをエクスポート] インターフェイスのスクリーンショット

When you set the schedule for export, the imported data from the fine-tune folder is exported to the export folder under auto-export time_stamp.

注:

There is a 2000 page import limit per auto-retrain run.

具体的に言うと、スケジュールされたエクスポートでは、手順 1 で作成した fine-tune フォルダーにあるデータをインポートした後、既存のデータと新たにインポートした検証ステーション データを含む完全なデータセットを [エクスポート] フォルダーにエクスポートします。このため、スケジュールされたエクスポートごとに、エクスポートされるデータセットは大きくなっていきます。

The file latest.txt is updated or created if this is the first scheduled export. Here you can check the name of the latest export made by Document Manager. Schema export, however, does not update latest.txt. This file is used by the auto-retraining pipeline in AI Center to determine which is the latest export so it can always train on the latest data, so you should never remove or modify it, otherwise, your auto-retraining pipelines will fail.

[データセット] インターフェイスのスクリーンショット

注:

The Scheduled import+export operation might take up to 1-2 hours, depending on how much data was sent from Step 1 during the previous week. We recommend you choose a time when you will not use the Document Manager due to the fact that when an export operation is ongoing no other exports or imports are allowed. However, labeling is always possible.

3. AI Center: スケジュールされた自動再トレーニング パイプライン

AI Center でトレーニング パイプラインまたはフル パイプラインをスケジュールするときには、いくつかの事項を考慮する必要があります。

まずはじめに、評価データセットを作成し、フル パイプラインのみをスケジュールすることを強くお勧めします。フル パイプラインはトレーニングと評価を一緒に実行し、評価パイプラインは評価データセットを使用してスコアを生成します。このスコアは、新しいバージョンが前のバージョンよりも優れているかどうかを判断するために重要であり、ロボットが使用するためにデプロイできます。

2 つ目として、フル パイプラインの場合は、入力データセットと評価データセットの 2 つのデータセットを指定する必要があります。

2 つのデータセットのインターフェイスのスクリーンショット

自動微調整ループ機能のコンテキストでは評価データセットへの変更はありませんが、通常どおり、2 つのフォルダー (images および latest) と 2 つのファイル (schema.json および split.csv) が含まれているデータセットを選択する必要があります。

ただし、入力データセットはもう「データセット」ではありませんが、データのラベル付けセッションに接続されている AI Center データセット内でエクスポート フォルダーを選択する必要があります。そうすれば、データ ラベル付けセッションからエクスポートされた最新のトレーニングが実行され、指定した評価データセットと同じデータセットで評価が実行されます。

重要:

If you do not select the export folder, the auto-retraining does not work.

さらに、自動再トレーニング環境変数を True に設定する必要があります。

最後に、[定期的] を選択し、Document Manager からのエクスポートが完了するまでの時間を十分に確保したうえで日時を設定する必要があります。たとえば、Document Manager からのエクスポートが土曜日の午前 1 時に実行される場合、パイプラインは土曜日の午前 2 時または 3 時に実行します。パイプラインの実行時にエクスポートが完了していない場合は、パイプラインは前回のエクスポートを使用し、前週のトレーニング時と同じデータを使用して再トレーニングを実行する可能性があります。

[新しいパイプライン実行を作成] インターフェイスのスクリーンショット

4. (任意) ML スキルの自動更新

自動的にスケジュールされたトレーニング パイプラインで生成された ML パッケージの最新バージョンを自動的にデプロイする場合は、ML スキルに対して自動更新機能を有効化できます。

注:

精度スコアが前回のトレーニングよりも向上したかどうかに関係なく ML スキルが自動的に更新されるため、この機能は注意して使用してください。

特定のフィールドに多少の回帰が見られても、全体的なスコアは向上していることがあります。しかし、そのフィールドが業務プロセスにとって重要である可能性があるため、一般に、自動更新および自動再トレーニングを成功させるには、慎重な監視が必要になります。

[ML スキルを更新] インターフェイスのスクリーンショット

自動微調整ループが完了しました。これ以降は、検証ステーションのデータを使用して ML モデルを自動的に再トレーニングできます。

このページは役に立ちましたか?

接続

ヘルプ リソース サポート

学習する UiPath アカデミー

質問する UiPath フォーラム

最新情報を取得