Document Understanding - 自動微調整ループ (パブリックプレビュー)

document-understanding

2024.10

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

自動微調整ループ (パブリックプレビュー)

自動微調整ループ (パブリックプレビュー) を設定して Document Understanding で ML モデルを継続的に再トレーニングし、データセットを蓄積するためのベストプラクティスに関するガイダンスを提供します。

ML モデルをトレーニング/再トレーニングするときにまず留意すべきは、最適な結果は、すべてのデータを 1 つの大きな、そして理想的には、慎重にキュレーションされたデータセットに蓄積することによって得られるということです。データセット A でトレーニングしてから、生成されたモデルをデータセット B で再トレーニングした場合の結果は、結合されたデータセット A+B でトレーニングした場合よりもはるかに悪くなります。

2 つ目に留意すべき点は、すべてのデータが同じではないということです。Document Manager などの専用ツールでラベル付けされたデータは、検証ステーションなどの、別の目的で使用されるツールでラベル付けされたデータよりも一般に質が高いため、より優れたパフォーマンスのモデルが生成されます。検証ステーションから得られるデータは、業務プロセスの観点からは高品質かもしれませんが、モデルのトレーニングの観点から見るとそれほど高品質ではありません。ML モデルは独特の形式のデータを必要としており、それはほとんどの場合、業務プロセスで必要な形式とは異なるためです。たとえば、10 ページの請求書では請求書番号が各ページに表示されている可能性がありますが、検証ステーションでは最初のページで指定すれば十分であるのに対して、Document Manager ではすべてのページでラベル付けを行います。この場合、正しいラベルの 90% が検証ステーションのデータに存在しないことになります。以上の理由から、検証ステーションのデータの有用性は限定的といえます。

ML モデルを効果的にトレーニングするには、包括的、高品質、かつ代表的な単一のデータセットが必要です。そのため、累積的アプローチでは、追加のデータを入力データセットに加えて、毎回 ML モデルをより大きなデータセットでトレーニングします。これを行う方法の 1 つに、自動再トレーニングループの使用が挙げられます。

ML モデルのライフサイクル

マシンラーニングモデルのライフサイクルには、次の 2 つの主要なフェーズがあります。

構築フェーズ
メンテナンスフェーズ

構築フェーズ

この最初のフェーズでは、可能なかぎり最適なパフォーマンスを得るために、Document Manager を使用してトレーニングデータセットと評価データセットを準備します。

同時に、RPA オートメーションおよび ML モデルに関連するビジネスロジックを構築します。これは、期待する投資利益率を実現する上で、モデルそのものと同じくらい重要なことです。

メンテナンスフェーズ

この第 2 フェーズでは、構築フェーズで達成した高いパフォーマンスレベルを維持し、回帰を防ぎます。

自動微調整機能 (と、ほとんどの場合の検証ステーションのデータ) は、厳密にはメンテナンスフェーズに属します。自動微調整機能の主な目的は、プロセスを流れるデータの変化に伴う ML モデルの回帰を防ぐことです。

重要:

検証ステーションを使用してフィードバックされた人間による検証データを使用して、モデルをゼロから構築することはできません。モデルの構築は、Document Manager でトレーニングデータセットと評価データセットを準備して行う必要があります。

自動微調整ループの構成要素

自動微調整ループの構成要素は次のとおりです。

ロボットワークフロー: [マシンラーニング抽出器トレーナー] アクティビティ
Document Manager: エクスポートのスケジュール設定機能
AI Center: スケジュールされた自動再トレーニングパイプライン
1. (オプション)ML スキルを自動更新

前提条件

この機能を実装するには、事前に次の 2 つの要件を満たしている必要があります。

AI Center で Document Manager セッションを作成して、特定数のフィールドを設定しておく必要があります。正確には、高品質なトレーニングデータセットと評価データセットをラベル付けしておく必要があります。フィールドを手動で定義するか、スキーマをインポートできます。フィールドを設定していないと、[スケジュール (プレビュー)] タブは有効化されず、画面に次のメッセージが表示されます。
ML モデルの複数のバージョンをトレーニングおよびテストし、発生した可能性のある問題を修正して、RPA+AI オートメーションにデプロイしておく必要があります。

1. ロボットワークフロー: [マシンラーニング抽出器トレーナー] アクティビティ

[マシンラーニング抽出器トレーナー] アクティビティをワークフロー内の [抽出器トレーニングスコープ] に追加し、スコープを適切に設定します。
[フレームワークエイリアス] に含まれるエイリアスが [データ抽出スコープ] の [マシンラーニング抽出器] のエイリアスと同じであることを確認します。
トレーニングデータセットと評価データセットを含む Document Manager セッションに関連付けられたプロジェクトとデータセットを選択します。Orchestrator に接続すると、ドロップダウンメニューに自動で入力されます。

注:
ワークフローでローカルにデータをエクスポートする場合は、[出力フォルダー] プロパティの値を設定できます。

データセット名は、AI Center の [データのラベル付け] ビューで、[データのラベル付けセッション] の名前の横に表示されます。

選択されたデータセットに対して、[マシンラーニング抽出器トレーナー] アクティビティは fine-tune という名前のフォルダーを作成し、エクスポートしたドキュメントをその 3 つのフォルダー [documents]、[metadata]、[predictions] に書き込みます。

このフォルダーは、データを Document Manager に自動的にインポートするために指定されています。インポートされたデータは既存のデータとマージされ、その後、マージされたデータが、トレーニングパイプラインまたはフルパイプラインで使用できる正しい形式でエクスポートされます。インポートされたデータは、自動的にトレーニングと検証の 2 つのセットに分類され、80%/20% の分割が維持されます。結果として、エクスポートされたデータには、新たに収集されたデータのトレーニングセットと検証セットの両方が含まれます。データは、スケジュールされたエクスポートが Document Manager で有効化されている場合にのみ、自動的にインポートされます。

2. Document Manager: エクスポートのスケジュール設定機能

Document Manager セッションから [エクスポート] ボタンを選択し、[スケジュール (プレビュー)] タブに移動して、[スケジュール] スライダーを有効化します。次に、[開始時刻] と [繰り返し] を選択します。準備ができたら、[ スケジュール ] ボタンを選択します。

[後方互換性のあるエクスポート] チェックボックスをオンにすると、従来のエクスポートの挙動を適用して、各ページを個別のドキュメントとしてエクスポートできます。既定のエクスポートでトレーニングしたモデルの評価結果が期待値より低い場合は、この機能をお試しください。ドキュメントを元の複数ページの形式でエクスポートする場合は、このチェックボックスをオフのままにします。

注:

最小繰り返し間隔は 7 日で、最大 60 日です。

AI Center のトレーニングパイプラインは、たいていは毎週実行するように設定されているため、繰り返し間隔は 7 日が推奨されます。

エクスポートのスケジュールを設定するときに、fine-tune フォルダーからインポートされたデータは、[エクスポート] フォルダーの auto-export タイムスタンプの下にエクスポートされます。

注:

自動再トレーニングの実行あたり 2000 ページのインポート制限があります。

具体的に言うと、スケジュールされたエクスポートでは、手順 1 で作成した fine-tune フォルダーにあるデータをインポートした後、既存のデータと新たにインポートした検証ステーション データを含む完全なデータセットを [エクスポート] フォルダーにエクスポートします。このため、スケジュールされたエクスポートごとに、エクスポートされるデータセットは大きくなっていきます。

ファイル latest.txt は、スケジュールされた最初のエクスポートの場合は更新または作成されます。ここでは、 Document Manager によって行われた最新のエクスポートの名前を確認できます。ただし、スキーマのエクスポートでは latest.txtは更新されません。このファイルは、AI Center の自動再トレーニングパイプラインで最新のエクスポートかどうかを判断するために使用されます。これにより、常に最新のデータでトレーニングできます。したがって、絶対に削除したり変更したりしないでください。そうしないと、自動再トレーニングパイプラインは失敗します。

注:

スケジュール設定されたインポートおよびエクスポート操作は、前週に手順 1 で送信されたデータの量によっては、最大 1 時間から 2 時間かかることがあります。エクスポート操作の実行中は他のエクスポートまたはインポートを実行できないため、Document Manager を使用しない時間にエクスポートのスケジュールを設定することをお勧めします。ただし、ラベル付けはいつでも実行できます。

3. AI Center: スケジュールされた自動再トレーニングパイプライン

AI Center でトレーニングパイプラインまたはフルパイプラインをスケジュールするときには、いくつかの事項を考慮する必要があります。

まずはじめに、評価データセットを作成し、フルパイプラインのみをスケジュールすることを強くお勧めします。フルパイプラインはトレーニングと評価を一緒に実行し、評価パイプラインは評価データセットを使用してスコアを生成します。このスコアは、新しいバージョンが前のバージョンよりも優れているかどうかを判断するために重要であり、ロボットが使用するためにデプロイできます。

2 つ目として、フルパイプラインの場合は、入力データセットと評価データセットの 2 つのデータセットを指定する必要があります。

自動微調整ループ機能のコンテキストでは評価データセットへの変更はありませんが、通常どおり、2 つのフォルダー (images および latest) と 2 つのファイル (schema.json および split.csv) が含まれているデータセットを選択する必要があります。

ただし、入力データセットはもう「データセット」ではありませんが、データのラベル付けセッションに接続されている AI Center データセット内でエクスポートフォルダーを選択する必要があります。そうすれば、データラベル付けセッションからエクスポートされた最新のトレーニングが実行され、指定した評価データセットと同じデータセットで評価が実行されます。

重要:

[エクスポート] フォルダーを選択しないと、自動再トレーニングは機能しません。

さらに、自動再トレーニング環境変数を True に設定する必要があります。

最後に、[定期的] を選択し、Document Manager からのエクスポートが完了するまでの時間を十分に確保したうえで日時を設定する必要があります。たとえば、Document Manager からのエクスポートが土曜日の午前 1 時に実行される場合、パイプラインは土曜日の午前 2 時または 3 時に実行します。パイプラインの実行時にエクスポートが完了していない場合は、パイプラインは前回のエクスポートを使用し、前週のトレーニング時と同じデータを使用して再トレーニングを実行する可能性があります。

4. (任意) ML スキルの自動更新

自動的にスケジュールされたトレーニングパイプラインで生成された ML パッケージの最新バージョンを自動的にデプロイする場合は、ML スキルに対して自動更新機能を有効化できます。

注:

精度スコアが前回のトレーニングよりも向上したかどうかに関係なく ML スキルが自動的に更新されるため、この機能は注意して使用してください。

特定のフィールドに多少の回帰が見られても、全体的なスコアは向上していることがあります。しかし、そのフィールドが業務プロセスにとって重要である可能性があるため、一般に、自動更新および自動再トレーニングを成功させるには、慎重な監視が必要になります。

自動微調整ループが完了しました。これ以降は、検証ステーションのデータを使用して ML モデルを自動的に再トレーニングできます。

ML モデルのライフサイクル
構築フェーズ
メンテナンスフェーズ
自動微調整ループの構成要素
前提条件
1. ロボットワークフロー: [マシンラーニング抽出器トレーナー] アクティビティ
2. Document Manager: エクスポートのスケジュール設定機能
3. AI Center: スケジュールされた自動再トレーニングパイプライン
4. (任意) ML スキルの自動更新

このページは役に立ちましたか?

前へ微調整する

次へドキュメントの種類を作成する

ML モデルのライフサイクル​

構築フェーズ​

メンテナンス フェーズ​

自動微調整ループの構成要素​

前提条件​

1. ロボット ワークフロー: [マシン ラーニング抽出器トレーナー] アクティビティ​

2. Document Manager: エクスポートのスケジュール設定機能​

3. AI Center: スケジュールされた自動再トレーニング パイプライン​

4. (任意) ML スキルの自動更新​