Document Understanding

自動微調整ループ (パブリックプレビュー)

ML モデルをトレーニング/再トレーニングするときにまず留意すべきは、最適な結果は、すべてのデータを 1 つの大きな、そして理想的には、慎重にキュレーションされたデータセットに蓄積することによって得られるということです。データセット A でトレーニングしてから、生成されたモデルをデータセット B で再トレーニングした場合の結果は、結合されたデータセット A+B でトレーニングした場合よりもはるかに悪くなります。

2 つ目に留意すべき点は、すべてのデータが同じではないということです。Document Manager などの専用ツールでラベル付けされたデータは、検証ステーションなどの、別の目的で使用されるツールでラベル付けされたデータよりも一般に質が高いため、より優れたパフォーマンスのモデルが生成されます。検証ステーションから得られるデータは、業務プロセスの観点からは高品質かもしれませんが、モデルのトレーニングの観点から見るとそれほど高品質ではありません。ML モデルは独特の形式のデータを必要としており、それはほとんどの場合、業務プロセスで必要な形式とは異なるためです。たとえば、10 ページの請求書では請求書番号が各ページに表示されている可能性がありますが、検証ステーションでは最初のページで指定すれば十分であるのに対して、Document Manager ではすべてのページでラベル付けを行います。この場合、正しいラベルの 90% が検証ステーションのデータに存在しないことになります。以上の理由から、検証ステーションのデータの有用性は前述のとおり限定的といえます。

ML モデルを効果的にトレーニングするには、包括的、高品質、かつ代表的な単一のデータセットが必要です。そのため、累積的アプローチでは、追加のデータを入力データセットに加えて、毎回 ML モデルをより大きなデータセットでトレーニングします。これを行う方法の 1 つに、自動再トレーニングループの使用が挙げられます。

この機能をよりよく理解するために、自動微調整機能が ML モデルのライフサイクルのどこで適用されるかを見てみましょう。

ML モデルのライフサイクル

マシンラーニングモデルのライフサイクルには、次の 2 つの主要なフェーズがあります。

構築フェーズ
メンテナンスフェーズ

構築フェーズ

この最初のフェーズでは、可能なかぎり最適なパフォーマンスを得るために、Document Manager を使用してトレーニングデータセットと評価データセットを準備します。

同時に、RPA オートメーションおよび ML モデルに関連するビジネスロジックを構築します。これは、期待する投資利益率を実現する上で、モデルそのものと同じくらい重要なことです。

メンテナンスフェーズ

この第 2 フェーズでは、構築フェーズで達成した高いパフォーマンスレベルを維持し、回帰を防ぎます。

自動微調整機能 (と、ほとんどの場合の検証ステーションのデータ) は、厳密にはメンテナンスフェーズに属します。自動微調整機能の主な目的は、プロセスを流れるデータの変化に伴う ML モデルの回帰を防ぐことです。

重要: 検証ステーションを使用してフィードバックされた人間による検証データを使用して、モデルをゼロから構築することはできません。モデルの構築は、Document Manager でトレーニングデータセットと評価データセットを準備して行う必要があります。

自動微調整ループの構成要素

自動微調整ループの構成要素は次のとおりです。

ロボットワークフロー: [マシンラーニング抽出器トレーナー] アクティビティ
Document Manager: エクスポートのスケジュール設定機能
AI Center: スケジュールされた自動再トレーニングパイプライン
4. (任意) ML スキルの自動更新

前提条件

この機能を実装するには、事前に次の 2 つの要件を満たしている必要があります。

AI Center で Document Manager セッションを作成して、特定数のフィールドを設定しておく必要があります。正確には、高品質なトレーニングデータセットと評価データセットをラベル付けしておく必要があります。フィールドを手動で定義するか、スキーマをインポートできます。フィールドを設定していないと、[スケジュール (プレビュー)] タブは有効化されず、画面に次のメッセージが表示されます。
ML モデルの複数のバージョンをトレーニングおよびテストし、発生した可能性のある問題を修正して、RPA+AI オートメーションにデプロイしておく必要があります。

1. ロボットワークフロー: [マシンラーニング抽出器トレーナー] アクティビティ

[マシンラーニング抽出器トレーナー] アクティビティをワークフロー内の [抽出器トレーニングスコープ] に追加し、スコープを適切に設定します。
[フレームワークエイリアス] に含まれるエイリアスが [データ抽出スコープ] の [マシンラーニング抽出器] のエイリアスと同じであることを確認します。
トレーニングデータセットと評価データセットを含む Document Manager セッションに関連付けられたプロジェクトとデータセットを選択します。Orchestrator に接続すると、ドロップダウンメニューに自動で入力されます。

注: ワークフローでローカルにデータをエクスポートする場合は、[出力フォルダー] プロパティの値を設定できます。

データセット名は、AI Center の [データのラベル付け] ビューで、[データのラベル付け] セッションの名前の横に表示されます。

選択されたデータセットに対して、[マシンラーニング抽出器トレーナー] アクティビティは fine-tune という名前のフォルダーを作成し、エクスポートしたドキュメントをその 3 つのフォルダー [documents]、[metadata]、[predictions] に書き込みます。

このフォルダーのデータが、その後 Document Manager に自動的にインポートされ、既存のデータとマージされて、トレーニングパイプラインまたはフルパイプラインで使用される適切な形式にエクスポートされます。

2. Document Manager: エクスポートのスケジュール設定機能

Document Manager セッションで [エクスポート] ボタンをクリックして、[スケジュール (プレビュー)] タブに移動し、[スケジュール設定] スライダーを有効化します。次に、開始時間と繰り返し間隔を選択します。準備ができたら、[スケジュール] ボタンをクリックします。

[後方互換性のあるエクスポート] チェックボックスをオンにすると、従来のエクスポートの挙動を適用して、各ページを個別のドキュメントとしてエクスポートできます。既定のエクスポートでトレーニングしたモデルの評価結果が期待値より低い場合は、この機能をお試しください。ドキュメントを元の複数ページの形式でエクスポートする場合は、このチェックボックスをオフのままにします。

注:

最小繰り返し間隔は 7 日で、最大 60 日です。

AI Center のトレーニングパイプラインは、たいていは毎週実行するように設定されているため、繰り返し間隔は 7 日が推奨されます。

エクスポートのスケジュールを設定するときに、fine-tune フォルダーからインポートされたデータは、[エクスポート] フォルダーの auto-export タイムスタンプの下にエクスポートされます。

具体的に言うと、スケジュールされたエクスポートでは、手順 1 で作成した fine-tune フォルダーにあるデータをインポートした後、既存のデータと新たにインポートした検証ステーション データを含む完全なデータセットを [エクスポート] フォルダーにエクスポートします。このため、スケジュールされたエクスポートごとに、エクスポートされるデータセットは大きくなっていきます。

latest.txt ファイルが更新または作成 (初めてのスケジュールされたエクスポートの場合) されます。ここで、Document Manager によって実行された最新のエクスポートの名前を確認できます。ただし、スキーマをエクスポートした場合は、latest.txt は更新されません。このファイルは、AI Center の自動再トレーニングパイプラインで最新のエクスポートを特定し、常に最新のデータでトレーニングできるようにするために使用されます。そのため、このファイルは絶対に削除したり変更したりしないでください。削除したり変更したりすると、自動再トレーニングパイプラインは失敗します。

注: スケジュール設定されたインポートおよびエクスポート操作は、前週に手順 1 で送信されたデータの量によっては、最大 1 時間から 2 時間かかることがあります。エクスポート操作の実行中は他のエクスポートまたはインポートを実行できないため、Document Manager を使用しない時間にエクスポートのスケジュールを設定することをお勧めします。ただし、ラベル付けはいつでも実行できます。

3. AI Center: スケジュールされた自動再トレーニングパイプライン

AI Center でトレーニングパイプラインまたはフルパイプラインをスケジュールするときには、いくつかの事項を考慮する必要があります。

まずはじめに、評価データセットを作成し、フルパイプラインのみをスケジュールすることを強くお勧めします。フルパイプラインはトレーニングと評価を一緒に実行し、評価パイプラインは評価データセットを使用してスコアを生成します。このスコアは、新しいバージョンが前のバージョンよりも優れているかどうかを判断するために重要であり、ロボットが使用するためにデプロイできます。

2 つ目として、フルパイプラインの場合は、入力データセットと評価データセットの 2 つのデータセットを指定する必要があります。

自動微調整ループ機能のコンテキストでは評価データセットへの変更はありませんが、通常どおり、2 つのフォルダー (images および latest) と 2 つのファイル (schema.json および split.csv) が含まれているデータセットを選択する必要があります。

ただし、入力データセットはもう「データセット」ではありませんが、データのラベル付けセッションに接続されている AI Center データセット内でエクスポートフォルダーを選択する必要があります。そうすれば、データラベル付けセッションからエクスポートされた最新のトレーニングが実行され、指定した評価データセットと同じデータセットで評価が実行されます。

重要: [エクスポート] フォルダーを選択しないと、自動再トレーニングは機能しません。

さらに、自動再トレーニング環境変数を True に設定する必要があります。

最後に、[定期的] を選択し、Document Manager からのエクスポートが完了するまでの時間を十分に確保したうえで日時を設定する必要があります。たとえば、Document Manager からのエクスポートが土曜日の午前 1 時に実行される場合、パイプラインは土曜日の午前 2 時または 3 時に実行します。パイプラインの実行時にエクスポートが完了していない場合は、パイプラインは前回のエクスポートを使用し、前週のトレーニング時と同じデータを使用して再トレーニングを実行する可能性があります。