- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- トレーニング パイプライン
- 評価パイプライン
- フル パイプライン
- 微調整する
- 自動微調整ループ (パブリック プレビュー)
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
Document Understanding ガイド
自動微調整ループ (パブリック プレビュー)
ML モデルをトレーニング/再トレーニングするときにまず留意すべきは、最適な結果は、すべてのデータを 1 つの大きな、そして理想的には、慎重にキュレーションされたデータセットに蓄積することによって得られるということです。データセット A でトレーニングしてから、生成されたモデルをデータセット B で再トレーニングした場合の結果は、結合されたデータセット A+B でトレーニングした場合よりもはるかに悪くなります。
2 つ目に留意すべき点は、すべてのデータが同じではないということです。Document Manager などの専用ツールでラベル付けされたデータは、検証ステーションなどの、別の目的で使用されるツールでラベル付けされたデータよりも一般に質が高いため、より優れたパフォーマンスのモデルが生成されます。検証ステーションから得られるデータは、業務プロセスの観点からは高品質かもしれませんが、モデルのトレーニングの観点から見るとそれほど高品質ではありません。ML モデルは独特の形式のデータを必要としており、それはほとんどの場合、業務プロセスで必要な形式とは異なるためです。たとえば、10 ページの請求書では請求書番号が各ページに表示されている可能性がありますが、検証ステーションでは最初のページで指定すれば十分であるのに対して、Document Manager ではすべてのページでラベル付けを行います。この場合、正しいラベルの 90% が検証ステーションのデータに存在しないことになります。以上の理由から、検証ステーションのデータの有用性は前述のとおり限定的といえます。
ML モデルを効果的にトレーニングするには、包括的、高品質、かつ代表的な単一のデータセットが必要です。そのため、累積的アプローチでは、追加のデータを入力データセットに加えて、毎回 ML モデルをより大きなデータセットでトレーニングします。これを行う方法の 1 つに、自動再トレーニング ループの使用が挙げられます。
この機能をよりよく理解するために、自動微調整機能が ML モデルのライフサイクルのどこで適用されるかを見てみましょう。
マシン ラーニング モデルのライフサイクルには、次の 2 つの主要なフェーズがあります。
- 構築フェーズ
- メンテナンス フェーズ
この最初のフェーズでは、可能なかぎり最適なパフォーマンスを得るために、Document Manager を使用してトレーニング データセットと評価データセットを準備します。
同時に、RPA オートメーションおよび ML モデルに関連するビジネス ロジックを構築します。これは、期待する投資利益率を実現する上で、モデルそのものと同じくらい重要なことです。
自動微調整ループの構成要素は次のとおりです。
- ロボット ワークフロー: [マシン ラーニング抽出器トレーナー] アクティビティ
- Document Manager: エクスポートのスケジュール設定機能
- AI Center: スケジュールされた自動再トレーニング パイプライン
- 4. (任意) ML スキルの自動更新
この機能を実装するには、事前に次の 2 つの要件を満たしている必要があります。
-
AI Center で Document Manager セッションを作成して、特定数のフィールドを設定しておく必要があります。正確には、高品質なトレーニング データセットと評価データセットをラベル付けしておく必要があります。フィールドを手動で定義するか、スキーマをインポートできます。フィールドを設定していないと、[スケジュール (プレビュー)] タブは有効化されず、画面に次のメッセージが表示されます。
- ML モデルの複数のバージョンをトレーニングおよびテストし、発生した可能性のある問題を修正して、RPA+AI オートメーションにデプロイしておく必要があります。
- [マシン ラーニング抽出器トレーナー] アクティビティをワークフロー内の [抽出器トレーニング スコープ] に追加し、スコープを適切に設定します。
- [フレームワーク エイリアス] に含まれるエイリアスが [データ抽出スコープ] の [マシン ラーニング抽出器] のエイリアスと同じであることを確認します。
-
トレーニング データセットと評価データセットを含む Document Manager セッションに関連付けられたプロジェクトとデータセットを選択します。Orchestrator に接続すると、ドロップダウン メニューに自動で入力されます。
注: ワークフローでローカルにデータをエクスポートする場合は、[出力フォルダー] プロパティの値を設定できます。
データセット名は、AI Center の [データのラベル付け] ビューで、[データのラベル付け] セッションの名前の横に表示されます。
選択されたデータセットに対して、[マシン ラーニング抽出器トレーナー] アクティビティは fine-tune という名前のフォルダーを作成し、エクスポートしたドキュメントをその 3 つのフォルダー [documents]、[metadata]、[predictions] に書き込みます。
このフォルダーは、データを Document Manager に自動的にインポートするために指定されています。インポートされたデータは既存のデータとマージされ、その後、マージされたデータが、トレーニング パイプラインまたはフル パイプラインで使用できる正しい形式でエクスポートされます。インポートされたデータは、自動的にトレーニングと検証の 2 つのセットに分類され、80%/20% の分割が維持されます。結果として、エクスポートされたデータには、新たに収集されたデータのトレーニング セットと検証セットの両方が含まれます。データは、スケジュールされたエクスポートが Document Manager で有効化されている場合にのみ、自動的にインポートされます。
Document Manager セッションで [エクスポート] ボタン をクリックして、[スケジュール (プレビュー)] タブに移動し、[スケジュール設定] スライダーを有効化します。次に、開始時間と繰り返し間隔を選択します。準備ができたら、[スケジュール] ボタンをクリックします。
[後方互換性のあるエクスポート] チェックボックスをオンにすると、従来のエクスポートの挙動を適用して、各ページを個別のドキュメントとしてエクスポートできます。既定のエクスポートでトレーニングしたモデルの評価結果が期待値より低い場合は、この機能をお試しください。ドキュメントを元の複数ページの形式でエクスポートする場合は、このチェックボックスをオフのままにします。
最小繰り返し間隔は 7 日で、最大 60 日です。
AI Center のトレーニング パイプラインは、たいていは毎週実行するように設定されているため、繰り返し間隔は 7 日が推奨されます。
エクスポートのスケジュールを設定するときに、fine-tune フォルダーからインポートされたデータは、[エクスポート] フォルダーの auto-export タイムスタンプの下にエクスポートされます。
自動再トレーニングの実行あたり 2000 ページのインポート制限があります。
具体的に言うと、スケジュールされたエクスポートでは、手順 1 で作成した fine-tune フォルダーにあるデータをインポートした後、既存のデータと新たにインポートした検証ステーション データを含む完全なデータセットを [エクスポート] フォルダーにエクスポートします。このため、スケジュールされたエクスポートごとに、エクスポートされるデータセットは大きくなっていきます。
latest.txt ファイルが更新または作成 (初めてのスケジュールされたエクスポートの場合) されます。ここで、Document Manager によって実行された最新のエクスポートの名前を確認できます。ただし、スキーマをエクスポートした場合は、latest.txt は更新されません。このファイルは、AI Center の自動再トレーニング パイプラインで最新のエクスポートを特定し、常に最新のデータでトレーニングできるようにするために使用されます。そのため、このファイルは絶対に削除したり変更したりしないでください。削除したり変更したりすると、自動再トレーニング パイプラインは失敗します。
AI Center でトレーニング パイプラインまたはフル パイプラインをスケジュールするときには、いくつかの事項を考慮する必要があります。
まずはじめに、評価データセットを作成し、フル パイプラインのみをスケジュールすることを強くお勧めします。フル パイプラインはトレーニングと評価を一緒に実行し、評価パイプラインは評価データセットを使用してスコアを生成します。このスコアは、新しいバージョンが前のバージョンよりも優れているかどうかを判断するために重要であり、ロボットが使用するためにデプロイできます。
2 つ目として、フル パイプラインの場合は、入力データセットと評価データセットの 2 つのデータセットを指定する必要があります。
自動微調整ループ機能のコンテキストでは評価データセットへの変更はありませんが、通常どおり、2 つのフォルダー (images および latest) と 2 つのファイル (schema.json および split.csv) が含まれているデータセットを選択する必要があります。
ただし、入力データセットはもう「データセット」ではありませんが、データのラベル付けセッションに接続されている AI Center データセット内でエクスポート フォルダーを選択する必要があります。そうすれば、データ ラベル付けセッションからエクスポートされた最新のトレーニングが実行され、指定した評価データセットと同じデータセットで評価が実行されます。
さらに、自動再トレーニング環境変数を True に設定する必要があります。
最後に、[定期的] を選択し、Document Manager からのエクスポートが完了するまでの時間を十分に確保したうえで日時を設定する必要があります。たとえば、Document Manager からのエクスポートが土曜日の午前 1 時に実行される場合、パイプラインは土曜日の午前 2 時または 3 時に実行します。パイプラインの実行時にエクスポートが完了していない場合は、パイプラインは前回のエクスポートを使用し、前週のトレーニング時と同じデータを使用して再トレーニングを実行する可能性があります。
自動的にスケジュールされたトレーニング パイプラインで生成された ML パッケージの最新バージョンを自動的にデプロイする場合は、ML スキルに対して自動更新機能を有効化できます。
精度スコアが前回のトレーニングよりも向上したかどうかに関係なく ML スキルが自動的に更新されるため、この機能は注意して使用してください。
特定のフィールドに多少の回帰が見られても、全体的なスコアは向上していることがあります。しかし、そのフィールドが業務プロセスにとって重要である可能性があるため、一般に、自動更新および自動再トレーニングを成功させるには、慎重な監視が必要になります。
自動微調整ループが完了しました。これ以降は、検証ステーションのデータを使用して ML モデルを自動的に再トレーニングできます。