- 基本情報
- フレームワーク コンポーネント
- AI Center での Document Understanding
- パイプライン
- トレーニング パイプラインと評価パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
Document Understanding ガイド
トレーニング パイプラインと評価パイプライン
Document Understanding ML パッケージは、3 種類のパイプライン (フル パイプライン、トレーニング、評価) をすべて実行できます。
ほとんどのユース ケースでは、パラメーターを指定する必要がなく、モデルは高度な手法を使用して高性能なモデルを検出します。
_results.json
ファイルが必ず含まれます。
トレーニング パイプラインには次の 2 種類があります。
- Document Understanding の種類の ML パッケージ
- さまざまな種類の ML パッケージ (Invoices (請求書)、Receipts (領収書)、Purchase Orders (発注書)、Utility Bills (公共料金の請求書)、Invoices India (請求書 - インド)、Invoices Australia (請求書 - オーストラリア) など)
「Document Understanding」パッケージを使用したトレーニングでは、入力として提供されたデータセットに対してゼロからモデルをトレーニングするだけです。
多様性の低いドキュメント (フォーム) を使用するユース ケースの場合は、わずか 30 個から 50 個程度のサンプルを使用することで、適切な結果が得られる可能性があります。
通常の (「ヘッダー」) フィールドのみを必要とする多様性の高いドキュメントを使用するユース ケースの場合は、フィールドあたり 20 個から 50 個以上のサンプルが必要です。したがって、標準フィールドを 10 個抽出する必要がある場合は、200 個から 500 個以上のサンプルが必要になります。
列フィールド (明細項目など) を抽出する必要がある場合は、列フィールドあたり 50 個から 200 個のサンプルが必要です。したがって、クリーンでシンプルなレイアウトの列フィールドが 5 個ある場合は、300 個から 400 個のサンプルを使用することで適切な結果が得られる可能性があります。ただし、非常に複雑で多様なレイアウトの場合は、最大で 1,000 個のサンプルが必要になることがあります。
また、複数の言語に対応する必要がある場合には、少なくとも 200 個から 300 個のサンプルが言語ごとに必要です。複数言語の場合を除き、それほど多くのサンプルは必要はありません。したがって、10 個のヘッダー フィールドと 5 つの列フィールドの場合は、500 個のサンプルで十分かもしれませんが、場合によっては、1000 個を超えるサンプルが必要になることもあります。
手順 2 で説明するパッケージのいずれかを使用したトレーニングでは、追加の入力としてベース モデルが必要です。ゼロから開始するのではなくベース モデルを利用するので、このようなトレーニングも再トレーニングと呼びます。このアプローチでは「転移学習」と呼ばれる手法を用いており、モデルが別の既存モデルでエンコードされた情報を利用します。同じフィールドでトレーニングを実施して精度だけを最適化する場合は、わずか 100 個から 500 個の追加ドキュメントで適切な結果を得られる可能性があります。新規のフィールドをモデルに追加する場合に適切な結果を得るには、新規フィールドあたり 30 個から 50 個のドキュメントが必要です。使用するベース モデルのバージョンを選択するときは必ず、UiPath が提供するすぐに使える事前トレーニング済みのバージョンである 1.0 を使用することを強く推奨します。
分類フィールドは再トレーニングされません。そのため、モデルを再トレーニングするときには、ベース モデルとして使用している事前トレーニングされたモデルのパフォーマンスに関係なく、ラベル付けするデータセットに、モデルに認識させたい各クラスからのサンプルが最低でも 10 個から 20 個含まれるようにする必要があります。
2020 年 9 月リリースの AI Fabric は、検証ステーションを使用して人間が検証したデータに基づいて ML モデルを微調整する機能を備えています。
RPA ワークフローは既存の ML モデルを使用してドキュメントを処理するので、ドキュメントによっては、[検証ステーション] アクティビティ (有人ボットで、またはブラウザーで Orchestrator Action Center を使用して利用可能) を使用した人間による検証が必要なことがあります。
検証ステーションで生成された検証済みデータは、[マシン ラーニング抽出器トレーナー] アクティビティを使用してエクスポートできます。また、AI Fabric で ML モデルを微調整するためにも使用できます。
既存の ML モデル (すぐに使えるモデルを含む) を微調整する場合を除き、検証ステーションのデータを使用して ML モデルをゼロからトレーニングする (DocumentUnderstanding ML パッケージを使用する) ことはお勧めしません。
ML モデルの微調整の詳しい手順については、Data Manager のドキュメントの「検証ステーションのデータセットのインポート」をご覧ください。
トレーニングに GPU (AI Robot Pro) を使用すると、CPU (AI Robot) を使用するよりも 10 倍以上高速になります。GPU での Document Understanding モデルのトレーニングを実行するには、11 GB 以上のビデオ RAM を搭載した GPU が問題なく動作する必要があります。
GPU モデルは、バージョン 418.0 以上の NVIDIA ドライバーとバージョン 9.0 以上の CUDA ドライバーをサポートしている必要があります。
CPU を使用したトレーニングは、画像数が最大 500 のデータセットに対してのみサポートされます。より大きなデータセットの場合は、GPU を使用してトレーニングする必要があります。
Data Manager から取得したエクスポート済みのデータセットを含むフォルダーです。次のものが含まれます。
- images: ラベル付けされたすべてのページの画像を含むフォルダー。
- latest: 各ページからのラベル付けされたデータを含む .json ファイルが格納されているフォルダー。
- schema.json: 抽出するフィールドとその種類を含むファイル。
- split.csv: トレーニング パイプライン時に TRAIN または VALIDATE のいずれかで使用されるドキュメントごとの分割を含むファイル。
パイプラインがフル パイプラインまたは評価パイプラインの場合は、以下の 2 つのファイルが格納される「artifacts」フォルダーも [出力] ペインに含まれます。
- evaluation_metrics.txt: 予測されたフィールドの F1 スコアを含みます。明細項目の場合は、共に取得されたすべての列についてグローバル スコアだけが取得されます。
- evaluation.xlsx: グラウンド トゥルースとモデルにより予測された各フィールドの予測値とを突き合わせて比較した結果と、ドキュメントごとの精度メトリック (精度が低い順) を含む、Excel スプレッドシートです。最も精度の低いドキュメントが一番上に表示されるため、診断とトラブルシューティングをスムーズに進められます。