Document Understanding - トレーニングパイプラインと評価パイプライン

document-understanding

2020.10

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

トレーニングパイプラインと評価パイプライン

Document Understanding ML パッケージは、3 種類のパイプライン (フルパイプライン、トレーニング、評価) をすべて実行できます。

ほとんどのユースケースでは、パラメーターを指定する必要がなく、モデルは高度な手法を使用して高性能なモデルを検出します。

パイプラインに関する情報は 2 か所で入手できます。パイプラインテーブルの右側にあるコンテキストドロップダウンメニューからアクセス可能な詳細ビューか、左側のサイドバーにある [ML ログ] タブです。詳細ビューには [出力] ペインと [ログ] ページが含まれます。[出力] ペインには、パイプラインの詳細 (パッケージバージョン、データセット、GPU 使用率、実行時間など) を要約した _results.json ファイルが必ず含まれます。

トレーニングパイプラインおよび再トレーニングパイプライン

トレーニングパイプラインには次の 2 種類があります。

Document Understanding の種類の ML パッケージ
さまざまな種類の ML パッケージ (Invoices (請求書)、Receipts (領収書)、Purchase Orders (発注書)、Utility Bills (公共料金の請求書)、Invoices India (請求書 - インド)、Invoices Australia (請求書 - オーストラリア) など)

「Document Understanding」パッケージを使用したトレーニングでは、入力として提供されたデータセットに対してゼロからモデルをトレーニングするだけです。

多様性の低いドキュメント (フォーム) を使用するユースケースの場合は、わずか 30 個から 50 個程度のサンプルを使用することで、適切な結果が得られる可能性があります。

通常の (「ヘッダー」) フィールドのみを必要とする多様性の高いドキュメントを使用するユースケースの場合は、フィールドあたり 20 個から 50 個以上のサンプルが必要です。したがって、標準フィールドを 10 個抽出する必要がある場合は、200 個から 500 個以上のサンプルが必要になります。

列フィールド (明細項目など) を抽出する必要がある場合は、列フィールドあたり 50 個から 200 個のサンプルが必要です。したがって、クリーンでシンプルなレイアウトの列フィールドが 5 個ある場合は、300 個から 400 個のサンプルを使用することで適切な結果が得られる可能性があります。ただし、非常に複雑で多様なレイアウトの場合は、最大で 1,000 個のサンプルが必要になることがあります。

また、複数の言語に対応する必要がある場合には、少なくとも 200 個から 300 個のサンプルが言語ごとに必要です。複数言語の場合を除き、それほど多くのサンプルは必要はありません。したがって、10 個のヘッダーフィールドと 5 つの列フィールドの場合は、500 個のサンプルで十分かもしれませんが、場合によっては、1000 個を超えるサンプルが必要になることもあります。

手順 2 で説明するパッケージのいずれかを使用したトレーニングでは、追加の入力としてベースモデルが必要です。ゼロから開始するのではなくベースモデルを利用するので、このようなトレーニングも再トレーニングと呼びます。このアプローチでは「転移学習」と呼ばれる手法を用いており、モデルが別の既存モデルでエンコードされた情報を利用します。同じフィールドでトレーニングを実施して精度だけを最適化する場合は、わずか 100 個から 500 個の追加ドキュメントで適切な結果を得られる可能性があります。新規のフィールドをモデルに追加する場合に適切な結果を得るには、新規フィールドあたり 30 個から 50 個のドキュメントが必要です。使用するベースモデルのバージョンを選択するときは必ず、UiPath が提供するすぐに使える事前トレーニング済みのバージョンである 1.0 を使用することを強く推奨します。

注:

分類フィールドは再トレーニングされません。そのため、モデルを再トレーニングするときには、ベースモデルとして使用している事前トレーニングされたモデルのパフォーマンスに関係なく、ラベル付けするデータセットに、モデルに認識させたい各クラスからのサンプルが最低でも 10 個から 20 個含まれるようにする必要があります。

検証ステーションからのデータを使用して微調整する (プレビュー)

2020 年 9 月リリースの AI Fabric は、検証ステーションを使用して人間が検証したデータに基づいて ML モデルを微調整する機能を備えています。

RPA ワークフローは既存の ML モデルを使用してドキュメントを処理するので、ドキュメントによっては、[検証ステーション] アクティビティ (有人ボットで、またはブラウザーで Orchestrator Action Center を使用して利用可能) を使用した人間による検証が必要なことがあります。

検証ステーションで生成された検証済みデータは、[マシンラーニング抽出器トレーナー] アクティビティを使用してエクスポートできます。また、AI Fabric で ML モデルを微調整するためにも使用できます。

既存の ML モデル (すぐに使えるモデルを含む) を微調整する場合を除き、検証ステーションのデータを使用して ML モデルをゼロからトレーニングする (DocumentUnderstanding ML パッケージを使用する) ことはお勧めしません。

ML モデルの微調整の詳しい手順については、Data Manager のドキュメントの「検証ステーションのデータセットのインポート」をご覧ください。

重要: トレーニングまたはフルパイプラインの実行を成功させるには、25 個以上のドキュメントとデータセット内の各ラベル付きフィールドからの 10 件以上のサンプルを使用することを強く推奨します。そうしないと、パイプラインによって、「Dataset Creation Failed (データセットの作成に失敗しました)」というエラーが表示されます。

重要: Data Manager を使用するか、検証ステーションから取得することによって、さらに多くのデータがラベル付けされるようになります。それに伴い、単一のデータセットを維持し、そのデータセットにより多くのデータを追加して、UiPath が提供するマイナーバージョン 0 のベースモデルに対して常に再トレーニングを実施することにより、最良の結果が得られます。以前に自身でトレーニングしたベースモデル (マイナーバージョン 1 以上) を使用した再トレーニングは実施しないよう、強く推奨します。

GPU または CPU に対するトレーニング

トレーニングに GPU (AI Robot Pro) を使用すると、CPU (AI Robot) を使用するよりも 10 倍以上高速になります。GPU での Document Understanding モデルのトレーニングを実行するには、11 GB 以上のビデオ RAM を搭載した GPU が問題なく動作する必要があります。

GPU モデルは、バージョン 418.0 以上の NVIDIA ドライバーとバージョン 9.0 以上の CUDA ドライバーをサポートしている必要があります。

CPU を使用したトレーニングは、画像数が最大 500 のデータセットに対してのみサポートされます。より大きなデータセットの場合は、GPU を使用してトレーニングする必要があります。

データセットの形式

Data Manager から取得したエクスポート済みのデータセットを含むフォルダーです。次のものが含まれます。

images: ラベル付けされたすべてのページの画像を含むフォルダー。
latest: 各ページからのラベル付けされたデータを含む .json ファイルが格納されているフォルダー。
schema.json: 抽出するフィールドとその種類を含むファイル。
split.csv: トレーニングパイプライン時に TRAIN または VALIDATE のいずれかで使用されるドキュメントごとの分割を含むファイル。

環境変数

ml_model.epochs: トレーニングまたはフルパイプラインのエポック数をカスタマイズします (既定値は 150)。

成果物

パイプラインがフルパイプラインまたは評価パイプラインの場合は、以下の 2 つのファイルが格納される「artifacts」フォルダーも [出力] ペインに含まれます。

evaluation_metrics.txt: 予測されたフィールドの F1 スコアを含みます。明細項目の場合は、共に取得されたすべての列についてグローバルスコアだけが取得されます。
evaluation.xlsx: グラウンドトゥルースとモデルにより予測された各フィールドの予測値とを突き合わせて比較した結果と、ドキュメントごとの精度メトリック (精度が低い順) を含む、Excel スプレッドシートです。最も精度の低いドキュメントが一番上に表示されるため、診断とトラブルシューティングをスムーズに進められます。

トレーニングパイプラインおよび再トレーニングパイプライン
検証ステーションからのデータを使用して微調整する (プレビュー)
GPU または CPU に対するトレーニング
データセットの形式
環境変数
成果物

このページは役に立ちましたか?

前へAI Center と Document Understanding の関係

次へML パッケージについて

トレーニング パイプラインと評価パイプライン

トレーニング パイプラインおよび再トレーニング パイプライン