- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- トレーニング パイプライン
- 評価パイプライン
- フル パイプライン
- 微調整する
- 自動微調整ループ (パブリック プレビュー)
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
Document Understanding ガイド
トレーニング パイプライン
データセットの最小サイズ
Dataset Creation Failed
(データセットの作成に失敗しました。)」というエラーが発生します。
GPU または CPU でトレーニングする
インフラストラクチャ | <2021.10.x | 2021.10.x | >2021.10.x |
---|---|---|---|
CPU | 500 ページ | 5,000 ページ | 1000 ページ |
GPU | 18,000 ページ | 18,000 ページ | 18,000 ページ |
サイズの大きいデータセットのトレーニング中にパイプラインが失敗する場合は、ML パッケージ バージョン 24.4 以降にアップグレードすることをお勧めします。最新バージョンでは安定性が強化され、このような問題を大幅に軽減できます。
データセットの構造について詳しくは、「データセットの形式」セクションをご覧ください。
ML モデルをトレーニングする方法は 2 つあります。
- モデルをゼロからトレーニングする
- すぐに使えるモデルを再トレーニングする
モデルをゼロからトレーニングするには DocumentUnderstanding (ドキュメントの理解) ML パッケージを使用します。トレーニングには、入力データとして提供するデータセットを使用します。
モデルを再トレーニングするには、すぐに使える ML パッケージを使用します。たとえば、Invoices (請求書)、Receipts (領収書)、Purchase Orders (発注書)、Utility Bills (公共料金請求書)、Invoices India (請求書 - インド)、Invoices Australia (請求書 - オーストラリア) などがあります。基本的に、DocumentUnderstanding (ドキュメントの理解) を除くすべてのデータ抽出 ML パッケージが利用可能です。これらのパッケージのいずれかを使用したトレーニングでは、入力データの 1 つとしてベース モデルも利用できます。ゼロから開始するのではなくベース モデルを利用するため、このようなトレーニングを再トレーニングと呼びます。このアプローチでは「転移学習」と呼ばれる手法を用いており、モデルが別の既存モデルでエンコードされた情報を活用します。モデルはすぐに使える知識をいくつか保持していますが、新しいデータからも学習します。これは主に小規模から中規模のトレーニング データセット (最大 500 から 800 ページ) に言えることであり、トレーニング データセットのサイズが大きくなればなるほど事前トレーニング済みのベース モデルの活用度は下がります。
トレーニング パイプラインを次のように設定します。
- [パイプラインの種類] フィールドで [トレーニングの実行] を選択します。
- [パッケージを選択] フィールドで、DocumentUnderstanding (ドキュメントの理解) ML パッケージに基づいて作成したパッケージを選択します。
- [パッケージのメジャー バージョンを選択] フィールドで、パッケージのメジャー バージョンを選択します。
- [パッケージのマイナー バージョンを選択] フィールドで、パッケージのマイナー バージョンを選択します。詳しくは、以下の「マイナー バージョンを選択する」のセクションをご覧ください。
- このページの下のビデオに示すように、[入力データセットを選択] フィールドでデータセットを選択します。高品質のトレーニング データセットを構築するには、こちらのチュートリアルをご覧ください。
- [パラメーターを入力] セクションに、パイプラインで定義され、使用される環境変数を入力します (存在する場合)。ほとんどのユース ケースではパラメーターを指定する必要がなく、モデルは高度な手法を使用して効率の良い構成を検出します。ただし、次のような環境変数を使用できます。
auto_retraining
: 自動再トレーニング ループを完了できます。変数が True に設定されている場合は、データがタグ付けされたラベル付けセッションに関連付けられている export フォルダーを入力データセットとする必要があります。変数が False に設定されたままである場合は、入力データセットがこちらのデータセット フォーマットに対応している必要があります。model.epochs
: トレーニング パイプラインのエポック数をカスタマイズします (既定値は 100)。Optional
注: 5,000 ページを超えるサイズの大きいデータセットの場合、最初に既定のエポック数でフル パイプラインを実行できます。こうすることでモデルの精度を評価できます。その後、エポック数を 30〜40 程度まで減らすことができます。この方法により、結果の精度を比較して、エポックを削減しても同等の適合率が得られるかどうかを判断できます。サイズの小さいデータセット、特に 5,000 ページ未満のデータセットを使用する場合は、既定のエポック数を維持できます。
- ML パッケージ v23.4 以降の場合、400 ページ未満のデータセットでのトレーニングには Frozen Backbone (フリーズしたバックボーン) というアプローチを使用して、トレーニングの高速化とパフォーマンスの向上を図ります。ただし、この動作を上書きして、小さいデータセットにフル トレーニングを強制することも、逆に大きいデータセット (最大 3000 ページ) に Frozen Backbone (フリーズしたバックボーン) のトレーニングを強制することもできます。以下の環境変数を使用し、使用中にこれらを結合する条件を設定できます。1 つ目と 2 つ目の変数、または 1 つ目と 3 つ目の変数を同時に使用できます。
Optional
。model.override_finetune_freeze_backbone_mode=True
- 既定の動作を上書きするには、この環境変数を含めます。次のどちらの状況でも必要です。model.finetune_freeze_backbone_mode=True
- 大きいデータセットにも Frozen Backbone を使用するようにモデルに強制するには、この環境変数を含めます。model.finetune_freeze_backbone_mode=False
- 小さいデータセットにもフル トレーニングを使用するようにモデルに強制するには、この環境変数を含めます。
- GPU と CPU のどちらでパイプラインをトレーニングするかを選択します。[GPU を有効化] スライダーは既定で無効化されており、パイプラインは CPU でトレーニングされます。
- パイプラインの実行頻度として、[今すぐ実行]、[時間ベース]、[定期的] のいずれかのオプションを選択します。
auto_retraining
変数を使用している場合は、[定期的] を選択します。 - すべてのフィールドを設定したら、[作成] をクリックします。パイプラインが作成されます。
以下に、以前に AI Center にエクスポートしたデータセットを使用して新しいトレーニング パイプラインを作成する場合の例を示します。
ほとんどの場合、マイナー バージョン 0 を選択する必要があります。これは、トレーニング データセットが大きくて多様であるほど、モデルのパフォーマンスが向上するためです。この原則は、現在の最先端のマシン ラーニング テクノロジの目標と一致します。すなわち、サイズが大きく高品質な、代表性の高いトレーニング セットを使用するという目標です。したがって、モデルのトレーニング データが蓄積されていくのに応じて、同じデータセットにデータを追加し、モデルのパフォーマンスをさらに向上させる必要があります。
ただし、0 以外のマイナー バージョンでトレーニングすることが理にかなっている場合もあります。これは一般的に、パートナーが同じ業界の複数の顧客にサービスを提供する必要があるにもかかわらず、その業界、地域、ドキュメントの種類に最適化された事前トレーニング済みのモデルが UiPath® から提供されていない場合にあてはまります。
このような場合、パートナーは、その業界のさまざまなドキュメント サンプルを使用して、事前トレーニング済みのモデルを開発できます (般化能力を向上させるために、1 つのソースではなく多数のソースのドキュメント サンプルを使用します)。このモデルをベース モデルとして使用し、ML パッケージのバージョン 0 でトレーニングされた特定の顧客モデルをトレーニングします。バージョン 1 などの以降のバージョンは、事前トレーニング済みのモデルを改良したり、顧客固有のモデルを作成したりするために使用します。
ただし、良好な結果を得るには、事前トレーニング済みのモデルに偏りがなく、極めて多様性の高いトレーニング セットに基づいている必要があります。ベース モデルが特定の顧客向けに最適化されている場合、他の顧客では良好なパフォーマンスが得られない可能性があります。このような場合は、ゼロのマイナー バージョンをベース モデルとして使用すると、より良好な結果が得られます。