- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
Document Understanding ガイド
データ抽出トレーニングの概要
データ抽出トレーニングは Document UnderstandingTM フレームワークのコンポーネントです。人間によるフィードバックから学習する能力を持つ抽出器のフィードバック ループを閉じるのに役立つます。このトレーニングは、追加のドキュメントに対する抽出器のパフォーマンスを (それぞれの学習能力に応じて) 向上させるのに役立ちます。
トレーニング コンポーネントを含まない Document Understanding プロセスが構築される場合があります。これは、いくつかの理由で起きる可能性があります。その一部を以下に示します。
- 使用している抽出器が再トレーニングをサポートしていない
- 再トレーニングを実行するのではなく、プロセスでは常に同じトレーニングを使用したい
- 抽出器トレーニングをオフラインで更新したいと考えており、その更新を DU プロセス外で管理している
しかし、ほとんどの場合、通常のプロセス使用の一環として抽出器をトレーニングすることには、大きなメリットがあります。抽出器は人間による検証情報を取り込んで、独自のトレーニング データを収集し、独自の更新を実行できるからです。ユーザーが何らかの方法で既存のワークフローを更新する必要はありません。抽出器は、人間が正しいデータとして検証したデータに基づいて、将来より適切に機能するよう自ら学ぶことができる、自己学習型アルゴリズムになります。
データ抽出トレーニングは、[抽出器トレーニング スコープ] アクティビティを使用して行われます。このスコープ アクティビティには、一度に 1 つ以上の抽出器トレーニング アルゴリズムを設定して実行する役割があるため、1 つ以上の抽出器をトレーニングできます。
データ抽出トレーニングは通常、データ抽出の検証後に実行されます。アルゴリズムが受け取るトレーニング データの精度を確保するため、トレーニング用には、人間が確認したフィードバックのみを分類器に送り返す必要があります。
データ抽出トレーニングは、自動的に抽出されたデータが正しい (修正が不要) 場合だけでなく、人間による修正の場合にも実行する必要があります。これは、どちらのケースもアルゴリズムの学習に役立つためです。
データ抽出コンポーネントで使用されている抽出器と、データ抽出の予測に使用されていない抽出器の両方をトレーニングできます。後者のアプローチは、後で Document Understanding ワークフローに追加して使用するために、トレーニング データを収集して、ゼロから抽出器をトレーニングする場合に使用されます。
[抽出器トレーニング スコープ] で行われることを、以下に簡潔にまとめます。
- すべての抽出器トレーナー (トレーニング アルゴリズム) の実行に必要な設定を指定します。
- 1 つ以上の抽出器トレーナーを受け入れます。
- ドキュメントの種類とフィールド レベルのフィルター処理、およびプロジェクトのタクソノミーと内部抽出器のタクソノミーの間のマッピングを可能にします。
[抽出器トレーニング スコープ] は、[抽出器を設定] ウィザードを使用して抽出器を設定できます。以下をカスタマイズできます。
- トレーニングのために、どのドキュメントの種類およびどのフィールドが、どの抽出器トレーナーに送信されるか
- ドキュメントの種類のレベルおよびフィールド レベルでの、プロジェクトのタクソノミーと抽出器の内部タクソノミー (ある場合) 間のタクソノミー マッピング
抽出器トレーニング スコープでは、抽出器 - 抽出器トレーナーのアクティビティのペアを一意に特定することもでき、そのためにデータ抽出器スコープとトレーニング スコープの両方で同じフレームワーク エイリアス文字列が使用されます。
現在、トレーニング/再トレーニング機能が備わっているのは、マシン ラーニング抽出器だけです。このアクティビティは UiPath.DocumentUnderstanding.ML.Activities パッケージ内にあり、そのトレーニング アクティビティをマシン ラーニング抽出器トレーナーと呼びます。