- 概要
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- 990 (米国の所得税非課税団体申告書) - ML パッケージ (プレビュー)
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- ハードウェア要件
- パイプライン
- Document Manager
- OCR サービス
- ディープ ラーニング
- Insights のダッシュボード
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ライセンス
- アクティビティ
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
データ抽出トレーニングの概要
Data Extraction Training is a component in the Document UnderstandingTM Framework that helps in closing the feedback loop for extractors that are capable of learning from human feedback. This would help extractors perform better on subsequent documents (depending on their own learning capabilities).
トレーニング コンポーネントを含まない Document Understanding プロセスが構築される場合があります。これは、いくつかの理由で起きる可能性があります。その一部を以下に示します。
- 使用している抽出器が再トレーニングをサポートしていない
- 再トレーニングを実行するのではなく、プロセスでは常に同じトレーニングを使用したい
- 抽出器トレーニングをオフラインで更新したいと考えており、その更新を DU プロセス外で管理している
しかし、ほとんどの場合、通常のプロセス使用の一環として抽出器をトレーニングすることには、大きなメリットがあります。抽出器は人間による検証情報を取り込んで、独自のトレーニング データを収集し、独自の更新を実行できるからです。ユーザーが何らかの方法で既存のワークフローを更新する必要はありません。抽出器は、人間が正しいデータとして検証したデータに基づいて、将来より適切に機能するよう自ら学ぶことができる、自己学習型アルゴリズムになります。
データ抽出トレーニングは、[抽出器トレーニング スコープ] アクティビティを使用して行われます。このスコープ アクティビティには、一度に 1 つ以上の抽出器トレーニング アルゴリズムを設定して実行する役割があるため、1 つ以上の抽出器をトレーニングできます。
データ抽出トレーニングは通常、データ抽出の検証後に実行されます。アルゴリズムが受け取るトレーニング データの精度を確保するため、トレーニング用には、人間が確認したフィードバックのみを分類器に送り返す必要があります。
データ抽出トレーニングは、自動的に抽出されたデータが正しい (修正が不要) 場合だけでなく、人間による修正の場合にも実行する必要があります。これは、どちらのケースもアルゴリズムの学習に役立つためです。
データ抽出コンポーネントで使用されている抽出器と、データ抽出の予測に使用されていない抽出器の両方をトレーニングできます。後者のアプローチは、後で Document Understanding ワークフローに追加して使用するために、トレーニング データを収集して、ゼロから抽出器をトレーニングする場合に使用されます。
[抽出器トレーニング スコープ] で行われることを、以下に簡潔にまとめます。
- すべての抽出器トレーナー (トレーニング アルゴリズム) の実行に必要な設定を指定します。
- 1 つ以上の抽出器トレーナーを受け入れます。
- ドキュメントの種類とフィールド レベルのフィルター処理、およびプロジェクトのタクソノミーと内部抽出器のタクソノミーの間のマッピングを可能にします。
[抽出器トレーニング スコープ] は、[抽出器を設定] ウィザードを使用して抽出器を設定できます。以下をカスタマイズできます。
- トレーニングのために、どのドキュメントの種類およびどのフィールドが、どの抽出器トレーナーに送信されるか
- ドキュメントの種類のレベルおよびフィールド レベルでの、プロジェクトのタクソノミーと抽出器の内部タクソノミー (ある場合) 間のタクソノミー マッピング
抽出器トレーニング スコープでは、抽出器 - 抽出器トレーナーのアクティビティのペアを一意に特定することもでき、そのためにデータ抽出器スコープとトレーニング スコープの両方で同じフレームワーク エイリアス文字列が使用されます。
現在、トレーニング/再トレーニング機能が備わっているのは、マシン ラーニング抽出器だけです。このアクティビティは UiPath.DocumentUnderstanding.ML.Activities パッケージ内にあり、そのトレーニング アクティビティをマシン ラーニング抽出器トレーナーと呼びます。