- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
Document Understanding ガイド
データ抽出の概要
データ抽出は、ドキュメントの種類からユーザーが関心のある具体的な情報を特定するのに役立つ Document UnderstandingTM フレームワークのコンポーネントです。
データ抽出の対象となる情報は、プロジェクトのタクソノミーにおいて、そこで定義された特定のドキュメントの種類のフィールド リストとして定義されます。プロジェクトのタクソノミーに表示されないフィールドを、自動データ抽出用に設定することはできません。
Document Understanding フレームワークのデータ抽出手順により、設定された抽出器が、処理されているファイルの正しいフィールド リスト、正しいページ範囲に対して、正しい順序で呼び出されるようになります。つまり、同じファイル内で 2 つ以上のドキュメントの種類が特定された場合 (異なるページ範囲に対して)、データ抽出手順を複数回 (各分類結果に対して 1 回ずつ) 実行することが推奨されます。特定のページ範囲の 1 つの分類結果に対してデータ抽出を実行することで、データはそれらのページからのみ、そのドキュメントの種類のみを対象に抽出されるようになります。
データ抽出は、[データ抽出スコープ] アクティビティを使用して行われます。このスコープ アクティビティには、データ抽出のための 1 つ以上のアルゴリズムを設定して実行し、さらにすべてのニーズに対応する簡単な単一の設定オプションを提供する役割があるため、1 つ以上の抽出器を使用して、データをドキュメントから抽出します。
[データ抽出スコープ] で行われることを、以下に簡潔にまとめます。
- すべての抽出器 (抽出アルゴリズム) の実行に必要な設定と入力を行います。
- 1 つ以上の抽出器を受け入れます。
- 抽出器レベルでのフィールド レベルのアクティブ化、タクソノミーのマッピング、および最小信頼度閾値の設定を可能にします。
- 抽出されたデータを、その特定のデータを報告した抽出器に関係なく、統一された方法で報告します。
[データ抽出スコープ] は、抽出器を設定ウィザードを使用して設定できます。以下をカスタマイズできます。
- 各抽出器から要求されるフィールド
- 分類器ごとの、特定のデータ ポイント抽出器の最小信頼度閾値
- フィールド レベルでの、プロジェクトのタクソノミーと抽出器の内部タクソノミー間のタクソノミー マッピング (ある場合)
ハイブリッド アプローチでは、さまざまな抽出器を組み合わせることができます。このアプローチでは、いくつかのフィールドを特定の抽出器によって抽出し、他のフィールドは別の抽出器によって抽出するよう要求できます。
データ抽出に「フォールバック」ルールを実装することもできます。特定の抽出器が特定のフィールドの許容値を報告しない場合は、バックアップ抽出器を呼び出します。
[データ抽出スコープ] 内の抽出器の順序は重要です。
- 抽出器は、左から優先的に実行されます。
- フィールドの抽出値は、その抽出器に設定された最小信頼度閾値以上の信頼度がある場合にのみ許容されます。
-
抽出器は、指定された分類ページ範囲のみ、かつ、[データ抽出スコープ] の設定に従って要求されたフィールドと前の抽出器からまだ許容できる結果を取得していないフィールドに対してのみ実行されます。
重要: [データ抽出スコープ] が特定の抽出器からフィールドを要求しない場合、その抽出器は実行されません。抽出器が受け取る特定のドキュメントの種類に対して設定されていない場合や、抽出器が「フォールバック」として使用されており、前の抽出器が予期されるすべてのデータを既に報告した場合などがこれに該当します。
ユース ケースの要件に基づいて、抽出器と呼ばれる複数のデータ抽出アルゴリズムから選択できます。
UiPath.IntelligentOCR.Activities パッケージまたは UiPath.DocumentUnderstanding.ML.Activities パッケージにある任意の抽出器を使用できます。
使用できる抽出器は次のとおりです。
公開されている Document Processing Contracts を使用していつでも独自の抽出器を構築し、ユース ケースに適したアルゴリズムを実装できます。