- 概要
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- 990 (米国の所得税非課税団体申告書) - ML パッケージ (プレビュー)
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- ハードウェア要件
- パイプライン
- Document Manager
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- Insights のダッシュボード
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ライセンス
- Activities (アクティビティ)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding ガイド
データ抽出の概要
データ抽出とは
Data Extraction is a component in the Document UnderstandingTM Framework that helps in identifying very specific information that you are interested in, from your document types.
データ抽出の対象となる情報は、プロジェクトのタクソノミーにおいて、そこで定義された特定のドキュメントの種類のフィールド リストとして定義されます。プロジェクトのタクソノミーに表示されないフィールドを、自動データ抽出用に設定することはできません。
Document Understanding フレームワークのデータ抽出手順により、設定された抽出器が、処理されているファイルの正しいフィールド リスト、正しいページ範囲に対して、正しい順序で呼び出されるようになります。つまり、同じファイル内で 2 つ以上のドキュメントの種類が特定された場合 (異なるページ範囲に対して)、データ抽出手順を複数回 (各分類結果に対して 1 回ずつ) 実行することが推奨されます。特定のページ範囲の 1 つの分類結果に対してデータ抽出を実行することで、データはそれらのページからのみ、そのドキュメントの種類のみを対象に抽出されるようになります。
データ抽出コンポーネントの使用方法
Data Extraction is done through the Data Extraction Scope activity. To extract data from documents, you can use one or more extractors, as the scope activity has the role of configuring and executing one or more algorithms for data extraction and of offering an easy, unitary configuration option for all your needs.
[データ抽出スコープ] で行われることを、以下に簡潔にまとめます。
- すべての抽出器 (抽出アルゴリズム) の実行に必要な設定と入力を行います。
- 1 つ以上の抽出器を受け入れます。
- 抽出器レベルでのフィールド レベルのアクティブ化、タクソノミーのマッピング、および最小信頼度閾値の設定を可能にします。
- 抽出されたデータを、その特定のデータを報告した抽出器に関係なく、統一された方法で報告します。
[データ抽出スコープ] は、抽出器を設定ウィザードを使用して設定できます。以下をカスタマイズできます。
- 各抽出器から要求されるフィールド
- 分類器ごとの、特定のデータ ポイント抽出器の最小信頼度閾値
- フィールド レベルでの、プロジェクトのタクソノミーと抽出器の内部タクソノミー間のタクソノミー マッピング (ある場合)
You can mix and match extractors, in a hybrid approach, in which you can request a few fields be extracted by a certain Extractor, while other fields are extracted by a different extractor.
データ抽出に「フォールバック」ルールを実装することもできます。特定の抽出器が特定のフィールドの許容値を報告しない場合は、バックアップ抽出器を呼び出します。
[データ抽出スコープ] 内の抽出器の順序は重要です。
- 抽出器は、左から優先的に実行されます。
- フィールドの抽出値は、その抽出器に設定された最小信頼度閾値以上の信頼度がある場合にのみ許容されます。
- 抽出器は、指定された分類ページ範囲のみ、かつ、[データ抽出スコープ] の設定に従って要求されたフィールドと前の抽出器からまだ許容できる結果を取得していないフィールドに対してのみ実行されます。
重要:
If the Data Extraction Scope does not request any field from a given extractor, then that extractor is not executed. This may be the case of an extractor not configured for a certain incoming document type, or the case of an extractor being used as "fall-back" and the previous extractors reported all expected data already.
使用できる抽出器
ユース ケースの要件に基づいて、抽出器と呼ばれる複数のデータ抽出アルゴリズムから選択できます。
You can use any extractor that is available in the UiPath.IntelligentOCR.Activities or UiPath.DocumentUnderstanding.ML.Activities package.
使用できる抽出器は次のとおりです。
公開されている Document Processing Contracts を使用していつでも独自の抽出器を構築し、ユース ケースに適したアルゴリズムを実装できます。