- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- ML パッケージ
- パブリック エンドポイント
- 1040 (米国の個人所得税修正申告書) - ドキュメントの種類
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ドキュメントの種類
- (米国の個人所得税申告書のスケジュール D) - ドキュメントの種類
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ドキュメントの種類
- 1040x (米国の個人所得税修正申告書) - ドキュメントの種類
- 3949a (米国の課税・徴収漏れに関する情報提供フォーム) - ドキュメントの種類
- 4506T (米国の納税申告証明依頼書) - ドキュメントの種類
- 709 (米国の贈与税申告書) - ドキュメントの種類
- 941× (米国の雇用主による四半期連邦税修正申告書) - ドキュメントの種類
- 9465 (米国の分割納付申請書) - ドキュメントの種類
- ACORD125 (企業向け保険契約申込書) - ドキュメントの種類
- ACORD126 (企業総合賠償責任保険) - ドキュメントの種類
- ACORD131 (アンブレラ/エクセス保険) - ドキュメントの種類
- ACORD140 (商業保険申込書の財物補償条項) - ドキュメントの種類
- ACORD25 (賠償責任保険証明書) - ドキュメントの種類
- Bank Statements (銀行預金残高証明書) - ドキュメントの種類
- BillsOfLading (船荷証券) - ドキュメントの種類
- Certificate of Incorporation (会社存在証明書) - ドキュメントの種類
- Certificate of Origin (原産地証明書) - ドキュメントの種類
- Checks (小切手) - ドキュメントの種類
- Children's Product Certificate (子供向け製品証明書) - ドキュメントの種類
- CMS 1500 (米国の医療保険請求フォーム) - ドキュメントの種類
- EU Declaration of Conformity (EU 適合宣言書) - ドキュメントの種類
- Financial Statements (財務諸表) - ドキュメントの種類
- FM1003 (米国の統一住宅ローン申請書) - ドキュメントの種類
- I9 (米国の就労資格証明書) - ドキュメントの種類
- ID Cards (ID カード) - ドキュメントの種類
- Invoices (請求書) - ドキュメントの種類
- Invoices2 (請求書 2) - ドキュメントの種類
- InvoicesAustralia (請求書 - オーストラリア) - ドキュメントの種類
- Invoices China (請求書 - 中国) - ドキュメントの種類
- Invoices Hebrew (請求書 - ヘブライ語) - ドキュメントの種類
- Invoices India (請求書 - インド) - ドキュメントの種類
- Invoices Japan (請求書 - 日本) - ドキュメントの種類
- Invoices Shipping (船積送り状) - ドキュメントの種類
- Packing Lists (梱包明細書) - ドキュメントの種類
- Pay slips (給与明細) - ドキュメントの種類
- Passports (パスポート) - ドキュメントの種類
- Purchase Orders (発注書) - ドキュメントの種類
- Receipts (領収書) - ドキュメントの種類
- Receipts2 (領収書 2) - ドキュメントの種類
- Receipts Japan (領収書 - 日本) - ドキュメントの種類
- Remittance Advices (送金通知書) - ドキュメントの種類
- UB-04 (健康保険請求フォーム) - ドキュメントの種類
- US Mortgage Closing Disclosures (米国のローン契約締結開示説明書) - ドキュメントの種類
- Utility Bills (公共料金の請求書) - ドキュメントの種類
- Vehicle Titles (自動車の権利書) - ドキュメントの種類
- W2 (米国の源泉徴収票) - ドキュメントの種類
- W9 (米国の納税申告書) - ドキュメントの種類
- サポートされている言語
- データおよびセキュリティ
- ライセンスと請求ロジック
- 使い方
- トラブルシューティング

Document Understanding ガイド
ドキュメント処理を自動化するには、基本的機能として、デジタル化、分類、抽出、検証の 4 つが必要です。
デジタル化は、物理的なドキュメントを機械判読可能なテキストに変換し、デジタルで処理できるようにします。光学式文字認識 (OCR) はデジタル化の重要な部分です。デジタル化プロセスはより複雑で、OCR を含むさまざまな手順が関わります。
たとえば、PDF ドキュメントを扱う場合、デジタル化アルゴリズムにより、スキャンされた PDF とネイティブ PDF、またはスキャンされた画像とネイティブ テキストを含むハイブリッド PDF を区別できます。ほとんどのテキストはネイティブ PDF ドキュメントから直接抽出できますが、場合によっては、OCR を使用していくつかのロゴを読み取る必要があります。デジタル化プロセスはこうした状況をすべて扱うことができるため、テキスト検出の精度を最大限に高めると同時に、処理を迅速かつ効率的に実行できます。
You can change the OCR used in your project from Project settings. For more information, check the Configure project settings page. You can check the available OCR engines and the supported languages from the Supported languages section of the user guide.
You can check the Known limitations page for more information on the supported files, image size limits, and more specifications.
ほとんどのユース ケースでは、さまざまな処理方法を適用できるように、ドキュメントを論理的なカテゴリに分類する必要があります。
分類の目的は、ドキュメントをスキャンし、それが属するドキュメントの種類を決定することです。ドキュメントの種類が異なれば、必要な処理手法も異なるため、ドキュメントの種類を把握することは重要です。たとえば、請求書は請求書抽出モデルで処理する必要があります。関連するすべてのフィールドを確実に抽出するためです。
データ抽出は、ドキュメントから関連情報のみを選択して取得するプロセスです。文字列操作を使用して長いドキュメントから特定のデータを抽出するのはなかなか大変です。Document UnderstandingTM には異なるドキュメントの種類と形式に対してさまざまな抽出方法が用意されています。たとえば、請求書からベンダー名、請求先名、期限日、合計のフィールドだけを抽出したいとします。