- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- Receipts Japan - ML package
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- パブリック エンドポイント
- サポートされている言語
- Insights のダッシュボード
- データおよびセキュリティ
- ライセンス
- 使い方
Document Understanding モダン プロジェクト ユーザー ガイド
基本機能
ドキュメント処理を自動化するには、基本的機能として、デジタル化、分類、抽出、検証の 4 つが必要です。
デジタル化は、物理的なドキュメントを機械判読可能なテキストに変換し、デジタルで処理できるようにします。光学式文字認識 (OCR) はデジタル化の重要な部分です。デジタル化プロセスはより複雑で、OCR を含むさまざまな手順が関わります。
たとえば、PDF ドキュメントを扱う場合、デジタル化アルゴリズムにより、スキャンされた PDF とネイティブ PDF、またはスキャンされた画像とネイティブ テキストを含むハイブリッド PDF を区別できます。ほとんどのテキストはネイティブ PDF ドキュメントから直接抽出できますが、場合によっては、OCR を使用していくつかのロゴを読み取る必要があります。デジタル化プロセスはこうした状況をすべて扱うことができるため、テキスト検出の精度を最大限に高めると同時に、処理を迅速かつ効率的に実行できます。
- 分割
- 分類
分割の目的は、ドキュメントの連続ページをスキャンし、それらを論理サブドキュメントに分割することです。ドキュメント分割アルゴリズムは、ドキュメントの種類に依存させないことができます。つまり、請求書、契約書、申請書のいずれであっても、任意のドキュメントを分割できます。
分類の目的は、ドキュメントをスキャンし、それが属するドキュメントの種類を決定することです。ドキュメントの種類が異なれば、必要な処理手法も異なるため、ドキュメントの種類を把握することは重要です。たとえば、請求書は請求書抽出モデルで処理する必要があります。関連するすべてのフィールドを確実に抽出するためです。
データ抽出は、ドキュメントから関連情報のみを選択して取得するプロセスです。文字列操作を使用して長いドキュメントから特定のデータを抽出するのはなかなか大変です。Document UnderstandingTM には異なるドキュメントの種類と形式に対してさまざまな抽出方法が用意されています。たとえば、請求書からベンダー名、請求先名、期限日、合計のフィールドだけを抽出したいとします。