- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
Document Understanding ガイド
フォーム抽出器
フォーム抽出器は、非可変形式のドキュメントを、それらから抽出したデータを使用して処理する必要がある場合に最適な抽出アプローチです。言い換えれば、ドキュメントのレイアウトにほとんど、またはまったく変化がない場合、フォーム抽出器はよい選択肢です。
フォーム抽出器では、設計段階で事前に定義されたテンプレートを使用します。複雑な一連のルールに沿って、処理対象のドキュメントに設定済みのテンプレートが適用され、目的の情報の識別と報告が行われます。
このアクティビティは、手書き認識、および手書きデータの抽出または署名の検出に使用できます。これらの機能により、フォーム抽出器は、活字または手書きのフォームを処理する場合や、フォームが署名されているかどうかを確認する必要がある場合に非常に適した機能になります。
このアクティビティには設定ウィザードが用意されており、データを抽出するドキュメントの種類とフィールドのテンプレートを定義できます。
このアクティビティは、単純フィールドと表フィールドの両方のデータ抽出をサポートしています。
以下の場合は、他の抽出方法を検討することをお勧めします。
- 多くのレイアウトを処理する必要がある場合
- ドキュメントに傾斜、回転、サイズの違いがあるだけでなく、「歪み」(特定領域が湾曲している) も見られる場合
注:
固定フォーム抽出の場合、2 つのファイルのレイアウトが同じかどうかを評価するには、ある程度の透明度を持たせて、ツールでそれらを重ねてみて、(回転および傾斜を解除し、2 つの画像を同じスケールにした後に) すべての非可変コンテンツが重なるかどうかを確認します。
ばらつきが見つかった場合 (非可変コンテンツは、ドキュメントの特定領域の左/右/上/下により多く表示されます)、レイアウトは同じとは見なされません。
フォーム抽出器を使用すると、同じドキュメントの種類に複数のテンプレートを定義し、実行時に以下を行うことができます。
- 受け取るドキュメントおよびドキュメントの種類に最も適合するテンプレートを特定します。
- ページ レベルのアンカーに基づいて、抽出するデータが存在する各ページにテンプレート一致アルゴリズムを適用します (ページの欠落や繰り返しはサポートされていません)。
- すべてのフィールドレベルのアンカー設定を各ページに適用し、潜在的な一致に関連付けられた値をキャプチャします。
- 対象の値領域から特定された情報を報告します。
チェックボックス/ブール値フィールドの処理の微調整もサポートされており、ユース ケースに応じて「はい」または「いいえ」の「類義語」を設定できます。
この抽出器には学習 (トレーニング) 機能はなく、設定が必要です。
この抽出器を使用するには、Automation Cloud Document Understanding の API キーを使用するか、オンプレミスの AI Center でフォーム抽出器の独自インスタンスをホストする必要があります。
テンプレート エディターでアンカー機能を使用できるようになったため、固定のドキュメントの種類に含まれる単純フィールドに、アンカーベースのデータ抽出ルールを定義できます。アンカーの使用および設定について詳しくは、こちらをご覧ください。