document-understanding
latest
false
- 概要
- モデルを構築する
- モデルを使用する
- ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- パブリック エンドポイント
- サポートされている言語
- データおよびセキュリティ
- ライセンスと請求ロジック
- 使い方
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
Document Understanding ガイド
ドキュメントの種類
ドキュメントの種類は、さまざまな業務プロセスで処理する必要のある、ドキュメントの論理的な種類の定義です。
ドキュメントの種類には、請求書、医療記録、IRS フォーム W-2、契約書などがあります。ドキュメントの種類には通常、名前、グループ、カテゴリのほかに、フィールドのコレクションが含まれます。
たとえば、請求書には通常、次の情報が含まれています。
- Vendor Name (業者名)、Vendor Address (業者住所)、Billing Name (請求先宛名)、Billing Address (請求先住所)
- Invoice Number (請求書番号)、Purchase Order Number (発注書番号)、Payment Terms (支払条件)、Due Date (期限日)
- Net Amount (正味金額)、Tax Amount (税額)、Discount (割引)、Total Amount (合計金額)
- VAT Number (VAT 番号)、VAT Rate (VAT 率)
- 銀行の口座番号、銀行名、SWIFT、IBAN
図 1. 請求書の例
ドキュメントの種類は、形式に基づいて分類できます。非常に構造化されたコンテンツを持つドキュメントの種類もあれば、主にフリー テキストで構成されるドキュメントの種類もあります。
ドキュメントは、主に次の 3 つの形式に分類されます。
- Structured
- 半構造化
- 非構造化データ
注: ドキュメントは、多くの場合、これら 3 つのカテゴリが組み合わさっています。ファイルには、構造化された見出しの後に、構造化されていない自由形式のコンテンツを含めることができます。また、非常に構造化されたコンテキストまたは繰り返しのコンテキストで常に表示される特定の情報を含む非構造化コンテンツを含めることもできます。
構造化ドキュメントには、次のものが含まれます。
- アンケート
- アンケート
- 納税申告書
- Passports (パスポート)
- ライセンス
- タイム シート
これらのドキュメントは、特定の形式で情報を収集するように設計されています。通常、キーと値のペア、表、手書きのテキスト、署名、チェックボックスが含まれます。これらのドキュメントは、各データを入力する正確な領域を提示してユーザーをガイドします。このようなドキュメントは一般にフォームと呼ばれ、多様性の低いデータを収集するために使用されます。
図 2. 構造化ドキュメントの例として運転免許証
半構造化ドキュメントとは、構造化フォームのような厳密な形式に従わず、指定されたデータ フィールドに縛られないドキュメントです。これらは固定された形式を持っていませんが、一般的な形式に従います。テーブルのように固定部分と可変部分が含まれています。段落を含めることもできますが、データは主にキーと値のペアとして存在します。半構造化ドキュメントには、次のものが含まれます。
- Invoices (請求書)
- Receipts (領収書)
- Purchase Orders (発注書)
- 医療の臨床検査結果
- Bank Statements (銀行預金残高証明書)
- Utility Bills (公共料金の請求書)
図 3. 半構造化ドキュメントの例として請求書