- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- ML パッケージ
- パブリック エンドポイント
- 1040 (米国の個人所得税修正申告書) - ドキュメントの種類
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ドキュメントの種類
- (米国の個人所得税申告書のスケジュール D) - ドキュメントの種類
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ドキュメントの種類
- 1040x (米国の個人所得税修正申告書) - ドキュメントの種類
- 3949a (米国の課税・徴収漏れに関する情報提供フォーム) - ドキュメントの種類
- 4506T (米国の納税申告証明依頼書) - ドキュメントの種類
- 709 (米国の贈与税申告書) - ドキュメントの種類
- 941× (米国の雇用主による四半期連邦税修正申告書) - ドキュメントの種類
- 9465 (米国の分割納付申請書) - ドキュメントの種類
- ACORD125 (企業向け保険契約申込書) - ドキュメントの種類
- ACORD126 (企業総合賠償責任保険) - ドキュメントの種類
- ACORD131 (アンブレラ/エクセス保険) - ドキュメントの種類
- ACORD140 (商業保険申込書の財物補償条項) - ドキュメントの種類
- ACORD25 (賠償責任保険証明書) - ドキュメントの種類
- Bank Statements (銀行預金残高証明書) - ドキュメントの種類
- BillsOfLading (船荷証券) - ドキュメントの種類
- Certificate of Incorporation (会社存在証明書) - ドキュメントの種類
- Certificate of Origin (原産地証明書) - ドキュメントの種類
- Checks (小切手) - ドキュメントの種類
- Children's Product Certificate (子供向け製品証明書) - ドキュメントの種類
- CMS 1500 (米国の医療保険請求フォーム) - ドキュメントの種類
- EU Declaration of Conformity (EU 適合宣言書) - ドキュメントの種類
- Financial Statements (財務諸表) - ドキュメントの種類
- FM1003 (米国の統一住宅ローン申請書) - ドキュメントの種類
- I9 (米国の就労資格証明書) - ドキュメントの種類
- ID Cards (ID カード) - ドキュメントの種類
- Invoices (請求書) - ドキュメントの種類
- InvoicesAustralia (請求書 - オーストラリア) - ドキュメントの種類
- Invoices China (請求書 - 中国) - ドキュメントの種類
- Invoices Hebrew (請求書 - ヘブライ語) - ドキュメントの種類
- Invoices India (請求書 - インド) - ドキュメントの種類
- Invoices Japan (請求書 - 日本) - ドキュメントの種類
- Invoices Shipping (船積送り状) - ドキュメントの種類
- Packing Lists (梱包明細書) - ドキュメントの種類
- Pay slips (給与明細) - ドキュメントの種類
- Passports (パスポート) - ドキュメントの種類
- Purchase Orders (発注書) - ドキュメントの種類
- Receipts (領収書) - ドキュメントの種類
- Receipts Japan (領収書 - 日本) - ドキュメントの種類
- Remittance Advices (送金通知書) - ドキュメントの種類
- UB-04 (健康保険請求フォーム) - ドキュメントの種類
- Utility Bills (公共料金の請求書) - ドキュメントの種類
- Vehicle Titles (自動車の権利書) - ドキュメントの種類
- W2 (米国の源泉徴収票) - ドキュメントの種類
- W9 (米国の納税申告書) - ドキュメントの種類
- サポートされている言語
- データおよびセキュリティ
- ライセンスと請求ロジック
- 使い方
- トラブルシューティング

Document Understanding ガイド
プロジェクトが正常に作成され、ドキュメントを特定のドキュメントの種類にアップロードすると、ドキュメントに自動的にアノテーションが行われます。これは、ドキュメントの種類のスキーマに基づいて、専門化されたモデルを使用して行われます。このスキーマでは、特定のドキュメントの種類から抽出するフィールドが明確に定義されています。ドキュメントの種類のスキーマを確認するには、[アノテーション] ページに移動して [フィールド] セクションを確認します。
予測はドキュメント内のテキストに下線付きで示され、削除できません。予測が間違っていて、特定のフィールドに一致させることができない場合は、無視してかまいません。トレーニング プロセスでは、確認済みのフィールドのみがトレーニングに使用され、下線は考慮されません。
アノテーションを追加で行っていくうちに、予測の下線部分が徐々に入力内容と一致していきます。下線部分とユーザーがアノテーションを行ったフィールドとの間に最初からほとんど不整合がない場合もあります。ただし、さらにアノテーションを行ってモデルが改善されていくと、下線部分は、ユーザーが提供したデータとより正確に一致するようになります。
次の画像では、配送先住所の予測に誤りがあり、人名まで含まれています。
これを修正するには、配送先住所を確認するだけです。名前に関連する下線付きのテキストを削除する必要はありません。アノテーションを続行してこのようなエラーを修正していくと、下線付きのテキストが確認済みのフィールドと一致しないケースが減っていきます。
[抽出ビュー] メニューを使用して、抽出ビューのモードを変更できます。このモードにアクセスするには、ドキュメントの種類名の右側にある 3 点リーダー メニューのアイコン ⁝ を選択して、[抽出ビュー] を選択します。
フィルター処理された値は、予測 (読み取り専用) とアノテーション (ユーザーが編集可能) で構成されます。
- 列でマージ: モデルの予測は、アノテーションのない列に表示されます。列全体を表示して検証できる小さな表の場合に選択します。
- 行でマージ: モデルの予測は、アノテーションのない行に表示されます。表が大きく、1 行ずつ検証する場合に選択します。
- 確認済みのみ: ユーザーが確認したアノテーションの抽出値のみを表示します。
- 予測のみ: モデルの予測のみを表示します。モデルの再トレーニング時に自動的に更新され、編集できません。
- サイド パネルを表示: パネルをアノテーション フィールドとともに左側に表示します。
- 表を表示: 表のアノテーション パネルを表示します。
ドキュメントをすべてアップロードして予測が完了したら、事前アノテーション済みのフィールドを検証または変更することが目標になります。すべてのフィールドが正確に予測されたドキュメントの場合は、[確認] を選択して、すべてのフィールドを一度に承認します。ドキュメントの確認が完了すると、ドキュメント リストで緑色の盾のマークが付きます。
ドキュメントが部分的にしか確認されていない場合は、ドキュメント リストで空の盾の記号が付きます。この記号は、この特定のドキュメントのアノテーション プロセスが進行中であることを示します。最終的な目標は、すべてのドキュメントを確認済みにすることです。
- 予測は正確であり、検証する必要がある
- 予測に誤りがあり、フィールドがドキュメントに存在する
- 予測に誤りがあり、フィールドがドキュメントに存在しない
- 予測がない
予測は正確であり、検証する必要がある
予測に誤りがあり、フィールドがドキュメントに存在する
予測が正しくない場合は、ドキュメントから正しいテキストを選択して、ドロップダウンから適切なフィールドを選択し、[確認] を選択します。
表を操作するときに、誤って予測された値を無視するよう選択できます。これらの値はモデルのトレーニングに使用されなくなります。また、再トレーニングされたモデルは、今後の反復処理でこれらの値を予測しないように学習します。
予測に誤りがあり、フィールドがドキュメントに存在しない
予測がない
予測がないフィールドは、空のセルとして表示されます。このようなセルは、存在しないものとして 1 つずつマークを付けることも、[確認] ボタンを選択して一括でマークを付けることもできます。
ドキュメントの種類の設定は、[アノテーションを行う] ビューから変更できます。
そのためには、ドキュメントの種類名の右側にある 3 点リーダー メニューのアイコン ⁝ を選択して、[設定] を選択します。
- ベース モデル: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、トレーニングに使用されるベース モデルによって異なります。対象のドキュメントの種類に最も類似したベース モデルを使用すると、必要とされるアノテーション作業量が減ります。
- 言語の数: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、データセットに含まれる言語の数によって異なります。一般には、言語の数が多いほど、より多くのデータのアノテーションを行う必要があります。