- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
Document Understanding ガイド
Document Understanding アクティビティ
DocumentUnderstanding.Activities では、Document UnderstandingTM プロセスから得られたすべての情報を 1 つの Document Data オブジェクト内に格納することで、統一された方法でドキュメントを管理できます。さらに、DocumentUnderstanding.Activities はモダン プロジェクトと連携しているため、再利用が可能です。
ドキュメントを処理するには、PDF ファイルを抽出用に準備する必要があります。Document Understanding アクティビティを使用して、以下を実行できます。
- テキスト、画像、特定のページを抽出したり、複数の PDF を結合したりする。
- 暗号化された PDF ドキュメントのパスワードを変更する。
Document Understanding アクティビティで PDF ファイルを処理するには、以下のアクティビティを使用します。
アクティビティ | 説明 |
---|---|
PDF のパスワードを設定 | 指定した PDF ファイルのパスワードを変更します。 |
PDF を結合 | ファイル オブジェクトのコレクションを結合します。 |
PDF のページ数を取得 | PDF ファイルの総ページ数を指定します。 |
PDF のテキストを抽出 | PDF ドキュメントからテキストを抽出します。 |
PDF の画像を抽出 | このアクティビティは、PDF ファイルで見つかるすべての画像を抽出します。 |
PDF のページ範囲を抽出 | PDF ドキュメントの指定したページ範囲を抽出します。 |
[ドキュメント データを抽出] アクティビティを使用すると以下のことができます。
- Document Data オブジェクトとして保存された入力ファイルからデータを抽出する。
- 抽出結果を同じ Document Data オブジェクトに格納する。
ドキュメント データは、Document Understanding ワークフロー内で入力変数および出力変数の両方として機能するリソースです。Document Data オブジェクトは、1 つのドキュメントに関する必要な情報をすべて保持します。ドキュメントを分類する場合、このオブジェクトにはドキュメントの種類が含まれます。データを抽出する場合は、対応する抽出されたフィールドが含まれます。アクティビティに関係なく、ドキュメントのテキストと DOM (ドキュメント オブジェクト モデル) は常に含まれます。
ファイルを入力として指定するのは、[ドキュメント データを抽出] を初めて使用するときだけです。出力 (ドキュメント データ) をワークフロー全体で再利用し、同じファイルが再デジタル化されないようにする必要があります。再デジタル化にはページあたり 1 AI ユニットのコストがかかります。
詳しくは、「ドキュメント データ」をご覧ください。
[ドキュメントを分類] アクティビティを使用して、以下を実行します。
- さまざまな分類モデルから選択する。
- 分類したデータを Document Data オブジェクトに出力する。
ドキュメント処理の検証手順では、処理されたドキュメントを送信して、Action Center 内でチームのメンバーとともに検証します。以下のアクティビティを使用して、Action Center でのドキュメント検証プロセスを構成することもできます。
アクティビティ | 説明 |
---|---|
検証タスクを作成 | 検証アクションを作成し、ワークフローが完了するまで検証を中断します。 |
検証タスク完了まで待機し再開 | 検証が完了するまでアクションを一時停止し、検証後に自動的に再開します。 |
検証タスクを作成して待機 | Action Center 内に抽出結果を視覚化および変更するためのアクションを作成し、アクションが完了するまでワークフローを一時停止します。 |
分類の検証タスクを作成 | 分類されたドキュメント データを確認するアクションを作成します。ただし、アクションが完了するまで待機しません。 |
分類の検証タスクを作成して待機 | 分類されたデータを確認するアクションを作成し、アクションが完了するまで待機してからワークフローを再開します。 |
分類の検証タスク完了まで待機し再開 | 分類の検証アクションが完了するまで待機してから、ワークフローを再開します。 |