- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
フォームからデータを抽出する
このページは、Document UnderstandingTM を初めて使用するユーザーに Document Understanding の機能を分かりやすく紹介するためのページです。
スケーラブルな運用環境のデプロイの場合は、 UiPath® Studio の [テンプレート] セクションで利用可能な Document Understanding Process を使用することを強くお勧めします。
このクイックスタート ガイドでは、[インテリジェント フォーム抽出器] アクティビティを使用して W9 (米国の納税申告書) フォームから情報を抽出するために必要な手順について説明します。例として W9 (米国の納税申告書) フォームが使用されていますが、データが構造化されている他の種類のドキュメントでも同様の手順を行います。
ゼロから始める場合、以下の手順に従う必要があります。
- 空のプロセスを作成する
- 必要なアクティビティ パッケージをインストールする
- タクソノミーを作成する
- ドキュメントをデジタル化する
- [インテリジェント フォーム抽出器] アクティビティを使用してデータを抽出する
- 検証ステーションを使用して結果を検証する
- 抽出結果をエクスポート
次に、各ステップについて詳しく説明します。
UiPath Studio を起動します。
[ホーム] の Backstage ビューで [プロセス] をクリックして、新しいプロジェクトを作成します。
[新しい空のプロセス] ウィンドウが表示されます。このウィンドウで、新しいプロジェクトの名前を入力します。プロジェクトを簡単に見つけられるように、必要に応じてプロジェクトの説明を追加することもできます。
[作成] をクリックします。新しいプロジェクトが Studio で開きます。
既定でプロジェクトに追加されるコア アクティビティ パッケージ (UiPath.Excel.Activities、UiPath.Mail.Activities、UiPath.System.Activities、UiPath.UIAutomation.Activities) に加えて、リボンの [パッケージを管理] ボタンから、次のアクティビティ パッケージをインストールします。
アクティビティ パッケージをインストールしたら、必要なフィールドをリストアップします。この例では、以下のフィールドのデータを抽出します。
- 1_Name -
Text
- 2_BusinessName -
Text
- 3a_Individual -
Boolean
- 3b_CCorp -
Boolean
- 3c_SCorp -
Boolean
- 3d_Partnership -
Boolean
- 3e_TrustEstate -
Boolean
- 3f_LLC -
Boolean
- 3f_LLCTaxClassification -
Boolean
- 3g_Other -
Boolean
- 3g_OtherDetail -
Boolean
- 5_Address -
Text
- 6_CityStateZip -
Text
- 7_AcctNumber -
Text
- TIN_SSN -
Text
- TIN_ETN -
Text
- Certification_Signature -
Boolean
- Certification_SignatureDate -
Date
[タクソノミー マネージャー] を開き、「Structured Documents (構造化されたドキュメント)」という名前のグループ、「Lending Forms (融資フォーム)」という名前のカテゴリ、「W-9 (米国の納税申告書)」という名前のドキュメントの種類を作成します。先日リストアップしたフィールドを、それぞれのデータ型とともに分かりやすい名前で作成します。
Main.xaml ファイルに [タクソノミーを読み込み] アクティビティを追加し、タクソノミー データの出力用の変数を作成します。
[ドキュメントをデジタル化] アクティビティを追加し、[UiPath Document OCR] を配置します。入力プロパティの [ドキュメント パス] を指定し、[ドキュメント テキスト] および [ドキュメント オブジェクト モデル] の出力変数を作成します。
[UiPath Document OCR] アクティビティに Document Understanding の API キーを追加します。
[データ抽出スコープ] アクティビティを追加し、プロパティを入力します。
その中に [インテリジェント フォーム抽出器] アクティビティをドラッグ アンド ドロップします。インテリジェント フォーム抽出器のエンドポイント「https://du.uipath.com/svc/intelligentforms」が自動入力されます。Document Understanding の API キーを入力します。
その後、新しいテンプレートを作成します。[テンプレートを管理] > [テンプレートを作成] をクリックします。ポップアップ ウィンドウが開きます。
[ドキュメントの種類] で前の手順で作成した「W9 (米国の納税申告書)」を選択します。
[ドキュメント名] にテンプレートの名前を入力します。
[テンプレート ドキュメント] (可能な場合はネイティブ PDF)] で、フィールドの位置をマップするテンプレート ドキュメントを添付します。
[OCR エンジン] で [UiPath Document OCR] を再度選択します。これまでと同様にエンドポイント「https://du.uipath.com/ocr」が自動入力されます。あとは API キーを入力するだけです。
[設定] をクリックして次の手順に進みます。[テンプレート マネージャー] ポップアップ ウィンドウが開きます。
ここでは、インテリジェント フォーム抽出器でフィールドを検索する領域を選択する必要があります。詳しい手順については、こちらをご覧ください。フィールドのアンカーを使用することもできます。アンカーについて詳しくは、こちらをご覧ください。
最終的に画面は次のようになります。
[保存] をクリックします。この画面では、必要に応じて手書きまたは署名のフィールドを定義できます。Boolean フィールドの類義語を定義することもできます。設定が完了したらウィンドウを閉じます。
次に抽出器を設定します。これはつまり、インテリジェント フォーム抽出器がすべての W9 (米国の納税申告書) ドキュメントを処理するように設定するということです。
抽出結果を検証ステーションで確認するには、[検証ステーションを提示] アクティビティをドラッグ アンド ドロップして、入力の詳細を入力します。
DataSet
に結果が出力されます。この出力には複数の表が含まれており、Excel ファイルに書き込んだり下流工程で直接使用したりできます。
[インテリジェント フォーム抽出器] アクティビティを使用する W9 (米国の納税申告書) のワークフローを実行するサンプル プロジェクトは、こちらからダウンロードできます。