Document Understanding
2022.4
バナーの背景画像
Document Understanding ガイド
最終更新日 2024年3月13日

フォームからデータを抽出する

重要:

このページは、Document Understanding を初めて使用するユーザーに Document Understanding の機能を分かりやすく紹介するためのページです。

運用環境へのスケーラブルなデプロイを実現するには、UiPath Studio の [テンプレート] セクションにある Document Understanding Process を使用することを強くお勧めします。

このクイックスタート ガイドでは、[インテリジェント フォーム抽出器] アクティビティを使用して W9 (米国の納税申告書) フォームから情報を抽出するために必要な手順について説明します。例として W9 (米国の納税申告書) フォームが使用されていますが、データが構造化されている他の種類のドキュメントでも同様の手順を行います。

ゼロから始める場合、以下の手順に従う必要があります。

  1. 空のプロセスを作成する
  2. 必要なアクティビティ パッケージをインストールする
  3. タクソノミーを作成する
  4. ドキュメントをデジタル化する
  5. [インテリジェント フォーム抽出器] アクティビティを使用してデータを抽出する
  6. 検証ステーションを使用して結果を検証する
  7. 抽出結果をエクスポート

次に、各ステップについて詳しく説明します。

1. 空のプロセスを作成する

UiPath Studio を起動します。

[ホーム] の Backstage ビューで [プロセス] をクリックして、新しいプロジェクトを作成します。

[新しい空のプロセス] ウィンドウが表示されます。このウィンドウで、新しいプロジェクトの名前を入力します。プロジェクトを簡単に見つけられるように、必要に応じてプロジェクトの説明を追加することもできます。

[作成] をクリックします。新しいプロジェクトが Studio で開きます。

2. 必要なアクティビティ パッケージをインストールする

既定でプロジェクトに追加されるコア アクティビティ パッケージ (UiPath.Excel.Activities、UiPath.Mail.Activities、UiPath.System.Activities、UiPath.UIAutomation.Activities) に加えて、リボンの [パッケージを管理] ボタンから、次のアクティビティ パッケージをインストールします。

3. タクソノミーを作成する

アクティビティ パッケージをインストールしたら、必要なフィールドをリストアップします。この例では、以下のフィールドのデータを抽出します。

  • 1_Name - Text
  • 2_BusinessName - Text
  • 3a_Individual - Boolean
  • 3b_CCorp - Boolean
  • 3c_SCorp - Boolean
  • 3d_Partnership - Boolean
  • 3e_TrustEstate - Boolean
  • 3f_LLC - Boolean
  • 3f_LLCTaxClassification - Boolean
  • 3g_Other - Boolean
  • 3g_OtherDetail - Boolean
  • 5_Address - Text
  • 6_CityStateZip - Text
  • 7_AcctNumber - Text
  • TIN_SSN - Text
  • TIN_ETN - Text
  • Certification_Signature - Boolean
  • Certification_SignatureDate - Date

[タクソノミー マネージャー] を開き、「Structured Documents (構造化されたドキュメント)」という名前のグループ、「Lending Forms (融資フォーム)」という名前のカテゴリ、「W9 (米国の納税申告書)」という名前のドキュメントの種類を作成します。先ほどリストアップしたフィールドを、それぞれのデータ型とともに分かりやすい名前で作成します。



4. ドキュメントをデジタル化する

Main.xaml ファイルに [タクソノミーを読み込み] アクティビティを追加し、タクソノミー データの出力用の変数を作成します。

[ドキュメントをデジタル化] アクティビティを追加し、[UiPath ドキュメント OCR] を配置します。入力プロパティの [ドキュメント パス] を指定し、[ドキュメント テキスト] および [ドキュメント オブジェクト モデル] の出力変数を作成します。

[UiPath ドキュメント OCR] アクティビティに Document Understanding の API キーを追加します。

5. [インテリジェント フォーム抽出器] アクティビティを使用してデータを抽出する

[データ抽出スコープ] アクティビティを追加し、プロパティを入力します。

その中に [インテリジェント フォーム抽出器] アクティビティをドラッグ アンド ドロップします。インテリジェント フォーム抽出器のエンドポイント「https://du.uipath.com/svc/intelligentforms」が自動入力されます。Document Understanding の API キーを入力します。

その後、新しいテンプレートを作成します。[テンプレートを管理] > [テンプレートを作成] をクリックします。ポップアップ ウィンドウが開きます。

[ドキュメントの種類] で前の手順で作成した「W9 (米国の納税申告書)」を選択します。

[ドキュメント名] にテンプレートの名前を入力します。

[テンプレート ドキュメント] (可能な場合はネイティブ PDF)] で、フィールドの位置をマップするテンプレート ドキュメントを添付します。

[OCR エンジン][UiPath Document OCR] を再度選択します。これまでと同様にエンドポイント「https://du.uipath.com/ocr」が自動入力されます。あとは API キーを入力するだけです。

[設定] をクリックして次の手順に進みます。[テンプレート マネージャー] ポップアップ ウィンドウが開きます。

ここでは、インテリジェント フォーム抽出器でフィールドを検索する領域を選択する必要があります。詳しい手順については、こちらをご覧ください。フィールドのアンカーを使用することもできます。アンカーについて詳しくは、こちらをご覧ください。

最終的に画面は次のようになります。



[保存] をクリックします。この画面では、必要に応じて手書きまたは署名のフィールドを定義できます。Boolean フィールドの類義語を定義することもできます。設定が完了したらウィンドウを閉じます。



次に抽出器を設定します。これはつまり、インテリジェント フォーム抽出器がすべての W9 (米国の納税申告書) ドキュメントを処理するように設定するということです。



6. 検証ステーションを使用して結果を検証する

抽出結果を検証ステーションで確認するには、[検証ステーションを提示] アクティビティをドラッグ アンド ドロップして、入力の詳細を入力します。



7. 抽出結果をエクスポートする

検証済みか否かに関わらず抽出結果をエクスポートするには、[抽出結果をエクスポート] アクティビティをワークフローの最後にドラッグ アンド ドロップします。これにより、DataSet に結果が出力されます。この出力には複数の表が含まれており、Excel ファイルに書き込んだり下流工程で直接使用したりできます。


サンプルをダウンロードする

[インテリジェント フォーム抽出器] アクティビティを使用する W9 (米国の納税申告書) のワークフローを実行するサンプル プロジェクトは、こちらからダウンロードできます。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.