UiPath Documentation
document-understanding
2023.10
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。

Document Understanding ガイド

最終更新日時 2026年4月6日

請求書のフィールドを 1 つ追加して再トレーニングする

重要:

このページは、Document Understanding TM を初めて使用するユーザーに Document Understanding TM の機能を分かりやすく紹介するためのページです。

運用環境へのスケーラブルなデプロイを実現するには、UiPath® Studio の [テンプレート] セクションにある Document Understanding Process を使用することを強くお勧めします。

このクイックスタート チュートリアルでは、すぐに使える Invoices (請求書) ML モデルに抽出フィールドを 1 つ追加する再トレーニングの方法について説明します。

クイックスタート チュートリアル「領収書からデータを抽出する」の領収書に使用したワークフローと同じワークフローを、請求書にも使用できるように変更してみましょう。

そのためには、ワークフローで以下の手順を実行する必要があります。

  1. タクソノミーを変更する
  2. 分類器を追加する
  3. マシン ラーニング抽出器を追加する
  4. データをラベル付けする
  5. Invoices (請求書) ML モデルを再トレーニングする

1. タクソノミーを変更する

この手順では、タクソノミーを変更しドキュメントの種類として請求書を追加する必要があります。

そのためには、 タクソノミー マネージャー を開き、「 半構造化ドキュメント」という名前のグループ、「 財務」という名前のカテゴリ、「 請求書」という名前のドキュメントの種類を作成します。わかりやすい名前とそれぞれのデータ型を使用して、リストされたフィールドを作成します。

  • name - Text
  • vendor-addr - Address
  • billing-name - Text
  • billing-address - Address
  • shipping-address - Address
  • invoice-no - Text
  • po-no - Text
  • vendor-vat-no - Text
  • date - Date
  • tax - Number
  • total - Number
  • payment-terms - Text
  • net-amount - Number
  • due-date - Date
  • discount - Number
  • shipping-charges - Number
  • payment-addr - Address
  • description - Text
  • items - Table
    • description - Text
    • quantity - Number
    • unit-price - Number
    • line-amount - Number
    • item-po-no - Text
    • line-no - Text
    • part-no - Text
    • billing-vat-no - Text

2. 分類器を追加する

この手順では、ワークフローで領収書と請求書の両方を処理できるように分類器を追加する必要があります。

ワークフローで「Receipts (領収書)」と「Invoices (請求書)」の 2 つのドキュメントの種類を処理できるようにするためには、分類器を追加して入力データとして使用されるドキュメントの種類を区別できるようにする必要があります。

  1. [ ドキュメントをデジタル化] アクティビティの後に [ ドキュメント分類スコープ] を追加し、入力引数として[ドキュメント パス]、[ ドキュメント テキスト]、[ ドキュメント オブジェクト モデル]、および[タクソノミー] を指定し、 分類結果を 新しい変数に保存します。この変数は、処理するドキュメントの種類を確認するために必要です。
  2. また、1 つ以上の分類器を指定する必要があります。この例では、 インテリジェント キーワード分類器を使用します。これを [ ドキュメント分類スコープ ] アクティビティに追加します。このページは、さまざまなシナリオでどの分類方法を使用すべきかについて、知識に基づいた判断を下すのに役立ちます。
  3. こちらの手順に従って分類器をトレーニングします。
  4. 両方のドキュメントの種類に対して分類器を有効化します。
  5. ユースケースに応じて、分類結果を検証します。[ 分類ステーションを提示 ] アクティビティ、または [ドキュメント分類アクションを作成 ] アクティビティと [ ドキュメント分類アクション完了まで待機し再開] アクティビティを使用します。

3. マシン ラーニング抽出器を追加する

この手順では、[ データ抽出スコープ] アクティビティに[マシン ラーニング抽出器] アクティビティを追加して、 Invoices (請求書) のパブリック エンドポイントに接続する必要があります。

手順は、Receipts (領収書) のマシン ラーニング抽出器を追加した手順とまったく同じです。

  1. Receipts (領収書) の [マシン ラーニング抽出器] アクティビティの横に [マシン ラーニング抽出器] アクティビティをもう 1 つ追加します。

  2. Invoices (請求書) のパブリック エンドポイント (https://du.uipath.com/ie/invoices) と、抽出器の API キーを指定します。

  3. 請求書のデータを抽出できるように、タクソノミー マネージャーで作成したフィールドを ML モデルで使用可能なフィールドにマッピングして、抽出器の設定を行います。

  4. [データ抽出スコープ] の入力として、[ドキュメントの種類の ID] を指定するのではなく [ドキュメント分類スコープ] によって出力される ClassificationResults 変数を使用します。 最終的に画面は次のようになります。

  5. ワークフローを実行して、請求書のデータが正しく抽出されるかをテストします。

4. データをラベル付けする

Invoices (請求書) ML モデルで新しい IBAN フィールドが処理されるようにするには、ベース モデルを再トレーニングする前にデータをラベル付けする必要があります。

  1. ユースケースの複雑さの度合いに応じて、要件と十分な量の請求書ドキュメントのサンプルを収集します。こちらに記載されているように、50 ページのラベル付けを行います。
  2. オンプレミスまたはクラウド上の AI Center の Document Manager インスタンスにアクセスします。Document Manager を使用する権限が付与されていることを確認してください。
  3. AI Center プロジェクトを作成し、 [データのラベル付け] > [UiPath Document Understanding] に移動して、データのラベル付けセッションを作成します。
  4. こちらの手順に従って OCR エンジンを設定し、幅広い種類の運用環境のドキュメントのセットをインポートして、その OCR エンジンで抽出対象のテキストが読み取られるかどうかを確認します。 この手順に関する提案については、こちらをご覧ください。使用する OCR エンジンを決定してから、次の手順に進みます。
  5. 新しい Document Manager セッションを作成し、トレーニング セットと評価セットをインポートします。同時に、評価セットをインポートする際に [ これをテスト セットにする ] チェックボックスを必ずオンにします。インポートについて詳しくは、 こちらをご覧ください
  6. こちらの手順に従って IBAN フィールドを作成して設定します。このセクションでは、より高度なガイドラインを示します。
  7. こちらの説明に従って、トレーニング データセットと評価データセットをラベル付けします。こちらに記載されている Document Manager の事前ラベル付け機能を使用すると、より簡単にラベル付け作業が行えます。
  8. 最初に評価セットをエクスポートし、次にトレーニング セットを AI Center にエクスポートします。この場合、[Document Manager] ビューの上部にあるフィルター ドロップダウンからトレーニング セットを選択します。エクスポートについて詳しくは、 こちらをご覧ください

次に、モデルを作成し、再トレーニングしてデプロイします。

5. Invoices (請求書) ML モデルを再トレーニングする

ワークフローで請求書を処理できるようになったため、次は請求書から IBAN を抽出できるようにする必要があります。IBAN フィールドは、すぐに使える Invoices (請求書) ML モデルでは既定で抽出されません。つまり、ベース モデルを使用して再トレーニングを行う必要があります。

  1. こちらの手順に従って ML パッケージを作成します。ドキュメントの種類がすぐに使えるドキュメントの種類と異なる場合は、 DocumentUnderstanding (ドキュメントの理解 ) ML パッケージを選択します。それ以外の場合は、抽出する必要があるドキュメントの種類に最も近いパッケージを使用します。
  2. こちらの手順に従って、前述のセクションで Document Manager からエクスポートした入力データセットを使用して、トレーニング パイプラインを作成します。
  3. トレーニングが完了し、パッケージのマイナー バージョン 1 が作成されたら、このマイナー バージョンで評価パイプラインを実行し、evaluation.xlsxを並べて比較を検証します。こちらの詳細なガイドラインに従ってください。
  4. 評価結果に問題がなければ、ML スキル ビューに移動し、ML パッケージの新しいマイナー バージョンを使用して ML スキルを作成します。このスキルを使用して Document Manager で事前ラベル付けを行う場合は、ML スキル ビューの右上にある [現在のデプロイを変更] ボタンを選択し、[ML スキルを公開] トグルをオンにする必要があります。
  5. ML スキルを作成したら、Studio で使用できるようにする必要があります。最も簡単なのは、こちらの手順に従って ML スキルを公開する方法です。最後に、ワークフローの [マシン ラーニング抽出器] アクティビティに最初に追加した Invoices (請求書) ML モデルのパブリック エンドポイントを、使用する ML スキルのパブリック エンドポイントで置き換えれば完了です。
  6. ワークフローを実行します。請求書の既定のフィールドに加えて、新たに追加した IBAN フィールドが抽出されることが確認できます。

サンプルをダウンロードする

このサンプル プロジェクトはこちらからダウンロードできます。 Invoices (請求書) の [マシン ラーニング抽出器] アクティビティを、エンドポイント モードからトレーニング済みの ML スキルに変更する必要があります。

このページは役に立ちましたか?

接続

ヘルプ リソース サポート

学習する UiPath アカデミー

質問する UiPath フォーラム

最新情報を取得