Document Understanding ガイド

デリバリー:

最終更新日時 2025年2月4日

ML パッケージについて

Document Understanding ML パッケージを使用するには、以下の手順を実行します。

ドキュメントのサンプルと、抽出が必要なデータポイントの要件を収集します。
Data Manager を使用して、ドキュメントにラベル付けします。
Data Manager 自体は OCR サービスに接続します。
ラベル付けされたドキュメントをトレーニングデータセットとしてダウンロードまたはエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
ラベル付けされたドキュメントを評価データセットとしてダウンロードまたはエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
AI Center でトレーニングパイプラインを実行します。
AI Center の評価パイプラインで、モデルのパフォーマンスを評価します。
トレーニングされたモデルを、ML スキルとして AI Center にデプロイします。
UiPath.DocumentUnderstanding.ML アクティビティパッケージを使用して、RPA ワークフローから ML スキルにクエリを実行します。
注: Document Understanding ＭL パッケージを使用するには、AI Center をインストールしたマシンが https://du-metering.uipath.com にアクセスできる必要があります。

重要: AI Center で UiPath.DocumentUnderstanding.ML.Activities パッケージを作成する際、パッケージ名に class、break、from、finally、global、None などの Python の予約語を使用しないでください。なお、パッケージ名は class <pkg-name> と import <pkg-name> で使用されるため、前述の予約語は一例であり他の予約語もある点にご注意ください。

すぐに使えるマシンラーニングモデルを使用すると、半構造化または非構造化ドキュメントによく見られる標準フィールド、表の列、分類フィールドなどのデータポイントを、テンプレートを使用せずに分類して抽出できます。

注:

UiPath が提供する、すぐに使えるマシンラーニングパッケージのバージョン番号は 0 であり、既にお使いのテナントで利用できる状態になっているためダウンロードの必要はありません。

ダウンロードできるのは、バージョン番号が 1 以上のトレーニング済みのバージョンのみです。

Document Understanding に含まれる ML パッケージは、6 つの主要なカテゴリに分けられます。

UiPathDocument OCR (UiPath ドキュメント OCR)

再トレーニング不可のモデルです。[ドキュメントをデジタル化] アクティビティの一部として [UiPath Document OCR] アクティビティとともに使用できます。このモデルを使用するには、まず ML スキルを公開し、[UiPath Document OCR] アクティビティに URL をコピーして貼り付けられるようにする必要があります。

UiPathDocumentOCR の ML スキルがオンプレミスの AI Center の標準デプロイで実行されている場合は、 Document Understanding 測定サーバー (https://du.uipath.com/metering) へのアクセス権が必要です。オンプレミスの AI Center のエアギャップ環境のデプロイである場合は、インターネットアクセスは必要ありません。

AI Center の UiPathDocumentOCR (UiPath ドキュメント OCR) ML パッケージは GPU での実行に最適化されているため、GPU での使用を強くお勧めします。GPU が利用できない場合は、2021.10 よりも前のバージョンのスタンドアロンの Docker コンテナーの使用をお勧めします。v2021.10 からは、オンプレミス版 AI Center でも ML パッケージを実行できるようになりましたが、最低でも 4 コア、理想的には 8 コアの CPU をお勧めします。

UiPathDocumentOCR_CPU (UiPath ドキュメント OCR_CPU) (プレビュー)

この ML パッケージは UiPathDocumentOCR (UiPath ドキュメント OCR) ML パッケージとまったく同じ方法でデプロイできますが、以下の違いがあります。

CPU での実行に最適化されているため、ワークフローでの実行時の速度が 3 倍から 4 倍、Document Manager にドキュメントをインポートする際の速度が 5 倍から 10 倍向上します。
精度は UiPathDocumentOCR パッケージよりも若干低く、Studio の UiPath.DocumentUnderstanding.OCR.LocalServer パッケージと同程度となります。
より高速であるため、ドキュメントが大きい場合 (ドキュメントあたり 20 ページ以上)、GPU がなければ CPU も推奨されます。ただし、GPU が理想的です。

DocumentUnderstanding (ドキュメントの理解)

一般的で再トレーニング可能なモデルです。あらゆる種類の構造化または半構造化ドキュメントによく見られるデータポイントを抽出し、モデルをゼロから構築できます。この ML パッケージはトレーニングする必要があります。トレーニングしないでデプロイすると、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

DocumentClassifier (ドキュメント分類)

一般的で再トレーニング可能なモデルです。あらゆる種類の構造化または半構造化ドキュメントを分類し、モデルをゼロから構築できます。この ML パッケージはトレーニングする必要があります。トレーニングしないでデプロイすると、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

Out-of-the-box Pre-trained ML Packages

これらは、さまざまなマシンラーニングモデルのナレッジを保持する、再トレーニング可能な ML パッケージです。

パイプライン実行を使用して、追加のフィールドを抽出したり追加の言語をサポートしたりするようにカスタマイズできます。また、最先端の転送学習機能を使用して、追加のラベル付け済みドキュメントで再トレーニングできます。さらに、特定のユースケースに合わせて調整したり、ラテン語、キリル文字、またはギリシャ語をサポートするよう拡張したりできます。

使用されるデータセットには、同じフィールド、フィールドのサブセット、または追加のフィールドが含まれる場合があります。事前トレーニング済みモデルの既存のインテリジェンスを活用するには、すぐに使えるモデル内で使用されているフィールドと同じ名前のフィールドを使用する必要があります。

これらの ML パッケージは次のとおりです。

Invoices (請求書): 既定で抽出されるフィールドについては、こちらをご覧ください。
InvoicesAustralia (請求書 - オーストラリア): 既定で抽出されるフィールドについては、こちらをご覧ください。
InvoicesIndia (請求書 - インド): 既定で抽出されるフィールドについては、こちらをご覧ください。
InvoicesJapan (請求書 - 日本) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。

現在、検証ステーションのデータを使用した再トレーニングはサポートされていません。
InvoicesChina (請求書 - 中国) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。

現在、検証ステーションのデータを使用した再トレーニングはサポートされていません。
Receipts (領収書): 既定で抽出されるフィールドについては、こちらをご覧ください。
Purchase Orders (発注書): 既定で抽出されるフィールドについては、こちらをご覧ください。
Utility Bills (公共料金請求書) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
ID Cards (ID カード) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
Passports (パスポート) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
RemittanceAdvices (送金通知書) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
DeliveryNotes (納品書) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
W2 (米国の源泉徴収票) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
W9 (米国の納税申告書) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。

これらのモデルは、UiPath が構築したディープラーニングアーキテクチャです。サービング時とトレーニング時の両方で GPU を使用できますが、必須ではありません。GPU によって、速度が 10 倍以上向上します (特にトレーニング時)。

その他のすぐに使える ML パッケージ

これらは、Document Understanding スイートの非 ML コンポーネントに必要な再トレーニング不可のパッケージです。

これらの ML パッケージは次のとおりです。

FormExtractor (フォーム抽出器): パブリックスキルとしてデプロイし、URL を [フォーム抽出器] アクティビティ内に貼り付けます。
IntelligentFormExtractor (インテリジェントフォーム抽出器): パブリックスキルとしてデプロイし、URL を [インテリジェントフォーム抽出器] アクティビティ内に貼り付けます。最初に HandwritingRecognition (手書き文字認識) ML スキルをデプロイし、このスキルを上記パッケージの OCR として構成してください。
IntelligentKeywordClassifier (インテリジェントキーワード分類器): パブリックスキルとしてデプロイし、URL を [インテリジェントキーワード分類器] アクティビティ内に貼り付けます。
HandwritingRecognition (手書き文字認識): パブリックスキルとしてデプロイし、 IntelligentFormExtractor (インテリジェントフォーム抽出器) パッケージを作成するときに OCR として使用します。