Document Understanding

2021.10

偽

Document Understanding ガイド

最終更新日 2024年2月28日

OCR サービス

OCR サービスについて

OCR サービスは以下の目的で使用されます。

Data Manager にドキュメントをインポートする際、データをラベル付けするとき。この手順で使用できるエンジンは、UiPath Document OCR、Google Cloud Vision OCR、Microsoft Read OCR です。
実行時に RPA ワークフローからモデルを呼び出すとき。このステップで利用可能なエンジンは、上記をはじめとする UiPath RPA プラットフォームに統合されているすべてのエンジンと、Abbyy Finereader、Microsoft OCR (レガシ)、Microsoft Project Oxford OCR、Tesseract です。

運用環境では、ワークフロー内で [ドキュメントをデジタル化] アクティビティを使用して OCR を呼び出し、ML モデルを呼び出すアクティビティへの入力としてドキュメントオブジェクトモデルを渡すことをお勧めします。そのためには、[マシンラーニング抽出器] アクティビティ (オフィシャルフィード) を使用する必要があります。

テストをすばやく簡単に実施するために AI Center ([設定] ウィンドウ) で OCR を直接設定することもできますが、これは運用環境のデプロイでは推奨されません。

要件

このセクションでは、OCR エンジンをインストールする場合のハードウェア要件とソフトウェア要件を詳しく説明します。

ハードウェア要件

必要なマシン: クラウド内の仮想マシン/オンプレミスボックス/ノート PC
オペレーティングシステム: Windows (Windows 10)/Linux (Ubuntu/RedHat)
コンピューティングエンジン: CPU/GPU
OCR: UiPath Document OCR CPU/UiPath Document OCR GPU

	CPU コア	RAM (GB)	ビデオ RAM (GB)	HDD (GB)
UiPath CPU	4	4		50
UiPath GPU	1	4	8	50

ソフトウェア要件

Linux オペレーティングシステム

クラウドの仮想マシンに製品をインストールする場合は、次のオペレーティングシステムがサポートされます。

ソフトウェア	バージョン
Ubuntu	20.04 LTS 18.04 LTS 16.04 LTS
RHEL	7.x

オンプレミスのデータセンターにあるマシンに製品をインストールする場合は、次のオペレーティングシステムがサポートされます。

ソフトウェア	バージョン
Ubuntu	20.04 LTS 18.04 LTS 16.04 LTS
RHEL	7.x

Windows オペレーティングシステム

サポートされる Windows オペレーティングシステムのリストについては、Docker の公式 Web サイトをご覧ください。

Windows では、マシンで仮想化が有効化されている必要があります。ノート PC やデスクトップワークステーションのような物理マシンでのみ仮想化を有効化することを強く推奨します。入れ子の仮想化を使用する仮想マシン (クラウドまたはデータセンター) の Windows 上での Docker の実行はサポートされていません。

ブラウザー

ソフトウェア	バージョン
Google Chrome	50 以上

ネットワーク構成

Data Manager は OCR エンジン (<IP>:<port_number>) にアクセスできる必要があります。オンプレミスの UiPath Document OCR、Google Cloud Vision OCR、Microsoft Read Azure、オンプレミスの Microsoft Read などの OCR エンジンが使用できます。
ロボットが OCR (<IP>:<port_number>) にアクセスできる必要があります。上記と同じ OCR オプションを使用します。
OCR エンジンは、Azure 内で UiPath がホストするライセンスサーバー (ポート 443) にアクセスできる必要があります。

最小トライアルまたは概念実証の設定

トレーニング済みのすぐに使用できるモデルだけを提供する場合は、Windows 10 のノート PC で OCR エンジンを実行できます。Docker Desktop で 8G の RAM が利用可能であることを確認してください。

少量のデータ (100 件以下のドキュメント) のデモとしてカスタムモデルのトレーニングを試す場合は、4GB の RAM を上限とする環境で OCR エンジンを実行できます。このような少量のデータの場合は、OCR エンジンに対応する GPU が不要になる可能性があります。

前提条件

OCR エンジンは、Docker 上で実行されるコンテナー化されたアプリケーションです。OCR エンジンをオンプレミスの AI Center と同じマシンで実行することはできません。別々のマシンで実行するために、以下の前提条件インストーラーコマンドを使用して Docker を設定し、任意で NVIDIA ドライバーを設定できます。これらのスクリプトは、AI Center をインストールするマシンで実行しないでください。

重要: Docker イメージのファイルサイズ (GB) は非常に大きくなる可能性があるため、Linux 上で Docker のファイルを保存するために使用するフォルダーは、スペースが不足しないように十分な大きさのパーティションに作成する必要があります。既定では、常にルートパーティションに作成されます。

ルートパーティションの大きさを確認するには、ターミナルで以下を入力し、右端の列で / を含む行を探します。

df -hdf -h

パーティションのサイズが最小ストレージ要件よりも小さい場合は、「Docker のデータフォルダーを構成する」をご覧ください。

Docker をインストールする

Linux

Docker の公式ドキュメントに記載されている指示に従うか、以下のコマンドを実行します。

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu

このコマンドが失敗する場合は、お使いの Linux オペレーティングシステムが Docker に対応していません。Docker の公式ドキュメントに記載されている指示に従って、マシンへの Docker のインストールを IT 部門に依頼してください。

Azure VM

Azure の VM にインストールする場合は、以下のコマンドを使用します。

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure

Windows 10

Docker Desktop をダウンロードし、インストールします。Windows 10 の最近更新されたバージョンでは、WSL2 をインストールする必要があります。したがって、「WSL 2 Installation is Incomplete (WSL 2 のインストールは完了していません。)」というメッセージが表示されたら、[Restart] ボタンをクリックしてください。

Data Manager を実行するときは、各 Docker コンテナーに対して作業フォルダー (Data Manager ではたとえば workdir という名前のフォルダー) を作成し、そのフォルダーのパスを docker run コマンドの -v フラグの後に含める必要があります。この操作を Windows 上で行うと、Docker Desktop で以下のようなメッセージが表示されます。続行するには、[Share it] をクリックします。

Docker のデータフォルダーを構成する (Linux のみ)

Docker のファイルを保持するフォルダーのパスを入力し、このコマンドを実行した後、再起動します。

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>

Docker のチートシート

Docker は、ソフトウェアを Docker イメージで配布するのに役立ちます。イメージの実行中インスタンスをコンテナーと呼びます。イメージが利用可能な限り、必要な回数だけコンテナーを停止、削除、再開できます。

イメージをいったん削除すると、元に戻すことはできません。イメージを回復するには、元のレジストリから再度取得するしかありません (レジストリにまだ存在する場合)。

実行中のコンテナーは小さな仮想マシンに例えられます。仮想マシンには内部のファイルシステムとネットワークインターフェイスがあり、それらはホストマシンのファイルシステムやネットワークと区別されます。フォルダーとポートは、それぞれ引数 –v と –p を使用して、コンテナーからホストにマッピングできます。

以下の表に、Docker コマンドラインで使用する一般的なコマンドのリストを示します。

すべての基本的な Docker コマンドのリストについては、こちらをクリックしてご覧ください。

コマンド	説明
`docker login <registry name> -u <username> -p <password>`	レジストリにログインします。
`docker pull <registry name>/<image name>:<image tag>`	レジストリからイメージをダウンロードします。最新バージョンのイメージを参照するには、一般に latest タグを使用します。
`docker run –d -p 5000:80 <registry name>/<image name>:<image tag>` OR `docker run –d –p 5000:80 <image id>`	デタッチモードでイメージを実行し、コンテナー内の 80 番ポートをホストマシンの 5000 番ポートにマッピングして、<container folder> を <host holder> にマッピングします。デタッチモードでは、コンテナーがターミナルをブロックしないため、同じターミナルで他の操作を実行できます。
`docker images`	システムに存在するイメージのリストを取得します。
`docker ps –a`	すべてのコンテナーのリストを取得します (実行中のものと停止されているものの両方)。たとえば、コンテナーを停止または削除する必要がある場合に対象のコンテナーを参照するには、container id を使用します。
`docker stop <container id>`	コンテナーを停止します。このコマンドではコンテナーは削除されません。ただし、削除する前にコマンドを実行する必要があります。
「`docker rm <container id>`」	コンテナーを削除します。コンテナーは事前に停止する必要があります。
`docker logs <container id>`	コンテナーのログを表示します。
`docker rmi <image id>`	1 つまたは複数のイメージをシステムから削除します。イメージは多くのスペースを占有する可能性があるため、これでストレージスペースを節約できます。
`Docker container prune -f`	停止したコンテナーをすべて削除します。

Linux ターミナルのチートシート

コマンド	説明
`sudo <any_command>`	管理者としてコマンドを実行します。Permission Denied エラーが発生する場合は、必ずこれを試してください。
`ifconfig`	システム内のネットワークインターフェイスに関する情報を表示します。eth0 または docker0 のいずれかのセクションでマシンの IP を確認します。
`pwd`	現在のフォルダーへのパスを表示します。
`ls`	ディレクトリの内容のリストを取得します。
`cd <folder_name>`	別のフォルダーに移動します。
`mkdir <folder_name>`	新しいフォルダーを作成します。

(任意) GPU マシンのインストール

Linux

以下のコマンドを実行します。

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

一部のシステムでは、コマンドを 2 回実行するかシステムを再起動しなければ、すべての要件をインストールできない可能性があります。

Azure 固有: NV シリーズの仮想マシンを使用するには、NVIDIA ドライバーをインストールしてから上記のコマンドを実行する必要があります。または、Azure のドライバー拡張機能を使用し、ティア GPU モデルに従って必要な NVIDIA ドライバーをインストールすることもできます。

Azure VM

Azure の VM にインストールする場合は、以下のコマンドを使用します。

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

インストール

UiPath Document OCR

UiPath Document OCR は UiPath 独自の OCR テクノロジであり、ラテン文字の言語、すなわち英語、フランス語、ドイツ語、イタリア語、ポルトガル語、ルーマニア語、スペイン語で使用される文字をサポートしています。他の言語のテキストは、アクセント記号なしで認識されます。たとえば、ポーランド語の「Ł」は「L」と認識されます。UiPath Document OCR を使用して処理されたページは、Document Understanding の Enterprise ライセンスとともに購入されるページクォータには含まれません。したがって、UiPath Document OCR は無料で使用できます。

UiPath Document OCR は、以下の種類のデプロイで利用可能です。

クラウドパブリック URL - 詳しくは「パブリックエンドポイント」のページをご覧ください。
オンプレミス (エアギャップ環境を含む) で UiPath.DocumentUnderstanding.OCR.LocalServer アクティビティパッケージを使用 (インターネットアクセスは不要)
オンプレミスの標準のスタンドアロン Docker コンテナー (インターネットアクセスが必要)
オンプレミスのエアギャップ環境のスタンドアロン Docker コンテナー (インターネットアクセスは不要)
AI Center の標準デプロイでの ML スキルとしてのオンプレミス (インターネットアクセスが必要)
AI Center のエアギャップ環境のデプロイでの ML スキルとしてのオンプレミス (インターネットアクセスは不要)

UiPath Document OCR のスタンドアロン Docker コンテナーをインストールするには、以下のコマンドを実行します。

docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest

CPU を使用して実行します。

docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

GPU を使用して実行します。

docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

AI Center で新しい ML パッケージを作成する場合は、画面下部に任意の OCR 設定セクションがあります。このセクションで、サーバー側の OCR エンジンの種類、OCR URL、および OCR キーを定義できます。OCR キーは、Automation Cloud アカウントの [ライセンス] セクションから取得する API キーです。この OCR 設定は、[サーバー側の OCR を使用] ボックスをチェックした場合に [マシンラーニング抽出器] アクティビティによって使用されます。既定では、このボックスはオフになっています。その場合、抽出器は [ドキュメントをデジタル化] アクティビティで OCR を使用します。

重要: UiPath Document OCR コンテナーをオンプレミスの AI Center と同じマシンで実行することはできません。

Google Cloud OCR

エンドポイントは Google Cloud Platform ドキュメントから取得できます。サブスクリプションに Google Cloud Vision サービスがある場合は、Google Cloud Platform Console から API キーを取得できます。

Microsoft Read

重要: Azure とオンプレミスの両方のコンテナーエンドポイントに適用できます。

Azure サービスの場合は、エンドポイントと API キーの両方を入力する必要があります。

オンプレミスのコンテナーエンドポイントの場合、API キーは必要ありません。

Data Manager および AI Center Document Understanding ML パッケージで OCR サービスを構成する

以下の表に、サポートされている 6 種類の OCR エンジンを Data Manager と AI Center の両方で設定する方法を示します。

OCR エンジン	OCR メソッド	OCR キー	OCR の URL
UiPath	UiPath Document OCR	UiPath Automation Cloud Document Understanding の API キー Enterprise プラン	`http://<IP_addr>:<port_number>`
Google	Google Cloud Vision OCR	GCP コンソールの API キー	`https://vision.googleapis.com/v1/images:annotate`
Microsoft Read 2.0 On-Prem	Microsoft Read OCR	None	`http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze`
Microsoft Read 2.0 Azure	Microsoft Read OCR	Azure Portal からのリソースに対応する API キー	`<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze`
Microsoft Read 3.2 On-Prem	Microsoft Read OCR	None	`http://<IP_addr>:<port_number>/vision/v3.2/read/analyze`
Microsoft Read 3.2 Azure	Microsoft Read OCR	Azure Portal からのリソースに対応する API キー	`<Azure_resource_Endpoint>/vision/v3.2/read/analyze`