document-understanding

2020.10

false

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。

非推奨

Document Understanding ガイド

デリバリー:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Last updated 2024年7月29日

OCR サービス

OCR サービスについて

OCR サービスは以下の目的で使用されます。

Data Manager にドキュメントをインポートするのに、データをラベル付けするとき。このステップで使用できるサービスは、UiPath Document OCR (クラウドまたはオンプレミスでは無料)、Google Cloud OCR (クラウドのみ)、Microsoft Read OCR (クラウドまたはオンプレミス)、Omnipage (オンプレミスのみ) です。
実行時に RPA ワークフローからモデルを呼び出すとき。このステップで利用可能なサービスは、上記をはじめとする UiPath RPA プラットフォームに統合されているすべての OCR エンジンと、Abbyy Finereader、Microsoft OCR (レガシー)、Microsoft Project Oxford OCR、Tesseract です。

運用環境では、ワークフロー内で [ドキュメントをデジタル化] アクティビティを使用して OCR を呼び出し、ML モデルを呼び出すアクティビティへの入力としてドキュメントオブジェクトモデルを渡すことをお勧めします。そのためには、[マシンラーニング抽出器] アクティビティ (オフィシャルフィード) を使用する必要があります。

テストをすばやく簡単に実施するために AI Center ([設定] ウィンドウ) で OCR を直接設定することもできますが、これは運用環境のデプロイでは推奨されません。

オンプレミスのデプロイオプション

UiPath Document OCR では、3 つのデプロイオプションを利用できます。

LocalServer アクティビティパッケージと UiPath.OCR.Activities パッケージのバージョン 3.1.0-preview 以降を使用するロボットの場合 - インターネットアクセスも追加のハードウェアも必要ありませんが、ロボット端末には、AVX2 のサポート付き CPU が必要です。
- これが既定のデプロイ方法になります。ボリュームが大きい場合は、さらにロボットを追加できます。
Linux GPU マシン上で動作するスタンドアロンの Docker コンテナー (以下を参照 - 100 万ページ/年を超えるボリュームの場合に推奨) - ライセンス付与/測定のためにインターネットへのアクセスが必要
- 年あたり 200 から 300 万ページを超える大きなボリュームの場合には、これが既定のデプロイ方法になります。
Linux CPU マシン上で動作するスタンドアロン Docker コンテナー (以下を参照) - ライセンス付与/測定のためにインターネットへのアクセスが必要
- AVX2 サポートのない CPU でロボット端末が動作する、または GPU を取得できないといった、特殊な状況でのみこの方法でデプロイします。
AI Center の ML スキル (「ML パッケージ」のセクションを参照) (GPU を強く推奨) - エアギャップ環境の AI Center のインストールの場合、オンプレミスでのインターネットアクセスは不要

要件

このセクションでは、OCR エンジンをインストールする場合のハードウェア要件とソフトウェア要件を詳しく説明します。

ハードウェア要件

必要なマシン: クラウド内の仮想マシンまたはオンプレミスボックスまたはノート PC
オペレーティングシステム: Windows (Windows 10) または Linux (Ubuntu/CentOS/RedHat)
コンピューティングエンジン: CPU または GPU
OCR: UiPath Document OCR CPU または UiPath Document OCR GPU または OmniPage OCR CPU

	CPU コア	RAM (GB)	ビデオ RAM (GB)	HDD (GB)
UiPath CPU	8	8		50
UiPath GPU	1	4	8	50
OmniPage CPU	1	2		30

ソフトウェア要件

OCR エンジンのソフトウェア要件は、Data Manager と同じです。

ネットワーク構成

Data Manager は OCR エンジン (<IP>:<port_number>) にアクセスできる必要があります。OCR エンジンとしては、オンプレミスの UiPath Document OCR、オンプレミスの Omnipage OCR、Google Cloud Vision OCR、Microsoft Read Azure、オンプレミスの Microsoft Read が考えられます。

ロボットが OCR (<IP>:<port_number>) にアクセスできる必要があります。上記と同じ OCR オプション (Omnipage を除く) を、アクティビティパッケージとしてロボットで直接利用できます。

OCR エンジンは、Azure 内で UiPath がホストするライセンスサーバー (ポート 443) にアクセスできる必要があります。

最小トライアルまたは概念実証の設定

トレーニング済みのすぐに使用できるモデルだけを提供する場合は、Windows 10 のノート PC で OCR エンジンを実行できます。Docker Desktop で 8G の RAM が利用可能であることを確認してください。

少量のデータ (100 件以下のドキュメント) のデモとしてカスタムモデルのトレーニングを試す場合は、4GB の RAM を上限とする環境で OCR エンジンを実行できます。このような少量のデータの場合は、OCR エンジンに対応する GPU が不要になる可能性があります。

前提条件

OCR エンジンは、Docker 上で実行されるコンテナー化されたアプリケーションです。OCR エンジンをオンプレミスの AI Center と同じマシンで実行することはできません。別々のマシンで実行するために、以下の前提条件インストーラーコマンドを使用して Docker を設定し、任意で NVIDIA ドライバーを設定できます。これらのスクリプトは、AI Center をインストールするマシンで実行しないでください。

OCR エンジンの前提条件は、Data Manager と同じです。

(任意) GPU マシンのインストール

Linux

以下のコマンドを実行します。

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

一部のシステムでは、コマンドを 2 回実行するかシステムを再起動しなければ、すべての要件をインストールできない可能性があります。

Azure 固有: NV シリーズの仮想マシンを使用するには、NVIDIA ドライバーをインストールしてから上記のコマンドを実行する必要があります。または、Azure のドライバー拡張機能を使用し、ティア GPU モデルに従って必要な NVIDIA ドライバーをインストールすることもできます。

Azure VM

Azure の VM にインストールする場合は、以下のコマンドを使用します。

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

インストール

UiPath Document OCR (プレビュー)

UiPath Document OCR は UiPath 独自の OCR テクノロジであり、ラテン文字の言語、すなわち英語、フランス語、ドイツ語、イタリア語、ポルトガル語、ルーマニア語、スペイン語で使用される文字をサポートしています。他の言語のテキストは、アクセント記号なしで認識されます。たとえば、ポーランド語の「Ł」は「L」と認識されます。UiPath Document OCR を使用して処理されたページは、Document Understanding の Enterprise ライセンスとともに購入されるページクォータには含まれません。したがって、UiPath Document OCR は無料で使用できます。

UiPath Document OCR は、オンプレミスで Docker コンテナーとして、およびクラウドでクラウドサービス API として利用できます (URL: https://du.uipath.com/ocr)。利用可能な URL について詳しくは、パブリックエンドポイントのページをご覧ください。

UiPath Document OCR をインストールするには、以下のコマンドを実行します。

docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest

CPU を使用して実行します。

docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

GPU を使用して実行します。

docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

AI Center で新しい ML パッケージを作成する場合は、画面下部に OCR 設定セクションがあります。このセクションで、OCR エンジンの種類、OCR URL、および OCR キーを定義できます。OCR キーは、Automation Cloud アカウントの [ライセンス] セクションから取得する API キーです。

重要: UiPath Document OCR コンテナーおよび OmniPage OCR コンテナーは、オンプレミスの AI Center と同じマシンでは実行できません。

OmniPage OCR

Omnipage Docker コンテナーは、Data Manager でのみ使用することを意図しています。これは、UiPath Document OCR でまだサポートされていない言語で、ドキュメントをインポートするためです。

以下のコマンドを実行します。

docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=acceptdocker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept

Google Cloud OCR

エンドポイントは Google Cloud Platform ドキュメントから取得できます。サブスクリプションに Google Cloud Vision サービスがある場合は、Google Cloud Platform Console から API キーを取得できます。

Microsoft Read

重要: Azure とオンプレミスの両方のコンテナーエンドポイントに適用できます。

Azure サービスの場合は、エンドポイントと API キーの両方を入力する必要があります。

オンプレミスのコンテナーエンドポイントの場合、API キーは必要ありません。

Data Manager および AI Center Document Understanding ML パッケージで OCR サービスを構成する

以下の表に、サポートされている 6 種類の OCR エンジンを Data Manager と AI Center の両方で設定する方法を示します。

重要: ocr.method 引数は、AI Center の ML パッケージの作成ビューにある [OCR エンジン] ドロップダウンに対応しています。

OCR エンジン	ocr.method	ocr.key	ocr.url
UiPath	UiPath	UiPath Automation Cloud Document Understanding の API キー Enterprise プラン	`http://<IP_addr>:<port_number>`
OmniPage	OmniPage	UiPath Automation Cloud Document Understanding の API キー Enterprise プラン	`http://<IP_addr>:<port_number>`
Google	Google	GCP コンソールの API キー	`https://vision.googleapis.com/v1/images:annotate`
Microsoft Read 2.0 On-Prem	Microsoft	None	`http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze`
Microsoft Read 2.0 Azure	Microsoft	Azure Portal からのリソースに対応する API キー	`<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze`
Microsoft Read 3.1 On-Prem	Microsoft	None	`http://<IP_addr>:<port_number>/vision/v3.1/read/analyze`
Microsoft Read 3.1 Azure	Microsoft	Azure Portal からのリソースに対応する API キー	`<Azure_resource_Endpoint>/vision/v3.1/read/analyze`