- 基本情報
- フレームワーク コンポーネント
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- OCR サービス
- ライセンス
- 参照
Document Understanding ガイド
OCR サービス
OCR サービスは以下の目的で使用されます。
- Data Manager にドキュメントをインポートするのに、データをラベル付けするとき。このステップで使用できるサービスは、UiPath Document OCR (クラウドまたはオンプレミスでは無料)、Google Cloud OCR (クラウドのみ)、Microsoft Read OCR (クラウドまたはオンプレミス)、Omnipage (オンプレミスのみ) です。
- 実行時に RPA ワークフローからモデルを呼び出すとき。このステップで利用可能なサービスは、上記をはじめとする UiPath RPA プラットフォームに統合されているすべての OCR エンジンと、Abbyy Finereader、Microsoft OCR (レガシー)、Microsoft Project Oxford OCR、Tesseract です。
運用環境では、ワークフロー内で [ドキュメントをデジタル化] アクティビティを使用して OCR を呼び出し、ML モデルを呼び出すアクティビティへの入力としてドキュメント オブジェクト モデルを渡すことをお勧めします。そのためには、[マシン ラーニング抽出器] アクティビティ (オフィシャル フィード) を使用する必要があります。
テストをすばやく簡単に実施するために AI Center ([設定] ウィンドウ) で OCR を直接設定することもできますが、これは運用環境のデプロイでは推奨されません。
UiPath Document OCR では、3 つのデプロイ オプションを利用できます。
- LocalServer アクティビティ パッケージと UiPath.OCR.Activities パッケージのバージョン 3.1.0-preview 以降を使用するロボットの場合 - インターネット アクセスも追加のハードウェアも必要ありませんが、ロボット端末には、AVX2 のサポート付き CPU が必要です。
- これが既定のデプロイ方法になります。ボリュームが大きい場合は、さらにロボットを追加できます。
- Linux GPU マシン上で動作するスタンドアロンの Docker コンテナー (以下を参照 - 100 万ページ/年を超えるボリュームの場合に推奨) - ライセンス付与/測定のためにインターネットへのアクセスが必要
- 年あたり 200 から 300 万ページを超える大きなボリュームの場合には、これが既定のデプロイ方法になります。
- Linux CPU マシン上で動作するスタンドアロン Docker コンテナー (以下を参照) - ライセンス付与/測定のためにインターネットへのアクセスが必要
- AVX2 サポートのない CPU でロボット端末が動作する、または GPU を取得できないといった、特殊な状況でのみこの方法でデプロイします。
- AI Center の ML スキル (「ML パッケージ」のセクションを参照) (GPU を強く推奨) - エアギャップ環境の AI Center のインストールの場合、オンプレミスでのインターネット アクセスは不要
このセクションでは、OCR エンジンをインストールする場合のハードウェア要件とソフトウェア要件を詳しく説明します。
-
必要なマシン: クラウド内の仮想マシンまたはオンプレミス ボックスまたはノート PC
-
オペレーティング システム: Windows (Windows 10) または Linux (Ubuntu/CentOS/RedHat)
-
コンピューティング エンジン: CPU または GPU
-
OCR: UiPath Document OCR CPU または UiPath Document OCR GPU または OmniPage OCR CPU
|
CPU コア |
RAM (GB) |
ビデオ RAM (GB) | HDD (GB) |
---|---|---|---|---|
UiPath CPU |
8 |
8 |
50 | |
UiPath GPU |
1 |
4 |
8 |
50 |
OmniPage CPU |
1 |
2 |
30 |
OCR エンジンのソフトウェア要件は、Data Manager と同じです。
<IP>:<port_number>
) にアクセスできる必要があります。OCR エンジンとしては、オンプレミスの UiPath Document OCR、オンプレミスの Omnipage OCR、Google Cloud Vision OCR、Microsoft Read Azure、オンプレミスの Microsoft Read が考えられます。
<IP>:<port_number>
) にアクセスできる必要があります。上記と同じ OCR オプション (Omnipage を除く) を、アクティビティ パッケージとしてロボットで直接利用できます。
OCR エンジンは、Azure 内で UiPath がホストするライセンス サーバー (ポート 443) にアクセスできる必要があります。
OCR エンジンは、Docker 上で実行されるコンテナー化されたアプリケーションです。OCR エンジンをオンプレミスの AI Center と同じマシンで実行することはできません。別々のマシンで実行するために、以下の前提条件インストーラー コマンドを使用して Docker を設定し、任意で NVIDIA ドライバーを設定できます。これらのスクリプトは、AI Center をインストールするマシンで実行しないでください。
OCR エンジンの前提条件は、Data Manager と同じです。
Linux
以下のコマンドを実行します。
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
一部のシステムでは、コマンドを 2 回実行するかシステムを再起動しなければ、すべての要件をインストールできない可能性があります。
Azure 固有: NV シリーズの仮想マシンを使用するには、NVIDIA ドライバーをインストールしてから上記のコマンドを実行する必要があります。または、Azure のドライバー拡張機能を使用し、ティア GPU モデルに従って必要な NVIDIA ドライバーをインストールすることもできます。
Azure VM
Azure の VM にインストールする場合は、以下のコマンドを使用します。
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
UiPath Document OCR は UiPath 独自の OCR テクノロジであり、ラテン文字の言語、すなわち英語、フランス語、ドイツ語、イタリア語、ポルトガル語、ルーマニア語、スペイン語で使用される文字をサポートしています。他の言語のテキストは、アクセント記号なしで認識されます。たとえば、ポーランド語の「Ł」は「L」と認識されます。UiPath Document OCR を使用して処理されたページは、Document Understanding の Enterprise ライセンスとともに購入されるページ クォータには含まれません。したがって、UiPath Document OCR は無料で使用できます。
UiPath Document OCR は、オンプレミスで Docker コンテナーとして、およびクラウドでクラウド サービス API として利用できます (URL: https://du.uipath.com/ocr)。利用可能な URL について詳しくは、パブリック エンドポイントのページをご覧ください。
Omnipage Docker コンテナーは、Data Manager でのみ使用することを意図しています。これは、UiPath Document OCR でまだサポートされていない言語で、ドキュメントをインポートするためです。
以下のコマンドを実行します。
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
エンドポイントは Google Cloud Platform ドキュメントから取得できます。サブスクリプションに Google Cloud Vision サービスがある場合は、Google Cloud Platform Console から API キーを取得できます。
以下の表に、サポートされている 6 種類の OCR エンジンを Data Manager と AI Center の両方で設定する方法を示します。
ocr.method
引数は、AI Center の ML パッケージの作成ビューにある [OCR エンジン] ドロップダウンに対応しています。
OCR エンジン |
ocr.method |
ocr.key |
ocr.url |
---|---|---|---|
UiPath |
UiPath |
UiPath Automation Cloud Document Understanding の API キー Enterprise プラン |
|
OmniPage |
OmniPage |
UiPath Automation Cloud Document Understanding の API キー Enterprise プラン |
|
|
|
GCP コンソールの API キー |
|
Microsoft Read 2.0 On-Prem |
Microsoft |
None |
|
Microsoft Read 2.0 Azure |
Microsoft |
Azure Portal からのリソースに対応する API キー |
|
Microsoft Read 3.1 On-Prem |
Microsoft |
None |
|
Microsoft Read 3.1 Azure |
Microsoft |
Azure Portal からのリソースに対応する API キー |
|