Document Understanding
2020.10
バナーの背景画像
非推奨
Document Understanding ガイド
最終更新日 2024年2月28日

OCR サービス

OCR サービスについて

OCR サービスは以下の目的で使用されます。

  • Data Manager にドキュメントをインポートするのに、データをラベル付けするとき。このステップで使用できるサービスは、UiPath Document OCR (クラウドまたはオンプレミスでは無料)、Google Cloud OCR (クラウドのみ)、Microsoft Read OCR (クラウドまたはオンプレミス)、Omnipage (オンプレミスのみ) です。
  • 実行時に RPA ワークフローからモデルを呼び出すとき。このステップで利用可能なサービスは、上記をはじめとする UiPath RPA プラットフォームに統合されているすべての OCR エンジンと、Abbyy Finereader、Microsoft OCR (レガシー)、Microsoft Project Oxford OCR、Tesseract です。

運用環境では、ワークフロー内で [ドキュメントをデジタル化] アクティビティを使用して OCR を呼び出し、ML モデルを呼び出すアクティビティへの入力としてドキュメント オブジェクト モデルを渡すことをお勧めします。そのためには、[マシン ラーニング抽出器] アクティビティ (オフィシャル フィード) を使用する必要があります。

テストをすばやく簡単に実施するために AI Center ([設定] ウィンドウ) で OCR を直接設定することもできますが、これは運用環境のデプロイでは推奨されません。

オンプレミスのデプロイ オプション

UiPath Document OCR では、3 つのデプロイ オプションを利用できます。

  • LocalServer アクティビティ パッケージと UiPath.OCR.Activities パッケージのバージョン 3.1.0-preview 以降を使用するロボットの場合 - インターネット アクセスも追加のハードウェアも必要ありませんが、ロボット端末には、AVX2 のサポート付き CPU が必要です。
    • これが既定のデプロイ方法になります。ボリュームが大きい場合は、さらにロボットを追加できます。
  • Linux GPU マシン上で動作するスタンドアロンの Docker コンテナー (以下を参照 - 100 万ページ/年を超えるボリュームの場合に推奨) - ライセンス付与/測定のためにインターネットへのアクセスが必要
    • 年あたり 200 から 300 万ページを超える大きなボリュームの場合には、これが既定のデプロイ方法になります。
  • Linux CPU マシン上で動作するスタンドアロン Docker コンテナー (以下を参照) - ライセンス付与/測定のためにインターネットへのアクセスが必要
    • AVX2 サポートのない CPU でロボット端末が動作する、または GPU を取得できないといった、特殊な状況でのみこの方法でデプロイします。
  • AI Center の ML スキル (「ML パッケージ」のセクションを参照) (GPU を強く推奨) - エアギャップ環境の AI Center のインストールの場合、オンプレミスでのインターネット アクセスは不要

要件

このセクションでは、OCR エンジンをインストールする場合のハードウェア要件とソフトウェア要件を詳しく説明します。

ハードウェア要件

  • 必要なマシン: クラウド内の仮想マシンまたはオンプレミス ボックスまたはノート PC

  • オペレーティング システム: Windows (Windows 10) または Linux (Ubuntu/CentOS/RedHat)

  • コンピューティング エンジン: CPU または GPU

  • OCR: UiPath Document OCR CPU または UiPath Document OCR GPU または OmniPage OCR CPU

CPU コア

RAM (GB)

ビデオ RAM (GB)

HDD (GB)

UiPath CPU

8

8

 

50

UiPath GPU

1

4

8

50

OmniPage CPU

1

2

 

30

ソフトウェア要件

OCR エンジンのソフトウェア要件は、Data Manager と同じです。

ネットワーク構成

Data Manager は OCR エンジン (<IP>:<port_number>) にアクセスできる必要があります。OCR エンジンとしては、オンプレミスの UiPath Document OCR、オンプレミスの Omnipage OCR、Google Cloud Vision OCR、Microsoft Read Azure、オンプレミスの Microsoft Read が考えられます。
ロボットが OCR (<IP>:<port_number>) にアクセスできる必要があります。上記と同じ OCR オプション (Omnipage を除く) を、アクティビティ パッケージとしてロボットで直接利用できます。

OCR エンジンは、Azure 内で UiPath がホストするライセンス サーバー (ポート 443) にアクセスできる必要があります。

最小トライアルまたは概念実証の設定

トレーニング済みのすぐに使用できるモデルだけを提供する場合は、Windows 10 のノート PC で OCR エンジンを実行できます。Docker Desktop で 8G の RAM が利用可能であることを確認してください。

少量のデータ (100 件以下のドキュメント) のデモとしてカスタム モデルのトレーニングを試す場合は、4GB の RAM を上限とする環境で OCR エンジンを実行できます。このような少量のデータの場合は、OCR エンジンに対応する GPU が不要になる可能性があります。

前提条件

OCR エンジンは、Docker 上で実行されるコンテナー化されたアプリケーションです。OCR エンジンをオンプレミスの AI Center と同じマシンで実行することはできません。別々のマシンで実行するために、以下の前提条件インストーラー コマンドを使用して Docker を設定し、任意で NVIDIA ドライバーを設定できます。これらのスクリプトは、AI Center をインストールするマシンで実行しないでください。

OCR エンジンの前提条件は、Data Manager と同じです。

(任意) GPU マシンのインストール

Linux

以下のコマンドを実行します。

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

一部のシステムでは、コマンドを 2 回実行するかシステムを再起動しなければ、すべての要件をインストールできない可能性があります。

Azure 固有: NV シリーズの仮想マシンを使用するには、NVIDIA ドライバーをインストールしてから上記のコマンドを実行する必要があります。または、Azure のドライバー拡張機能を使用し、ティア GPU モデルに従って必要な NVIDIA ドライバーをインストールすることもできます。

Azure VM

Azure の VM にインストールする場合は、以下のコマンドを使用します。

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

インストール

UiPath ドキュメント OCR (プレビュー)

UiPath Document OCR は UiPath 独自の OCR テクノロジであり、ラテン文字の言語、すなわち英語、フランス語、ドイツ語、イタリア語、ポルトガル語、ルーマニア語、スペイン語で使用される文字をサポートしています。他の言語のテキストは、アクセント記号なしで認識されます。たとえば、ポーランド語の「Ł」は「L」と認識されます。UiPath Document OCR を使用して処理されたページは、Document Understanding の Enterprise ライセンスとともに購入されるページ クォータには含まれません。したがって、UiPath Document OCR は無料で使用できます。

UiPath Document OCR は、オンプレミスで Docker コンテナーとして、およびクラウドでクラウド サービス API として利用できます (URL: https://du.uipath.com/ocr)。利用可能な URL について詳しくは、パブリック エンドポイントのページをご覧ください。

  1. UiPath Document OCR をインストールするには、以下のコマンドを実行します。
    docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest
  2. CPU を使用して実行します。
    docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  3. GPU を使用して実行します。
    docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  4. AI Center で新しい ML パッケージを作成する場合は、画面下部に OCR 設定セクションがあります。このセクションで、OCR エンジンの種類、OCR URL、および OCR キーを定義できます。OCR キーは、Automation Cloud アカウントの [ライセンス] セクションから取得する API キーです。
    重要: UiPath Document OCR コンテナーおよび OmniPage OCR コンテナーは、オンプレミスの AI Center と同じマシンでは実行できません。

OmniPage OCR

Omnipage Docker コンテナーは、Data Manager でのみ使用することを意図しています。これは、UiPath Document OCR でまだサポートされていない言語で、ドキュメントをインポートするためです。

以下のコマンドを実行します。

docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=acceptdocker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept

Google Cloud OCR

エンドポイントは Google Cloud Platform ドキュメントから取得できます。サブスクリプションに Google Cloud Vision サービスがある場合は、Google Cloud Platform Console から API キーを取得できます。

Microsoft Read

重要: Azure とオンプレミスの両方のコンテナー エンドポイントに適用できます。

Azure サービスの場合は、エンドポイントAPI キーの両方を入力する必要があります。

オンプレミスのコンテナー エンドポイントの場合、API キーは必要ありません。

Data Manager および AI Center Document Understanding ML パッケージで OCR サービスを構成する

以下の表に、サポートされている 6 種類の OCR エンジンを Data Manager と AI Center の両方で設定する方法を示します。

重要: ocr.method 引数は、AI Center の ML パッケージの作成ビューにある [OCR エンジン] ドロップダウンに対応しています。

OCR エンジン

ocr.method

ocr.key

ocr.url

UiPath

UiPath

UiPath Automation Cloud

Document Understanding の API キー

Enterprise プラン

http://<IP_addr>:<port_number>

OmniPage

OmniPage

UiPath Automation Cloud

Document Understanding の API キー

Enterprise プラン

http://<IP_addr>:<port_number>

Google

Google

GCP コンソールの API キー

https://vision.googleapis.com/v1/images:annotate

Microsoft Read 2.0 On-Prem

Microsoft

None

http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze

Microsoft Read 2.0 Azure

Microsoft

Azure Portal からのリソースに対応する API キー

<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze

Microsoft Read 3.1 On-Prem

Microsoft

None

http://<IP_addr>:<port_number>/vision/v3.1/read/analyze

Microsoft Read 3.1 Azure

Microsoft

Azure Portal からのリソースに対応する API キー

<Azure_resource_Endpoint>/vision/v3.1/read/analyze

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.