Document Understanding - Services OCR

document-understanding

2020.10

false

Guide de l'utilisateur de Document Understanding

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Services OCR

À propos des services OCR

Les moteurs OCR sont utilisés aux fins suivantes :

Au moment de la labellisation des données, lors de l'importation de documents dans Data Manager. Les services disponibles pour cette étape sont UiPath Document OCR (gratuit dans le cloud ou la version locale), Google Cloud OCR (cloud uniquement), Microsoft Read OCR (cloud ou version locale) et Omnipage (version locale uniquement).
Au moment de l'exécution lors de l'appel de modèles à partir de workflows RPA. Les services disponibles pour cette étape sont tous les moteurs OCR intégrés à la plate-forme UiPath RPA, y compris ceux cités plus haut, plus Abbyy Finereader, Microsoft OCR (ancien), Microsoft Project Oxford OCR et Tesseract.

En production, nous vous recommandons d'appeler l'OCR à l'aide de l'activité Numériser le document (Digitize Document) dans votre workflow et de transmettre le modèle objet de document en entrée de l'activité appelant le modèle ML. Pour cela, vous devez utiliser l'activité Machine Learning Extractor (Flux officiel).

Pour faciliter les tests, vous pouvez également configurer l'OCR directement dans AI Center (fenêtre Paramètres (Settings)), mais cela n'est pas recommandé pour les déploiements de production.

Options de déploiement de la version locale

UiPath Document OCR propose 3 options de déploiement :

Sur le robot en utilisant un package d'activité LocalServer et le package UiPath.OCR.Activities version 3.1.0-preview ou version ultérieure - ne nécessite aucun accès Internet et aucun matériel supplémentaire, mais la machine Robot a besoin d'un processeur avec prise en charge AVX2.
- Cela devrait être votre option par défaut. Pour des volumes plus importants, vous pouvez ajouter plus de Robots.
Conteneur Docker autonome s'exécutant sur une machine GPU Linux (voir ci-dessous - recommandé pour les volumes supérieurs à 1 million de pages/an) - Accès Internet requis pour les licences/le comptage
- Cela devrait être votre option par défaut pour les gros volumes de plus de 2 à 3 millions de pages par an.
Conteneur Docker autonome s'exécutant sur une machine CPU Linux (voir ci-dessous) - Accès Internet requis pour la licence/le comptage
- Uniquement pour les rares situations où vos machines Robot fonctionnent sur des CPU sans prise en charge AVX2, ou où le GPU ne peut pas être obtenu.
Compétences ML dans AI Center (voir la section Paquets ML) (GPU fortement recommandé) - L'accès Internet n'est pas requis sur place si l'installation d'AI Center est physiquement isolée

Prérequis

Cette section détaille la configuration matérielle et logicielle requise pour l'installation des moteurs OCR.

Prérequis matériels

Machines impliquées : MV dans le Cloud ou Boîte locale ou Ordinateur portable
Systèmes d'exploitation : Windows (Windows 10) ou Linux (Ubuntu/CentOS/RedHat)
Moteurs de calcul : CPU ou GPU
OCR : UiPath Document OCR CPU ou UiPath Document OCR GPU ou OmniPage OCR CPU

	Cœurs de processeur (CPU Cores)	RAM (Go)	RAM vidéo (Go)	Disque dur (Go)
CPU UiPath	8	8		50
GPU UiPath	1	4	8	50
CPU OmniPage	1	2		30

Prérequis logiciels

La configuration logicielle requise pour les moteurs OCR est la même que pour Data Manager.

Configuration du réseau

Data Manager a besoin d'accéder au moteur OCR <IP>:<port_number>. Le moteur OCR peut être la version locale de UiPath Document OCR, la version locale de Omnipage OCR, Google Cloud Vision OCR, Microsoft Read Azure, la version locale de Microsoft Read.

Les robots ont besoin d'accéder à l'OCR <IP>:<port_number>. Mêmes options d'OCR que ci-dessus, à l'exception d'Omnipage, qui est disponible directement dans les Robots sous forme de module d'activités.

Les moteurs OCR ont besoin d'accéder au serveur de licences hébergé par UiPath dans Azure, sur le port 443.

Configuration minimale d'essai ou de preuve de concept

Si vous souhaitez uniquement servir des modèles prêts à l'emploi pré-entraînés, vous pouvez exécuter un moteur OCR sur votre ordinateur portable Windows 10. Assurez-vous que Docker Desktop dispose de 8 Go de RAM.

Si vous souhaitez essayer d'entraîner un modèle personnalisé en tant que démo sur un petit volume de données (moins de 100 documents), vous pouvez exécuter le moteur OCR sur un environnement avec une limite de 4 Go de RAM. Pour les petits cas comme celui-ci, un GPU pour le moteur OCR peut ne pas être nécessaire.

Prérequis

Les moteurs OCR sont des applications conteneurisées qui s'exécutent sur Docker. Vous ne pouvez pas les exécuter sur la même machine que la version locale d'AI Center. Afin de les exécuter sur une machine distincte, les commandes d'installation préalable ci-dessous peuvent être utilisées pour configurer Docker et éventuellement les pilotes NVidia. Ces scripts ne doivent pas être exécutés sur la machine sur laquelle AI Center sera installé.

La prérequis pour les moteurs OCR est la même que pour Data Manager.

(Facultatif) Installation de la machine GPU

Linux

Exécutez ces commandes :

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

Sur certains systèmes, exécutez la commande deux fois ; un redémarrage du système peut être nécessaire pour installer toutes les exigences.

Spécifique à Azure : pour utiliser les machines virtuelles de la série NV, vous devez soit installer le pilote NVIDIA avant d'exécuter la commande ci-dessus, soit utiliser une extension de pilote d'Azure pour installer le pilote NVIDIA nécessaire en fonction de ce niveau de modèle de GPU.

Machines virtuelles Azure

Si vous effectuez l'installation sur une machine virtuelle dans Azure, utilisez plutôt cette commande :

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Installation

OCR de document UiPath (aperçu)

UiPath Document OCR est une technologie OCR propriétaire d'UiPath, prenant en charge les caractères utilisés par les langues d'écriture latine suivantes : anglais, français, allemand, italien, portugais, roumain et espagnol. Le texte dans d'autres langues sera reconnu, mais sans accents, par exemple, « Ł » en polonais sera reconnu comme « L ». Les pages traitées à l'aide d'UiPath Document OCR ne sont pas prises en compte dans le quota de pages acheté avec la licence Document Understanding Enterprise, donc UiPath Document OCR est libre d'utilisation.

UiPath Document OCR est disponible à la fois en version locale en tant que conteneur Docker et dans le cloud en tant qu'API de service cloud avec l'URL : https://du.uipath.com/ocr. Consultez la description complète des URL disponibles sur la page Points de terminaison publics (Public Endpoints).

Pour installer UiPath Document OCR, exécutez ces commandes :

docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest

Exécuter à l'aide de processeurs

docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Exécuter à l'aide du GPU

docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Dans AI Center, lors de la création d'un nouveau package ML, se trouve en bas de l'écran la section Configuration OCR où vous pouvez définir le type de moteur OCR, l'URL OCR et la clé OCR. La clé OCR est la clé API que vous obtenez dans la section Licences de votre compte Automation Cloud.

Attention : le conteneur UiPath Document OCR et le conteneur Omnipage OCR ne peuvent pas s'exécuter sur la même machine qu'AI Center sur site.

OmniPage OCR

Le conteneur Docker Omnipage est destiné à être utilisé uniquement avec Data Manager, pour importer des documents dans des langues que la Reconnaissance optique de caractères de documents UiPath ne prend pas encore en charge.

Exécutez ces commandes :

docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=acceptdocker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept

Reconnaissance optique des caractères Google Cloud (Google Cloud OCR)

Le point de terminaison peut être obtenu à partir de la documentation de Google Cloud Platform. L'Apikey peut être obtenue à partir de votre console Google Cloud Platform si vous disposez du service Google Cloud Vision dans votre abonnement.

Microsoft Read

Attention : applicable aux points de terminaison de conteneur Azure et locaux.

Dans le cas des services Azure, vous devez fournir à la fois le point de terminaison et l'ApiKey.

Dans le cas des points de terminaison de conteneur local, la clé API n'est pas nécessaire.

Configuration du service OCR dans Data Manager et paquets ML d'AI Center Document Understanding

Le tableau ci-dessous montre comment configurer les 6 types de moteurs OCR pris en charge dans Data Manager et AI Center.

Attention : l'argument ocr.method correspond à la liste déroulante du moteur OCR dans la vue de création de package ML dans AI Center.

Moteur OCR	ocr.method	ocr.key	ocr.url
UiPath	UiPath	UiPath Automation Cloud Clé API de Document Understanding Plan Enterprise	`http://<IP_addr>:<port_number>`
OmniPage	omnipage	UiPath Automation Cloud Clé API de Document Understanding Plan Enterprise	`http://<IP_addr>:<port_number>`
Google	Google	Clé API de la console GCP	`https://vision.googleapis.com/v1/images:annotate`
Microsoft Read 2.0 On-Prem	Microsoft	Aucun (None)	`http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze`
Microsoft Read 2.0 Azure	Microsoft	Clé API pour votre ressource à partir du portail Azure	`<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze`
Microsoft Read 3.1 On-Prem	Microsoft	Aucun (None)	`http://<IP_addr>:<port_number>/vision/v3.1/read/analyze`
Microsoft Read 3.1 Azure	Microsoft	Clé API pour votre ressource à partir du portail Azure	`<Azure_resource_Endpoint>/vision/v3.1/read/analyze`

Sommaire de la page

À propos des services OCR
Options de déploiement de la version locale
Prérequis
Prérequis matériels
Prérequis logiciels
Configuration du réseau
Configuration minimale d'essai ou de preuve de concept
Prérequis
(Facultatif) Installation de la machine GPU
Installation
OCR de document UiPath (aperçu)
OmniPage OCR
Reconnaissance optique des caractères Google Cloud (Google Cloud OCR)
Microsoft Read
Configuration du service OCR dans Data Manager et paquets ML d'AI Center Document Understanding

Cette page vous a-t-elle été utile ?

PrécédentCases à cocher et signatures

SuivantPoints de terminaison publics