- Démarrage
- Composants de l'infrastructure
- Vue d’ensemble de l’extraction des données
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
- Activités liées à l'extraction de données
- Document Understanding dans AI Center
- Pipelines
- Paquets ML
- Data Manager
- Services OCR
- Services OCR
- Licences
- Référence (Reference)
Guide de l'utilisateur de Document Understanding
Services OCR
Les moteurs OCR sont utilisés aux fins suivantes :
- Au moment de la labellisation des données, lors de l'importation de documents dans Data Manager. Les services disponibles pour cette étape sont UiPath Document OCR (gratuit dans le cloud ou la version locale), Google Cloud OCR (cloud uniquement), Microsoft Read OCR (cloud ou version locale) et Omnipage (version locale uniquement).
- Au moment de l'exécution lors de l'appel de modèles à partir de workflows RPA. Les services disponibles pour cette étape sont tous les moteurs OCR intégrés à la plate-forme UiPath RPA, y compris ceux cités plus haut, plus Abbyy Finereader, Microsoft OCR (ancien), Microsoft Project Oxford OCR et Tesseract.
En production, nous vous recommandons d'appeler l'OCR à l'aide de l'activité Numériser le document (Digitize Document) dans votre workflow et de transmettre le modèle objet de document en entrée de l'activité appelant le modèle ML. Pour cela, vous devez utiliser l'activité Machine Learning Extractor (Flux officiel).
Pour faciliter les tests, vous pouvez également configurer l'OCR directement dans AI Center (fenêtre Paramètres (Settings)), mais cela n'est pas recommandé pour les déploiements de production.
UiPath Document OCR propose 3 options de déploiement :
- Sur le robot en utilisant un package d'activité LocalServer et le package UiPath.OCR.Activities version 3.1.0-preview ou version ultérieure - ne nécessite aucun accès Internet et aucun matériel supplémentaire, mais la machine Robot a besoin d'un processeur avec prise en charge AVX2.
- Cela devrait être votre option par défaut. Pour des volumes plus importants, vous pouvez ajouter plus de Robots.
- Conteneur Docker autonome s'exécutant sur une machine GPU Linux (voir ci-dessous - recommandé pour les volumes supérieurs à 1 million de pages/an) - Accès Internet requis pour les licences/le comptage
- Cela devrait être votre option par défaut pour les gros volumes de plus de 2 à 3 millions de pages par an.
- Conteneur Docker autonome s'exécutant sur une machine CPU Linux (voir ci-dessous) - Accès Internet requis pour la licence/le comptage
- Uniquement pour les rares situations où vos machines Robot fonctionnent sur des CPU sans prise en charge AVX2, ou où le GPU ne peut pas être obtenu.
- Compétences ML dans AI Center (voir la section Paquets ML) (GPU fortement recommandé) - L'accès Internet n'est pas requis sur place si l'installation d'AI Center est physiquement isolée
Cette section détaille la configuration matérielle et logicielle requise pour l'installation des moteurs OCR.
-
Machines impliquées : MV dans le Cloud ou Boîte locale ou Ordinateur portable
-
Systèmes d'exploitation : Windows (Windows 10) ou Linux (Ubuntu/CentOS/RedHat)
-
Moteurs de calcul : CPU ou GPU
-
OCR : UiPath Document OCR CPU ou UiPath Document OCR GPU ou OmniPage OCR CPU
|
Cœurs de processeur (CPU Cores) |
RAM (Go) |
RAM vidéo (Go) | Disque dur (Go) |
---|---|---|---|---|
CPU UiPath |
8 |
8 |
50 | |
GPU UiPath |
1 |
4 |
8 |
50 |
CPU OmniPage |
1 |
2 |
30 |
La configuration logicielle requise pour les moteurs OCR est la même que pour Data Manager.
<IP>:<port_number>
. Le moteur OCR peut être la version locale de UiPath Document OCR, la version locale de Omnipage OCR, Google Cloud Vision OCR, Microsoft Read Azure, la version locale de Microsoft Read.
<IP>:<port_number>
. Mêmes options d'OCR que ci-dessus, à l'exception d'Omnipage, qui est disponible directement dans les Robots sous forme de module d'activités.
Les moteurs OCR ont besoin d'accéder au serveur de licences hébergé par UiPath dans Azure, sur le port 443.
Si vous souhaitez uniquement servir des modèles prêts à l'emploi pré-entraînés, vous pouvez exécuter un moteur OCR sur votre ordinateur portable Windows 10. Assurez-vous que Docker Desktop dispose de 8 Go de RAM.
Si vous souhaitez essayer d'entraîner un modèle personnalisé en tant que démo sur un petit volume de données (moins de 100 documents), vous pouvez exécuter le moteur OCR sur un environnement avec une limite de 4 Go de RAM. Pour les petits cas comme celui-ci, un GPU pour le moteur OCR peut ne pas être nécessaire.
Les moteurs OCR sont des applications conteneurisées qui s'exécutent sur Docker. Vous ne pouvez pas les exécuter sur la même machine que la version locale d'AI Center. Afin de les exécuter sur une machine distincte, les commandes d'installation préalable ci-dessous peuvent être utilisées pour configurer Docker et éventuellement les pilotes NVidia. Ces scripts ne doivent pas être exécutés sur la machine sur laquelle AI Center sera installé.
La prérequis pour les moteurs OCR est la même que pour Data Manager.
Linux
Exécutez ces commandes :
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
Sur certains systèmes, exécutez la commande deux fois ; un redémarrage du système peut être nécessaire pour installer toutes les exigences.
Spécifique à Azure : pour utiliser les machines virtuelles de la série NV, vous devez soit installer le pilote NVIDIA avant d'exécuter la commande ci-dessus, soit utiliser une extension de pilote d'Azure pour installer le pilote NVIDIA nécessaire en fonction de ce niveau de modèle de GPU.
Machines virtuelles Azure
Si vous effectuez l'installation sur une machine virtuelle dans Azure, utilisez plutôt cette commande :
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
UiPath Document OCR est une technologie OCR propriétaire d'UiPath, prenant en charge les caractères utilisés par les langues d'écriture latine suivantes : anglais, français, allemand, italien, portugais, roumain et espagnol. Le texte dans d'autres langues sera reconnu, mais sans accents, par exemple, « Ł » en polonais sera reconnu comme « L ». Les pages traitées à l'aide d'UiPath Document OCR ne sont pas prises en compte dans le quota de pages acheté avec la licence Document Understanding Enterprise, donc UiPath Document OCR est libre d'utilisation.
UiPath Document OCR est disponible à la fois en version locale en tant que conteneur Docker et dans le cloud en tant qu'API de service cloud avec l'URL : https://du.uipath.com/ocr. Consultez la description complète des URL disponibles sur la page Points de terminaison publics (Public Endpoints).
Le conteneur Docker Omnipage est destiné à être utilisé uniquement avec Data Manager, pour importer des documents dans des langues que la Reconnaissance optique de caractères de documents UiPath ne prend pas encore en charge.
Exécutez ces commandes :
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
Le point de terminaison peut être obtenu à partir de la documentation de Google Cloud Platform. L'Apikey peut être obtenue à partir de votre console Google Cloud Platform si vous disposez du service Google Cloud Vision dans votre abonnement.
Le tableau ci-dessous montre comment configurer les 6 types de moteurs OCR pris en charge dans Data Manager et AI Center.
ocr.method
correspond à la liste déroulante du moteur OCR dans la vue de création de package ML dans AI Center.
Moteur OCR |
ocr.method |
ocr.key |
ocr.url |
---|---|---|---|
UiPath |
UiPath |
UiPath Automation Cloud Clé API de Document Understanding Plan Enterprise |
|
OmniPage |
omnipage |
UiPath Automation Cloud Clé API de Document Understanding Plan Enterprise |
|
|
|
Clé API de la console GCP |
|
Microsoft Read 2.0 On-Prem |
Microsoft |
Aucun (None) |
|
Microsoft Read 2.0 Azure |
Microsoft |
Clé API pour votre ressource à partir du portail Azure |
|
Microsoft Read 3.1 On-Prem |
Microsoft |
Aucun (None) |
|
Microsoft Read 3.1 Azure |
Microsoft |
Clé API pour votre ressource à partir du portail Azure |
|
- À propos des services OCR
- Options de déploiement de la version locale
- Prérequis
- Prérequis matériels
- Prérequis logiciels
- Configuration du réseau
- Configuration minimale d'essai ou de preuve de concept
- Prérequis
- (Facultatif) Installation de la machine GPU
- Installation
- OCR de document UiPath (aperçu)
- OmniPage OCR
- Reconnaissance optique des caractères Google Cloud (Google Cloud OCR)
- Microsoft Read
- Configuration du service OCR dans Data Manager et paquets ML d'AI Center Document Understanding