document-understanding

2021.10

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Non pris en charge par l'assistance

Guide de l'utilisateur de Document Understanding

PRODUIT :

Dernière mise à jour 4 févr. 2025

Services OCR

À propos des services OCR

Les moteurs OCR sont utilisés aux fins suivantes :

Au moment de la labellisation des données, lors de l'importation de documents dans Data Manager. Les moteurs disponibles pour cette étape sont UiPath Document OCR, Google Cloud Vision OCR et Microsoft Read OCR.
Au moment de l'exécution lors de l'appel de modèles à partir de workflows RPA. Les moteurs disponibles pour cette étape sont tous les moteurs intégrés à la plate-forme UiPath RPA, y compris ceux cités plus haut, plus Abbyy Finereader, Microsoft OCR (ancien), Microsoft Project Oxford OCR et Tesseract.

En production, nous vous recommandons d'appeler l'OCR à l'aide de l'activité Numériser le document (Digitize Document) dans votre workflow et de transmettre le modèle objet de document en entrée de l'activité appelant le modèle ML. Pour cela, vous devez utiliser l'activité Machine Learning Extractor (Flux officiel).

Pour faciliter les tests, vous pouvez également configurer l'OCR directement dans AI Center (fenêtre Paramètres (Settings)), mais cela n'est pas recommandé pour les déploiements de production.

Prérequis

Cette section détaille la configuration matérielle et logicielle requise pour l'installation des moteurs OCR.

Prérequis matériels

Machines impliquées : MV dans le Cloud / Boîte locale / Ordinateur portable
Systèmes d'exploitation : Windows (Windows 10) / Linux (Ubuntu/RedHat)
Moteurs de calcul : CPU/GPU
OCR : CPU UiPath Document OCR/GPU UiPath Document OCR

	Cœurs de processeur (CPU Cores)	RAM (Go)	RAM vidéo (Go)	Disque dur (Go)
CPU UiPath	4	4		50
GPU UiPath	1	4	8	50

Prérequis logiciels

Système d'exploitation Linux

Si vous installez le produit sur une machine virtuelle dans le cloud, les systèmes d'exploitation suivants sont pris en charge :

Logiciels	Versions
Ubuntu	20.04 LTS 18.04 LTS 16.04 LTS
RHEL	7.x

Si vous installez le produit sur une machine dans un centre de données local, les systèmes d'exploitation suivants sont pris en charge :

Logiciels	Versions
Ubuntu	20.04 LTS 18.04 LTS 16.04 LTS
RHEL	7.x

Système d'exploitation Windows

Consultez le site Web officiel de Docker pour obtenir la liste des systèmes d'exploitation Windows pris en charge.

Sous Windows, votre machine nécessite que la virtualisation soit activée. Nous vous recommandons fortement de ne le faire que sur des machines physiques telles que des ordinateurs portables ou des postes de travail de bureau. Nous ne prenons pas en charge l'exécution sur Docker sous Windows dans des machines virtuelles (Cloud ou Datacenter) à l'aide de la virtualisation imbriquée.

Navigateurs

Logiciels	Versions
Google Chrome	50+

Configuration du réseau

Data Manager a besoin d'accéder au moteur OCR <IP>:<port_number>. Le moteur OCR peut être la version locale de UiPath Document OCR, Google Cloud Vision OCR, Microsoft Read Azure, la version locale de Microsoft Read.
Les robots ont besoin d'accéder à l'OCR <IP>:<port_number>. Mêmes options d'OCR que ci-dessus.
Les moteurs OCR ont besoin d'accéder au serveur de licences hébergé par UiPath dans Azure, sur le port 443.

Configuration minimale d'essai ou de preuve de concept

Si vous souhaitez uniquement servir des modèles prêts à l'emploi pré-entraînés, vous pouvez exécuter un moteur OCR sur votre ordinateur portable Windows 10. Assurez-vous que Docker Desktop dispose de 8 Go de RAM.

Si vous souhaitez essayer d'entraîner un modèle personnalisé en tant que démo sur un petit volume de données (moins de 100 documents), vous pouvez exécuter le moteur OCR sur un environnement avec une limite de 4 Go de RAM. Pour les petits cas comme celui-ci, un GPU pour le moteur OCR peut ne pas être nécessaire.

Prérequis

Les moteurs OCR sont des applications conteneurisées qui s'exécutent sur Docker. Vous ne pouvez pas les exécuter sur la même machine que la version locale d'AI Center. Afin de les exécuter sur une machine distincte, les commandes d'installation préalable ci-dessous peuvent être utilisées pour configurer Docker et éventuellement les pilotes NVidia. Ces scripts ne doivent pas être exécutés sur la machine sur laquelle AI Center sera installé.

Attention : les images Docker peuvent avoir une taille de plusieurs Go, de sorte que le dossier que Docker utilise pour stocker ses fichiers sous Linux doit se trouver sur une partition suffisamment grande pour ne pas manquer d'espace. Par défaut, il se trouve toujours sur la partition racine.

Pour voir la taille de votre partition racine, tapez ce qui suit dans le terminal et recherchez la ligne avec un / dans la colonne la plus à droite :

df -hdf -h

Si la taille de cette partition est inférieure aux exigences de stockage minimales, consultez la section Configuration du dossier de données Docker.

Installation de Docker

Linux

Suivez les instructions de la documentation officielle de Docker ou exécutez cette commande :

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu

Si cette commande échoue, alors vous avez un système d'exploitation Linux incompatible et vous devez demander à votre service informatique d'installer Docker sur la machine en suivant les instructions de la documentation officielle de Docker.

Machines virtuelles Azure

Si vous effectuez l'installation sur une machine virtuelle dans Azure, utilisez plutôt cette commande :

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure

Windows 10

Téléchargez et installez Docker Desktop. Sur les versions récemment mises à jour de Windows 10, vous aurez besoin de WSL2 installé. Ainsi, lorsqu'une boîte de dialogue indiquant « L'installation de WSL 2 est incomplète » s'affiche, cliquez sur le bouton Redémarrer (Restart).

Lors de l'exécution du Data Manager, vous devez créer un dossier de travail pour chaque conteneur Docker (peut-être nommé workdir pour le Data Manager) et inclure le chemin d'accès dans la commande docker run, après l'indicateur -v. Lorsque vous faites cela sous Windows, Docker Desktop affichera une notification comme celle ci-dessous. Vous devez cliquer sur Partager (Share it) pour continuer.

Configuration du dossier de données Docker (Linux uniquement)

Remplissez le chemin d'accès au dossier dans lequel vous souhaitez que Docker conserve ses fichiers, puis exécutez cette commande, puis redémarrez :

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>

Aide-mémoire Docker

Docker aide à transférer des logiciels dans Docker "images. Une instance en cours d'exécution d'une image est appelée un conteneur. Un conteneur peut être arrêté, supprimé, redémarré, autant de fois que nécessaire, tant que l'image est disponible.

Une fois l'image supprimée, elle est perdue. La seule façon de la récupérer est de la supprimer à nouveau du registre d'où elle provient si elle y est toujours disponible.

Un conteneur en cours d'exécution est analogue à une petite machine virtuelle, dans la mesure où il possède un filesystem et des interfaces réseau internes, qui sont distincts du filesystem et du réseau de la machine hôte. Les dossiers et les ports peuvent être mappés du conteneur à l'hôte, respectivement à l'aide des arguments –v et –p.

Dans le tableau ci-dessous, vous pouvez trouver une liste de commandes courantes pour la ligne de commande Docker.

Cliquez ici pour la liste complète des commandes Docker de base.

Commande	Description
`docker login <registry name> -u <username> -p <password>`	Connectez-vous à un registre.
`docker pull <registry name>/<image name>:<image tag>`	Téléchargez une image à partir d'un registre. La balise latest est couramment utilisée pour faire référence à la dernière version d'une image.
`docker run –d -p 5000:80 <registry name>/<image name>:<image tag>` OU `docker run –d –p 5000:80 <image id>`	Exécutez une image en mode détaché, tout en mappant le port 80 de l'intérieur du conteneur au port 5 000 sur la machine hôte, et <dossier conteneur> au <dossier hôte>. Le mode détaché signifie que le conteneur ne bloque pas le terminal, vous pouvez donc effectuer d'autres opérations sur le même terminal.
`docker images`	Répertorie les images présentes sur votre système.
`docker ps –a`	Répertorie tous les conteneurs (en cours d'exécution et arrêtés). L'identifiant du conteneur est utilisé pour faire référence à ce conteneur lorsqu'il est nécessaire de l'arrêter ou de le supprimer, par exemple.
`docker stop <container id>`	Arrêter le conteneur Cette commande ne supprime pas le conteneur, mais est requise avant sa suppression.
"`docker rm <container id>`"	Supprimer le conteneur Le conteneur doit être arrêté au préalable.
`docker logs <container id>`	Affiche les journaux du conteneur.
`docker rmi <image id>`	Supprime une ou plusieurs images du système. Permet d'économiser de l'espace de stockage, car les images peuvent occuper beaucoup d'espace.
`Docker container prune -f`	Supprimer tous les conteneurs arrêtés

Aide-mémoire du terminal Linux

Commande	Description
`sudo <any_command>`	Exécute une commande en tant qu'administrateur. Essayez ceci chaque fois que vous obtenez une erreur Autorisation refusée.
`ifconfig`	Affiche des informations sur les interfaces réseau de votre système. Trouve l'IP de votre machine dans les sections eth0 ou docker0.
`pwd`	Affiche le chemin d'accès au dossier actuel.
`ls`	Liste le contenu d'un répertoire.
`cd <folder_name>`	Accède à un autre dossier.
`mkdir <folder_name>`	Crée un dossier.

(Facultatif) Installation de la machine GPU

Linux

Exécutez ces commandes :

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

Sur certains systèmes, exécutez la commande deux fois ; un redémarrage du système peut être nécessaire pour installer toutes les exigences.

Spécifique à Azure : pour utiliser les machines virtuelles de la série NV, vous devez soit installer le pilote NVIDIA avant d'exécuter la commande ci-dessus, soit utiliser une extension de pilote d'Azure pour installer le pilote NVIDIA nécessaire en fonction de ce niveau de modèle de GPU.

Machines virtuelles Azure

Si vous effectuez l'installation sur une machine virtuelle dans Azure, utilisez plutôt cette commande :

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Installation

UiPath Document OCR

UiPath Document OCR est une technologie OCR propriétaire d'UiPath, prenant en charge les caractères utilisés par les langues d'écriture latine suivantes : anglais, français, allemand, italien, portugais, roumain et espagnol. Le texte dans d'autres langues sera reconnu, mais sans accents, par exemple, « Ł » en polonais sera reconnu comme « L ». Les pages traitées à l'aide d'UiPath Document OCR ne sont pas prises en compte dans le quota de pages acheté avec la licence Document Understanding Enterprise, donc UiPath Document OCR est libre d'utilisation.

UiPath Document OCR est disponible avec les types de déploiement suivants :

URL publiques du cloud, plus de détails à la page Points de terminaison publics (Public Endpoints page).
Version locale (y compris en mode physiquement isolé) à l'aide du package d'activités UiPath.DocumentUnderstanding.OCR.LocalServer (ne nécessite pas d'accès à Internet)
Conteneur Docker autonome local normal (nécessite un accès à Internet)
Conteneur Docker autonome physiquement isolé local (ne nécessite pas d'accès à Internet)
Version locale en tant que déploiement normal de compétence ML dans AI Center en version locale (nécessite un accès Internet)
Version locale en tant que déploiement de compétence ML dans AI Center physiquement isolé en version locale (ne nécessite pas d'accès Internet)

Pour installer le conteneur Docker autonome UiPath Document OCR, exécutez ces commandes :

docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest

Exécuter à l'aide de processeurs

docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Exécuter à l'aide du GPU

docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Dans AI Center, lors de la création d'un nouveau package ML, se trouve en bas de l'écran la section Configuration OCR facultative où vous pouvez définir le type de moteur OCR côté serveur, l'URL OCR et la clé OCR. La clé OCR est la clé API que vous obtenez dans la section Licences de votre compte Automation Cloud. C'est la configuration OCR qui sera utilisée par l'activité Extracteur d'apprentissage automatique (Machine Learning Extractor) si vous cochez la case "UseServerSideOCR". Cette case est décochée par défaut, et dans ce cas l'extracteur utilisera l'OCR dans l'activité Numériser le document (Digitize Document).

Attention : le conteneur UiPath Document OCR ne peut pas s'exécuter sur la même machine que la version locale d'AI Center.

Reconnaissance optique des caractères Google Cloud (Google Cloud OCR)

Le point de terminaison peut être obtenu à partir de la documentation de Google Cloud Platform. L'Apikey peut être obtenue à partir de votre console Google Cloud Platform si vous disposez du service Google Cloud Vision dans votre abonnement.

Microsoft Read

Attention : applicable aux points de terminaison de conteneur Azure et locaux.

Dans le cas des services Azure, vous devez fournir à la fois le point de terminaison et l'ApiKey.

Dans le cas des points de terminaison de conteneur local, la clé API n'est pas nécessaire.

Configuration du service OCR dans Data Manager et paquets ML d'AI Center Document Understanding

Le tableau ci-dessous montre comment configurer les 6 types de moteurs OCR pris en charge dans Data Manager et AI Center.

Moteur OCR	Méthode OCR	Clé OCR	URL OCR
UiPath	UiPath Document OCR	UiPath Automation Cloud Clé API de Document Understanding Plan Enterprise	`http://<IP_addr>:<port_number>`
Google	Google Cloud Vision OCR	Clé API de la console GCP	`https://vision.googleapis.com/v1/images:annotate`
Microsoft Read 2.0 On-Prem	Microsoft Read OCR	Aucun (None)	`http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze`
Microsoft Read 2.0 Azure	Microsoft Read OCR	Clé API pour votre ressource à partir du portail Azure	`<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze`
Microsoft Read 3.2 On-Prem	Microsoft Read OCR	Aucun (None)	`http://<IP_addr>:<port_number>/vision/v3.2/read/analyze`
Microsoft Read 3.2 Azure	Microsoft Read OCR	Clé API pour votre ressource à partir du portail Azure	`<Azure_resource_Endpoint>/vision/v3.2/read/analyze`