- Démarrage
- Composants de l'infrastructure
- Vue d’ensemble de l’extraction des données
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
- Activités liées à l'extraction de données
- Document Understanding dans AI Center
- Pipelines
- Paquets ML
- Data Manager
- Services OCR
- Licences
- Référence (Reference)
Guide de l'utilisateur de Document Understanding
Configurer l'OCR
Pour importer des documents dans Data Manager, il est obligatoire de configurer un service OCR. C'est possible à partir de la vue Paramètres (Settings) > Reconnaissance optique de caractères (OCR) accessible via le bouton en haut à droite de l'écran.
La configuration de la reconnaissance optique de caractères nécessite que le service OCR ait une URL. Voici les URL que vous pouvez utiliser :
- URL publiques telles que https://du.uipath.com/ocr ou des URL tierces de la reconnaissance optique de caractères Google Vision ou Microsoft Read ;
- URL des conteneurs autonomes de la reconnaissance optique de caractères UiPath ou Omnipage fournis par UiPath déployés sur site ;
- URL du package de reconnaissance optique de caractères ML déployé en tant que compétences ML rendues publiques dans AI Center sur site v2020.10 ou version ultérieure.
Important :Si vous exécutez la reconnaissance optique de caractères sur la même machine que Data Manager, n'utilisez pas
localhost
pour faire référence à la machine locale ; utilisez plutôt l'adresse IP ou le nom de domaine de la machine locale.
Dans le cas des URL de la reconnaissance optique de caractères déployée comme compétence ML publique dans AI Center sur site, utilisez l'URL telle qu'elle apparaît dans l'écran des détails des compétences ML MAI Center.
Le choix du moteur OCR à utiliser pour importer des documents dans Data Manager est déterminant.
Il est recommandé d'utiliser le même moteur pour importer les données d'apprentissage (temps d'apprentissage) que celui qui sera utilisé lors du déploiement du modèle (temps d'exécution).
Nous vous conseillons d'en essayer quelques-uns pour voir lequel fonctionne le mieux sur vos documents, et de ne faire votre choix qu'ensuite.
Les options sur site sont :
- Le conteneur de reconnaissance optique de caractères UiPath (UiPath OCR) qui prend en charge les principales langues d'Europe occidentale ;
- Le conteneur de Reconnaissance optique de caractères Omnipage (Omnipage OCR (également disponible auprès d'UiPath) qui fonctionne le mieux sur les documents correctement numérisés et qui présente la meilleure prise en charge linguistique ;
- Le conteneur Microsoft Read (disponible en préversion auprès de Microsoft) offre également une bonne couverture linguistique ;
- Compétences ML de reconnaissance optique de caractères UiPath déployées dans AI Center sur site v2020.10 ou version ultérieure.
Les options basées sur le cloud sont :
- Reconnaissance optique de caractères de documents UiPath (UiPath Document OCR) - https://du.uipath.com/ocr ;
- La reconnaissance optique de caractères Google Cloud, qui offre la meilleure couverture linguistique ;
- Reconnaissance optique de caractères Microsoft Read Azure.