- Vue d'ensemble (Overview)
- Démarrage
- Activités (Activities)
- Tableaux de bord Insights.
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d'ensemble (Overview)
- Activités Document Understanding
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Classifieur génératif
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Consommation de données
- Appels API
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- Paquet ML - 1040x
- Paquet ML 3949a
- 4506T - Paquet ML
- Paquet ML 709
- Paquet ML 941x
- Paquet ML 9465
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesAustralie - Paquet ML
- FacturesChine - Paquet ML
- Paquet ML - Factures hébreu
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Fiches de paie - Paquet ML
- Passeports - Paquet ML
- Bons de commande - Paquet ML
- Reçus - Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Limitations du trafic
- Configuration OCR
- Pipelines
- Services OCR
- Langues prises en charge
- Apprentissage profond
- Licences
Guide de l'utilisateur de Document Understanding
Types de documents (Document Manager)
- Définir et configurer les champs à extraire par un modèle ML.
- Importer des documents à des fins de labellisation
- Pré-labelliser des documents à l'aide d'un modèle ML préexistant, tel que les modèles Extraction de factures (Invoice Extraction) ou Extraction de reçus (Receipt Extraction) fournis par UiPath prêts à l'emploi, ou à l'aide d'un modèle entraîné à l'aide d'AI Center.
- Labelliser des documents
- Exporter des documents au format attendu par les pipelines d'entraînement AI Center.
Une fois qu’un projet est créé et ouvert, vous pouvez créer un type de document en cliquant sur le bouton Nouveau (New) et en sélectionnant l’option Utiliser l’IA semi-structurée (Using Semi-Structured AI). Une nouvelle fenêtre s’ouvre et vous demande des informations supplémentaires.
Voici les options disponibles lors de la création d’une nouvelle session Type de document. En renseignant ces valeurs, vous obtenez une estimation de la taille recommandée de l’ensemble de données à utiliser comme point de départ.
De plus, en sélectionnant le type de document Prêt à l’emploi, votre schéma est automatiquement renseigné et configuré pour vous permettre de bénéficier des modèles pré-entraînés disponibles dans AI Center. Cela élimine le besoin d'importer manuellement des schémas prédéfinis, accélère votre travail et réduit les potentielles erreurs coûteuses.
En outre, le point de terminaison de pré-étiquetage est automatiquement renseigné avec le point de terminaison approprié, ce qui facilite l’utilisation de la pré-labellisation immédiatement après l’ouverture du nouveau type de document.
Option |
Description |
---|---|
Nom (obligatoire) |
Attribuez un nom au nouveau type de document. |
Type de document prêt à l’emploi (obligatoire) |
Sélectionnez l’un des types de documents pré-entraînés prêts à l’emploi disponibles dans la liste déroulante. |
Champs réguliers prêts à l’emploi (facultatif) |
Sélectionnez les champs de classification prédéfinis que vous souhaitez extraire de vos documents. |
Champs de colonne prêts à l' emploi (facultatif) |
Sélectionnez les champs de classification prédéfinis que vous souhaitez extraire de vos documents. |
Champs de classification prêts à l’emploi (facultatif) |
Sélectionnez les champs de classification prédéfinis que vous souhaitez extraire de vos documents. |
Champs de colonne personnalisés (facultatif) |
Saisissez le nombre de champs de colonnes supplémentaires que vous souhaitez extraire de vos documents. |
Champs de colonne personnalisés (facultatif) |
Saisissez le nombre de champs de colonnes supplémentaires que vous souhaitez extraire de vos documents. |
Nombre de langues (facultatif) |
Saisissez le nombre de langues pour les documents que vous devez extraire. |
Nombre de mises en page (facultatif) |
Saisissez le nombre de mises en page pour les documents que vous devez extraire. |
L'interface de Document Manager contient les panneaux suivants :
- Barre de gestion
- Champs de colonnes
- Champs réguliers
- Champs de classification
- Affichage du document
Affiché en haut de la page dans Document Manager.
Vous permet d'effectuer plusieurs opérations : naviguer entre les documents, supprimer/restaurer un document, rechercher/filtrer des documents, exécuter des prédictions de modèle d'IA, importer et exporter des documents.
Voici les éléments disponibles dans la barre de gestion :
Elément |
Icon |
Description |
---|---|---|
Navigation |
|
Naviguez entre les documents qui correspondent au filtre actif. Entre les deux flèches, un compteur s'affiche. Il représente le numéro du document actuel sur le nombre total de documents qui correspondent au filtre ou à la recherche active. |
Rechercher |
|
Il existe deux fonctionnalités de recherche :
|
Supprimer / Restaurer |
|
Supprime ou restaure un document. Les documents supprimés peuvent être trouvés sous le filtre supprimé (deleted). |
Importer (Import) |
|
Ouvrez la boîte de dialogue Importer des données (Import data). |
Exporter (Export) |
|
Ouvrez la boîte de dialogue Exporter les fichiers (Export files). |
Nom et type de document |
s/o |
Le nom et le type du document actuellement actif. Il existe trois types de documents :
Les documents d’entraînement et de validation font partie des ensembles de données d’entraînement utilisés par les Pipelines d'entraînement (Training Pipelines). Les documents d’évaluation sont ignorés par les Pipelines d’entraînement et sont destinés à être utilisés uniquement pour les Pipelines d’évaluation dans AI Center. Ces documents sont ceux qui ont été marqués comme évaluation en cochant la case Marquer cet ensemble d’évaluation dans la boîte de dialogue Importer des données. |
Télécharger |
L'option est disponible dans le menu déroulant à côté du nom du document. Cliquez sur l'icône pour télécharger un fichier zip contenant le document original. Outre le document d'origine, toutes les pages converties en interne par Document Manager en images
.jpeg sont également téléchargées.
| |
Permanently delete |
L'option est disponible dans le menu déroulant à côté du nom du document. Supprime définitivement les fichiers individuels. Le
.pdf et toutes ses images .jpeg sont supprimés de l'ensemble de données AI Center et toutes les métadonnées sont supprimées de la base de données.
Lorsque vous cliquez sur le bouton, un message contextuel apparaît vous demandant si vous êtes sûr de vouloir supprimer définitivement le document. Cliquez sur OK pour continuer ou sur Annuler (Cancel) pour revenir à l'écran précédent. | |
Nom du lot |
s/o |
Le nom du lot actuel. |
Nom de la session |
s/o |
Le nom de la session en cours. |
Prévoir (Predict) Remarque : la fonctionnalité Prévoir (Predict) repose sur UiPath DocPath, mais uniquement pour les locataires basés dans la région Europe. Si votre locataire est situé dans une région hors de l’Europe, cette fonctionnalité utilise l’architecture de modèle de la génération précédente.
|
Exécutez les prédictions du modèle d'IA et affichez les résultats. Après avoir configuré le prébalisage, le bouton est activé dans la barre de gestion. Cliquez dessus pour prébaliser le document actuel. Le bouton a trois options :
La fonctionnalité d'annotation générative (prébalisage) supprime toutes les valeurs de champ modifiées manuellement pour tous les types de champ et supprime toutes les balises du document. Pour le moment, l'utilisation de l'option Prévoir (Predict) avec les prébalisages Points de terminaison publics (Public Endpoints) ne prébalise que les 10 premières pages d'un document. Il s'agit d'un problème connu et un correctif est en préparation. Cependant, utiliser l'option Prévoir (Predict) avec des compétences ML dans AI Center n'impose pas une telle limitation. Le prébalisage génératif ne consomme pas d’AI Units lorsque sont utilisés des points de terminaison publics ou des compétences déployées dans Automation Cloud™ à partir de sessions Document Manager hébergées sur Automation Cloud. Le prébalisage génératif consomme des AI Units lorsqu’un point de terminaison public est appelé à partir d’une session hébergée sur Automation Suite, ou bien lorsqu’une compétence déployée dans Automation Suite est appelée à partir d’une session Document Manager hébergée sur Automation Cloud. | |
Paramètres |
Configurez les paramètres d'OCR et de pré-labellisation, ou accédez au panneau Comment... (How to...). Voir plus de détails ci-dessous. |
Options Supprimer (Delete) et Supprimer définitivement (Permanently Delete)
Allons un peu plus loin pour comprendre la différence entre les options Supprimer (Delete) et Supprimer définitivement (Permanently Delete).
- L’option Supprimer (Delete) supprime les fichiers, mais ne les supprime pas entièrement de votre projet. Les fichiers supprimés peuvent toujours être trouvés sous le filtre supprimé de la barre de recherche et restaurés à l’aide de l’option Restaurer.
-
L’option Supprimer définitivement (Permanently Delete) supprime les fichiers sélectionnés sans aucune possibilité de les restaurer.
Options de recherche
Trois options de recherche sont disponibles au total, deux sont présentes dans la barre de gestion en haut de la page, et une utilise l'icône en bas à gauche de la page.La fonctionnalité de recherche exposée comprend deux parties :
-
Rechercher à l'aide des filtres intégrés : filtre les documents en fonction des options de lot/catégorie disponibles dans le menu déroulant.
La sélection de plus d'options rend la recherche plus restrictive. Par exemple, sélectionner Batch import1 et Supprimé (Deleted) affiche uniquement les documents importés dans Batch import1 qui sont supprimés.
Prenez note des combinaisons qui renverront toujours une liste vide : la sélection de Batch import1 et Batch import2 ne renverra jamais un document, car la sélection est restrictive et aucun document ne peut faire partie de deux lots à la fois.
-
Rechercher dans les documents par mots-clés : cette barre de recherche filtre les informations en fonction de la saisie de texte. Vous devez saisir le ou les mots clés sous forme de texte libre dans la barre de recherche. La recherche porte sur le ou les mots clés dans le contenu d'un document ou le nom du document. La recherche par mots multiples renvoie des résultats lorsque les mots sont adjacents, en excluant toute ponctuation entre eux.
-
La recherche au sein d'un document vous permet de rechercher des instances de texte uniquement dans le document actuel. La barre de recherche se trouve en bas à gauche de l'écran.
Menu Paramètres
Le bouton Paramètres a deux options disponibles :
- Paramètres (Settings) où vous pouvez configurer le service OCR ou le prébalisage (Prelabelling)
- Comment... qui sert de menu d'aide
OCR
Pour importer des documents dans Document Manager, il est obligatoire de configurer un service OCR.
Les options suivantes sont disponibles :
Ce paramètre est disponible uniquement pour les types de documents (sessions Data Manager) créés dans AI Center. Lorsqu'il est créé dans Document UnderstandingTM, ce paramètre est hérité des paramètres du projet. Si vous souhaitez modifier ces paramètres dans Document UnderstandingTM, revenez à la vue Projet et ouvrez les paramètres du projet en bas à gauche.
Les options basées sur le cloud sont :
- UiPath® Document OCR :
https://du.uipath.com/ocr
; - OCR pour le chinois, japonais, coréen
- Google Cloud Vision OCR qui offre la meilleure couverture linguistique ;
- Google Cloud Vision OCR for Japanese, optimal pour la lecture de documents japonais ;
- Microsoft Read OCR.
URL OCR
La configuration de la reconnaissance optique de caractères nécessite que le service OCR ait une URL. Voici les URL que vous pouvez utiliser :
- URL publiques telles que
https://du.uipath.com/ocr
ou URL tierces de reconnaissance optique de caractères Google Vision ou Microsoft Read
Clé OCR
La clé API (API Key) correspondante pour le moteur OCR sélectionné. Par exemple, pour UiPath Document OCR, vous devez utiliser la clé API (API Key) Document Understanding. Obligatoire pour Document Manager Cloud et la version locale de Document Manager en ligne (On-Prem Online). Elle n'est pas requise pour la version locale physiquement isolée de Document Manager (On-Prem Air-gapped).
Pour plus d’informations, consultez la page Utilisation cloud et locale.
Appliquer l'OCR aux PDF
Détermine si le processus OCR doit être appliqué ou non aux documents PDF. S’il est défini sur Vrai, l’OCR est appliqué à toutes les pages PDF du document. S’il est défini sur Faux, seul le texte saisi numériquement est extrait. Lorsqu’il est défini sur Auto, il évalue si le document nécessite l’application de l’algorithme OCR en fonction du document d’entrée. La valeur par défaut est Auto.
Si vous disposez déjà d’un modèle capable d’extraire certains des champs nécessitant d’être libellés et que seuls quelques champs supplémentaires nécessitent un libellé manuel, vous pouvez gagner du temps en utilisant la fonctionnalité de prébalisage de Document Manager.
Le prébalisage permet de fusionner les résultats du point de terminaison de prébalisage que vous avez configuré dans les paramètres de prébalisage, ainsi que la prédiction générative.
Si aucun point de terminaison de prébalisage n’est configuré, tous les champs sont prédits à l’aide de la prédiction générative uniquement.
Les options suivantes sont disponibles :
URL de prébalisage
Le prébalisage nécessite que le modèle ML dispose d’une URL. Vous pouvez utiliser les URL suivantes :
- URL publiques telles que
https://du.uipath.com/ie/invoices or https://du.uipath.com/ie/purchase_orders
.Visitez la page Points de terminaison publics pour voir la liste complète des points de terminaison.
- URL des compétences ML rendues publiques dans AI Center local ou AI Center cloud.
Clé de prébalisage
La clé API de Document Understanding/AI Units. La clé de prébalisage est la clé API Document Understanding de l’organisation où réside la compétence.
La clé est obligatoire pour la version cloud de Document Manager ainsi que la version locale en ligne. La clé est facultative pour la version locale physiquement isolée de Document Manager.
Comment...
L’option Comment... permet d’ouvrir le menu d’aide de Document Manager.
Vous trouverez les informations suivantes dans le menu d’aide :
- La version de Document Manager.
- Le lien Documentation menant à cette page de documentation.
- La section Contrôles de libellés (Labeling Controls) qui affiche les contrôles à utiliser lors de la gestion des données.
- La section Raccourcis du document (Document Shortcuts) qui affiche les raccourcis utilisés pour effectuer diverses opérations telles que la navigation et la mise à l'échelle de l'interface utilisateur.
- La section Configuration qui affiche des détails sur la configuration de l'instance telle qu'elle a été effectuée lors de l'installation.
Commandes de balisage
Commande |
Description |
---|---|
Clic gauche | Coche les cases S’il est utilisé avec le raccourci clavier du champ, il affecte les informations sélectionnées au champ. |
Retour arrière/Supprimer | Supprime la valeur balisée d’un champ. |
Cliquer-droit | Affiche le texte OCR et le libellé actuel. |
Entrée ou barre oblique inverse | Regroupe des lignes de tableau couvrant plusieurs lignes de texte |
Raccourcis pour les documents
Raccourci |
Description |
---|---|
Alt + Flèche gauche/Flèche droite | naviguer entre les documents |
Alt + Suppr | Supprime ou récupère un document. |
Ctrl + Défilement | Ctrl + Défilement - Modifie la mise à l’échelle du document en effectuant un zoom avant ou arrière. |
- Créer un nouveau champ de colonne
- Modifier le champ
- Développer/réduire les valeurs des champs de la colonne
Pour plus de détails sur les champs de colonne, consultez cette section.
- Créer un nouveau champ régulier
- Modifier le champ
Pour plus de détails sur les champs réguliers, consultez cette section.
- Créer un nouveau champ de classification
- Modifier le champ
Pour plus de détails sur les champs de classification, consultez cette section.
Ctrl
+ molette de la souris.
Vous pouvez labelliser les documents en sélectionnant les zones de mots et en les affectant à un champ en appuyant sur une touche. Vous pouvez également cliquer avec le bouton droit sur la zone de mot et vérifier les informations extraites.
Pour plus de détails sur la labellisation des documents, visitez cette page.
Lorsque vous ouvrez une nouvelle session Document Manager ou lorsque vous avez un filtre vide, certaines directives s'affichent dans la vue du document :
De plus, les échecs de chargement sont également affichés dans la vue du document :