- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Keyword Based Classifier
- Intelligent Keyword Classifier
- FlexiCapture Classifier
- Machine Learning Classifier
- Activités liées à la classification des documents
- Vue d’ensemble de l'entraînement de la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Machine Learning Classifier Trainer
- Activités liées à l'entraînement de la classification des documents
- Vue d’ensemble de l’extraction des données
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
- Activités liées à l'extraction de données
- Consommation de données
- Paquets ML
- Pipelines
- Document Manager
- Services OCR
- Document Understanding déployé dans Automation Suite
- Installer et utiliser
- Première expérience d'exécution
- Déployer UiPathDocumentOCR
- Déployer un paquet ML prêt à l'emploi
- Offres groupées hors ligne 2022.10.0
- Offres groupées hors ligne 2022.10.2
- Bundles 2022.10.4 hors ligne
- Bundles hors ligne 2022.10.6
- Bundles 2022.10.9 hors ligne
- Bundles 2022.10.10 hors ligne
- Bundles 2022.10.11 hors ligne
- Bundles 2022.10.12 hors ligne
- Bundles 2022.10.13 hors ligne
- Bundles 2022.10.14 hors ligne
- Utiliser le gestionnaire de documents
- Utiliser l'infrastructure
- Document Understanding déployé dans une version AI Center autonome
- Apprentissage profond
- Licences
- Référence (Reference)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
À propos de Document Manager
UiPath Document Manager est une application Web légère qui permet aux utilisateurs de préparer, de réviser et d'apporter des corrections aux ensembles de données requis pour l'entraînement et l'évaluation des modèles d'apprentissage automatique de Document Understanding. Elle permet à plusieurs utilisateurs d'effectuer diverses opérations :
Définir et configurer les champs à extraire par un modèle ML.
Importer des documents à des fins de labellisation
Pré-labelliser des documents à l'aide d'un modèle ML préexistant, tel que les modèles Extraction de factures (Invoice Extraction) ou Extraction de reçus (Receipt Extraction) fournis par UiPath prêts à l'emploi, ou à l'aide d'un modèle entraîné à l'aide d'AI Center.
Labelliser des documents
Exporter des documents au format attendu par les pipelines d'entraînement AI Center.
L'interface de Document Manager contient les panneaux suivants :
Affiché en haut de la page dans Document Manager.
Vous permet d'effectuer plusieurs opérations : naviguer entre les documents, supprimer/restaurer un document, rechercher/filtrer des documents, exécuter des prédictions de modèle d'IA, importer et exporter des documents.
Voici les éléments disponibles dans la barre de gestion :
Elément |
Icon |
Description |
---|---|---|
Navigation |
|
Naviguez entre les documents qui correspondent au filtre actif. Entre les deux flèches, un compteur s'affiche. Il représente le numéro du document actuel sur le nombre total de documents qui correspondent au filtre ou à la recherche active. |
|
|
Rechercher ou filtrer des documents. Un filtre est également appliqué lors de l'exportation de documents. Vous pouvez également filtrer par mots d'un document ou par noms de documents. |
Supprimer / Restaurer |
/ |
Supprime ou restaure un document. Les documents supprimés peuvent être trouvés sous le filtre supprimé (deleted). |
|
|
Ouvrez la boîte de dialogue Importer des données (Import data). |
|
|
Ouvrez la boîte de dialogue Exporter les fichiers (Export files). |
Nom et type de document |
s/o |
Le nom et le type du document actuellement actif. Il existe trois types de documents :
Les documents d’entraînement et de validation font partie des ensembles de données d’entraînement utilisés par les Pipelines d'entraînement (Training Pipelines). Les documents d’évaluation sont ignorés par les Pipelines d’entraînement (Training Pipelines) et sont destinés à être utilisés uniquement pour les Pipelines d'évaluation (Evaluation Pipelines) dans AI Center. Ces documents sont ceux qui ont été marqués comme évaluation en cochant la case Marquer cet ensemble d'évaluation (Mark this an evaluation set) dans la boîte de dialogue Importer des données (Import data). |
Télécharger |
|
L'option est disponible dans le menu déroulant à côté du nom du document. Cliquez sur l'icône pour télécharger un fichier zip contenant le document original. Outre le document d'origine, toutes les pages converties en interne par Document Manager en images
.jpeg sont également téléchargées.
|
Permanently delete |
|
L'option est disponible dans le menu déroulant à côté du nom du document. Supprime définitivement les fichiers individuels. Le
.pdf et toutes ses images .jpeg sont supprimés de l'ensemble de données AI Center et toutes les métadonnées sont supprimées de la base de données.
Lorsque vous cliquez sur le bouton, un message contextuel apparaît vous demandant si vous êtes sûr de vouloir supprimer définitivement le document. Cliquez sur OK pour continuer ou sur Annuler (Cancel) pour revenir à l'écran précédent. |
Nom de la session |
s/o |
Le nom de la session en cours. |
Prévoir (Predict) |
|
Exécutez les prédictions du modèle d'IA et affichez les résultats. Après avoir configuré le prébalisage, le bouton est activé dans la barre de gestion. Cliquez dessus pour prébaliser le document actuel. Pour le moment, l'utilisation de l'option Prévoir (Predict) avec les prébalisages Points de terminaison publics (Public Endpoints) ne prébalise que les 10 premières pages d'un document. Il s'agit d'un problème connu et un correctif est en préparation. Cependant, utiliser l'option Prévoir (Predict) avec des compétences ML dans AI Center n'impose pas une telle limitation. |
Paramètres |
|
Configurez les paramètres d'OCR et de pré-labellisation, ou accédez au panneau Comment... (How to...). Voir plus de détails ci-dessous. |
Options Supprimer (Delete) et Supprimer définitivement (Permanently Delete)
Allons un peu plus loin pour comprendre la différence entre les options Supprimer (Delete) et Supprimer définitivement (Permanently Delete).
- L’option Supprimer (Delete) supprime les fichiers, mais ne les supprime pas entièrement de votre projet. Les fichiers supprimés peuvent toujours être trouvés sous le filtre supprimé de la barre de recherche et restaurés à l’aide de l’option Restaurer.
- L’option Supprimer définitivement (Permanently Delete) supprime les fichiers sélectionnés sans aucune possibilité de les restaurer.
Observez l’utilisation des deux options dans le GIF ci-dessous :
Options de recherche
La barre de recherche est à la fois un champ de saisie de texte et une liste déroulante.
Les options de recherche peuvent être saisies en écrivant dans la Barre de recherche (Search bar) ou en sélectionnant un filtre dans la liste déroulante. Il existe trois manières principales d’initialiser une recherche :
- Utiliser les filtres intégrés disponibles dans la liste déroulante de la barre de recherche. Vous pouvez choisir l'un des filtres suivants : ensemble-train, ensemble -valide, ensemble-valide-train, ensemble-d'évaluation, supprimé, labellisé, non étiqueté.
Remarque : veuillez noter que pour Forms AI, seuls les filtres intégrés suivants sont disponibles : supprimé, labellisé, non labellisé.
- Utilisation des noms de lots d'importation. Ceux-ci sont également disponibles dans la liste déroulante de la barre de recherche. S'il est ajouté manuellement, le format est
batch:name
, oùname
est remplacé par le nom que vous avez donné à un lot au moment de l'importation, par exemplebatch:invoices1
- Utilisation de mots clés. Vous devez saisir le ou les mots clés sous forme de texte libre dans la barre de recherche. La recherche porte sur le ou les mots clés dans le contenu d’un document ou le nom du document.
Vous pouvez choisir d’utiliser une ou plusieurs options de recherche. Chaque option supplémentaire utilisée génère un réseau de recherche plus spécifique. Voici quelques exemples de recherche qui commencent par un vaste réseau et progressent lentement vers une recherche plus précise :
- le lancement d’une recherche
labelled
renvoie tous les documentslabelled
de l’ensemble de données. - le lancement d’une recherche
batch:invoices1
renvoie tous les documents labellisés qui font partie du lotinvoices1
. - le lancement d'une recherche
labelled batch:invoices1
renvoie tous les documents labellisés qui font partie du lotinvoices1
. - le lancement d’une recherche
labelled batch:invoices1 vermont
renvoie tous les documents labellisés du lotinvoices1
qui contiennent le mot-clé entré, dans ce casvermont
, soit dans le nom du document, soit dans le contenu du document.
La barre de recherche comporte un menu déroulant qui, lorsqu’il est ouvert, affiche les filtres suivants :
- train-set : indique le nombre de documents à utiliser pour entraîner le modèle. Action automatisée.
- validate-set : indique le nombre de documents à utiliser pour valider le modèle une fois son apprentissage terminé. La répartition entre le train et l’ensemble de validation devrait être comprise entre 80 et 20 %. Action automatisée.
- train-validate-set : indique le nombre de documents trouvés dans les filtres train-set et validate-set. Action automatisée (Automated action).
- ensemble d’évaluations : indique le nombre de documents pour lesquels la case Ensemble d’évaluations (evaluation set) a été cochée lors de l’importation et qui sont destinés à être utilisés pour évaluer le modèle dans l’étape du pipeline d’entraînement. Vous trouverez plus d’informations ici. Action manuelle.
- supprimé : spécifie le nombre de documents supprimés. Vous trouverez plus d’informations ici.
- non labellisé : spécifie le nombre de documents qui n’ont pas de libellé. Un libellé est défini par au moins un champ balisé/modifié manuellement par document.
- non labellisé : spécifie le nombre de documents qui n’ont pas de libellé.
- batch:name - Spécifie les documents qui ont été inclus dans la même action d’importation.
L’affectation d’un document aux ensembles d’entraînement ou de validation est effectuée par l’application au moment de l’importation.
Le document importé se retrouve dans l’ensemble d’évaluation si la case Ensemble d’évaluation est cochée lors de l’importation.
Menu Paramètres
Le bouton Paramètres a deux options disponibles :
- Paramètres (Settings) où vous pouvez configurer le service OCR ou le prébalisage (Prelabelling)
- Comment... qui sert de menu d'aide
Pour importer des documents dans Document Manager, il est obligatoire de configurer un service OCR.
Les options suivantes sont disponibles :
Méthode OCR
Les options basées sur le cloud sont :
- Reconnaissance optique de caractères de documents UiPath (UiPath Document OCR) - https://du.uipath.com/ocr ;
- Google Cloud Vision OCR qui offre la meilleure couverture linguistique ;
- Google Cloud Vision OCR for Japanese, optimal pour la lecture de documents japonais ;
- Microsoft Read OCR.
URL OCR
La configuration de la reconnaissance optique de caractères nécessite que le service OCR ait une URL. Voici les URL que vous pouvez utiliser :
- URL publiques telles que https://du.uipath.com/ocr ou des URL tierces de la reconnaissance optique de caractères Google Vision ou Microsoft Read
Clé OCR
La clé API (API Key) correspondante pour le moteur OCR sélectionné. Par exemple, pour UiPath Document OCR, vous devez utiliser la clé API (API Key) Document Understanding. Obligatoire pour Document Manager Cloud et la version locale de Document Manager en ligne (On-Prem Online). Elle n'est pas requise pour la version locale physiquement isolée de Document Manager (On-Prem Air-gapped).
prébalisage
Si vous disposez déjà d'un modèle capable d'extraire certains des champs nécessitant d'être libellés et que seuls quelques champs supplémentaires nécessitent un libellé manuel, vous pouvez gagner beaucoup de temps en utilisant la fonctionnalité de prébalisage de Document Manager.
Les options suivantes sont disponibles :
URL de prébalisage
La prélabellisation nécessite que le modèle ML possède une URL. Voici les URL que vous pouvez utiliser :
- URL publiques telles que https://du.uipath.com/ie/invoices ou https://du.uipath.com/ie/purchase_orders
- Voir la liste complète des points de terminaison ici
- URL des compétences ML rendues publiques dans la version locale d'AI Center ou AI Center Cloud
Clé de prébalisage
La clé API (API Key) de Document Understanding. Obligatoire pour Document Manager Cloud et la version locale de Document Manager en ligne (On-Prem Online). Elle n'est pas requise pour la version locale physiquement isolée de Document Manager (On-Prem Air-gapped).
Comment...
L'option Comment... accède au menu d'aide de Document Manager.
Ici, vous pouvez trouver :
- La version de Document Manager
- Le lien Documentation menant à cette page de documentation.
- La section Contrôles de libellés (Labeling Controls) qui affiche les contrôles à utiliser lors de la gestion des données.
- La section Raccourcis du document (Document Shortcuts) qui affiche les raccourcis utilisés pour effectuer diverses opérations telles que la navigation et la mise à l'échelle de l'interface utilisateur.
- La section Configuration qui affiche des détails sur la configuration de l'instance telle qu'elle a été effectuée lors de l'installation.
Les champs de colonne ont les options suivantes :
- Créer un nouveau champ de colonne
- Modifier le champ
- Développer/réduire les valeurs des champs de la colonne
Pour plus de détails sur les champs de colonne, consultez cette section.
Les champs réguliers ont les options suivantes :
- Créer un nouveau champ régulier
- Modifier le champ
Pour plus de détails sur les champs réguliers, consultez cette section.
Les champs de classification ont les options suivantes :
- Créer un nouveau champ de classification
- Modifier le champ
Pour plus de détails sur les champs de classification, consultez cette section.
Ctrl
+ molette de la souris.
Vous pouvez labelliser les documents en sélectionnant les zones de mots et en les affectant à un champ en appuyant sur une touche. Vous pouvez également cliquer avec le bouton droit sur la zone de mot et vérifier les informations extraites.
Pour plus de détails sur la labellisation des documents, visitez cette page.
Lorsque vous ouvrez une nouvelle session Document Manager ou lorsque vous avez un filtre vide, certaines directives s'affichent dans la vue du document :
De plus, les échecs de chargement sont également affichés dans la vue du document :