- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Keyword Based Classifier
- Intelligent Keyword Classifier
- FlexiCapture Classifier
- Machine Learning Classifier
- Activités liées à la classification des documents
- Vue d’ensemble de l'entraînement de la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Machine Learning Classifier Trainer
- Activités liées à l'entraînement de la classification des documents
- Vue d’ensemble de l’extraction des données
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
- Activités liées à l'extraction de données
- Consommation de données
- Paquets ML
- Pipelines
- Document Manager
- Services OCR
- Document Understanding déployé dans Automation Suite
- Installer et utiliser
- Première expérience d'exécution
- Déployer UiPathDocumentOCR
- Déployer un paquet ML prêt à l'emploi
- Offres groupées hors ligne 2022.10.0
- Offres groupées hors ligne 2022.10.2
- Bundles 2022.10.4 hors ligne
- Bundles hors ligne 2022.10.6
- Bundles 2022.10.9 hors ligne
- Bundles 2022.10.10 hors ligne
- Bundles 2022.10.11 hors ligne
- Bundles 2022.10.12 hors ligne
- Bundles 2022.10.13 hors ligne
- Bundles 2022.10.14 hors ligne
- Utiliser le gestionnaire de documents
- Utiliser l'infrastructure
- Document Understanding déployé dans une version AI Center autonome
- Apprentissage profond
- Licences
- Référence (Reference)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Labelliser des documents
Pour connaître les volumes de documents nécessaires, consultez Pipelines.
Pour plus de détails sur la façon d'assembler un ensemble de données de haute qualité, consultez Entraîner des modèles hautement performants.
Il existe de nombreuses situations où un champ apparaît à plusieurs endroits dans le même document, voire sur la même page. Ceux-ci doivent tous être labellisés du moment qu'ils ont la même signification.
Par exemple, le montant total des factures de services publics. Il apparaît souvent en haut, dans une liste d'éléments au milieu, ou dans une fiche de paie, en bas, dans une zone qui peut être détachée et envoyée par la poste avec le chèque. Dans cette situation, les trois occurrences devront être labellisées. Ceci est utile car, dans certains cas, s'il y a une erreur d'OCR ou si la mise en page est différente et qu'un champ ne peut pas être identifié, le modèle peut toujours identifier les autres occurrences.
Vous pouvez demander à plusieurs utilisateurs d'utiliser la même instance pour pouvoir labelliser en même temps, même sur le même document.
S'il y a des modifications simultanées sur le schéma, pour un utilisateur, la modification est appliquée, et pour l'autre ou les autres, un message d'avertissement s'affiche indiquant que les modifications n'ont pas pu être effectuées. Les autres utilisateurs doivent immédiatement actualiser leur navigateur pour voir les modifications.
Lorsque vous importez un ensemble de données sans cocher la case En faire un ensemble de tests (Make this an Evaluation set) dans la boîte de dialogue Importer des données (Import Data), cet ensemble de données sera utilisé pour l'entraînement et vous n'aurez qu'à vous concentrer sur la labellisation des mots (boîtes grises) sur le document.
Si de temps en temps, le texte qui est rempli dans les champs de la barre latérale n'est pas correct, ce n'est pas un problème car le modèle ML apprend toujours. Dans certains cas, vous devrez peut-être ajuster la configuration des champs, par exemple, en cochant la case Multi-ligne (Multi-line). Mais, en général, l'accent est mis sur la labellisation des mots sur la page.
Lorsque vous importez un ensemble de données et que vous cochez la case En faire un ensemble de tests (Make this an Evaluation set) dans la boîte de dialogue Importer des données (Import Data), cet ensemble de données ne sera pas utilisé par les pipelines d'entraînement (Training Pipelines) dans AI Center, mais uniquement par les pipelines d'évaluation (Evaluation Pipelines).
Il est important que le texte correct soit rempli dans les champs de la barre latérale (ou la barre supérieure pour les champs de colonne). Cela prend beaucoup plus de temps à vérifier pour chaque champ, mais c'est le seul moyen d'obtenir une mesure fiable de la précision du modèle de ML que vous construisez.
À partir de la version 2021.10, Document Manager prend en charge la labellisation des documents multi-pages. Par conséquent, les champs de la barre latérale ont une valeur unique pour l'ensemble du document. Cela reflète étroitement le comportement au moment de l'exécution dans le workflow RPA et permet aux pipelines d'évaluation dans AI Center de produire des scores réalistes reflétant les performances d'exécution réelles des modèles ML.
Cependant, gardez à l'esprit qu'il s'agit d'un changement majeur par rapport aux versions précédentes où chaque page était labellisée séparément. La labellisation et l'exportation de documents de plusieurs pages supposent que chaque document représente un seul document logique. Par exemple, un document de six pages peut contenir une seule facture de six pages, mais il ne doit pas contenir trois factures différentes de deux pages chacune. Ceci est particulièrement important pour les ensembles d'évaluation.
Voir ci-dessous les principales actions que vous devez effectuer lors de la labellisation des documents. Un champ donné peut être labellisé à plusieurs endroits sur la même page.
Sélectionnez une zone de texte individuelle en cliquant dessus.
Ctrl
/ Shift
+ cliquez sur le reste des mots souhaités ou sélectionnez une zone entière en faisant glisser la souris (cadre de sélection) dessus.
Ctrl
/ Shift
, cliquez ou étirez à nouveau les zones de texte indésirables.
Lorsque votre sélection est précise, appuyez sur la touche de raccourci pour labelliser le champ.
Assurez-vous que l’option à plusieurs valeurs du champ est sélectionnée.
Sélectionnez le premier lot d’informations et appuyez sur la touche de raccourci pour étiqueter le champ.
Répétez les étapes ci-dessus jusqu’à ce que toutes les valeurs soient étiquetées pour le champ à plusieurs valeurs.
- Les champs à plusieurs valeurs ne peuvent être utilisés qu’avec les packages d’apprentissage automatique version 2022.10 ou ultérieure.
- Un champ à plusieurs valeurs affiche deux valeurs dans son état réduit et toutes les valeurs dans son état développé. Cliquez sur la flèche de développement (Expand) du champ à plusieurs valeurs pour développer et visualiser la liste de toutes les valeurs marquées.
Delete
ou Backspace
de votre clavier.
/
pour indiquer qu'elles font partie de la même ligne de tableau. Une boîte verte apparaîtra autour du groupe.
Lorsqu’un champ de colonne labellisé est regroupé, la table est analysée et affichée en haut, mettant en surbrillance les données extraites.
Cliquez sur le texte dans la barre latérale ou la barre supérieure et modifiez le contenu. Un petit cadenas apparaît pour indiquer que le champ a été modifié manuellement. Ceci est nécessaire lors de la labellisation des ensembles de tests.
Cliquez sur le cadenas et le champ reviendra à sa valeur extraite automatiquement.
Sélectionner un libellé
Utilisez les boutons gauche ou droit de la souris pour sélectionner une case ou pour obtenir plus d’informations à son sujet.
- Clic gauche - sélectionne la case
- Clic droit - Sélectionne la case et affiche des informations sur le texte OCR et le libellé actuel.
Navigation dans le document
- Alt + Flèche gauche/Flèche droite : permet de naviguer entre les documents.
Mise à l’échelle du document
- Ctrl + Défilement - Modifie la mise à l’échelle du document en effectuant un zoom avant ou arrière.
Supprime ou récupère un document.
- Alt + Supprimer - Supprime un document.
- Alt + Supprimer - Récupère un document supprimé.
- Champs qui apparaissent plusieurs fois sur le même document
- Labellisation de plusieurs utilisateurs en parallèle
- Labellisation pour l'entraînement
- Labellisation pour évaluation
- Actions de labellisation
- Labelliser un champ
- Labelliser un champ à plusieurs valeurs
- Supprimer un libellé
- Grouper une ligne de tableau
- Dissocier une ligne de tableau
- Apporter des corrections à la valeur labellisée
- Réinitialiser la valeur labellisée à la valeur extraite automatiquement
- Autres options