- Démarrage
- Composants de l'infrastructure
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Keyword Based Classifier
- Intelligent Keyword Classifier
- FlexiCapture Classifier
- Machine Learning Classifier
- Activités liées à la classification des documents
- Vue d’ensemble de l'entraînement de la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Machine Learning Classifier Trainer
- Activités liées à l'entraînement de la classification des documents
- Vue d’ensemble de l’extraction des données
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
- Activités liées à l'extraction de données
- Paquets ML
- Pipelines
- Data Manager
- Services OCR
- Document Understanding déployé dans Automation Suite
- Document Understanding déployé dans une version AI Center autonome
- Apprentissage profond
- Licences
- Référence (Reference)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guide de l'utilisateur de Document Understanding
Intelligent Keyword Classifier
Le classifieur de mots-clés intelligents est un classifieur qui utilise le vecteur de mots qu'il apprend à partir de fichiers de certains types de documents en vue d'effectuer une classification de documents.
L'algorithme a été élaboré autour du concept de répétition du contenu du même type de document et part du principe que les types de documents ont une série de mots qui y apparaissent généralement, permettant ainsi le calcul de similarité vectorielle.
Lors de la classification d'un fichier dans un type de document, le classifieur de mots-clés intelligents (Intelligent Keyword Classifier) :
- trouve le vecteur de mot le plus proche d'un fichier,
- des rapports sur le type de document ayant obtenu le score le plus élevé, avec les principaux mots correspondants sous-jacents.
Le classifieur de mots-clés intelligents a également des capacités de division de fichiers, ce qui signifie qu'il peut signaler plus d'une classe pour un fichier donné et pour des plages de pages distinctes.
Nous vous conseillons d'utiliser ce classifieur si :
- vos fichiers contiennent un ou plusieurs types de documents dans un seul fichier
- vos types de documents sont relativement faciles à différencier au regard du contenu.
Vous devez utiliser votre clé d'API Automation Cloud Document Understanding ou héberger votre propre instance du classifieur de mots-clés dans AI Center sur site afin de l'utiliser.
Vous pouvez configurer le classifieur de mots-clés intelligents (Intelligent Keyword Classifier) au moment de la conception en accédant simplement à l'assistant Gérer l'apprentissage (Manage Learning) de l'activité. Le même assistant peut servir à réviser les données collectées pendant la phase d'entraînement de la classification des documents en ouvrant le même assistant avec un chemin de fichier d'apprentissage mis à jour.
Cet assistant permet de configurer et de gérer les données d'entraînement utilisées par cette activité pour identifier le type de document et classer les documents. Il a été créé pour répondre au besoin de modifier un chemin de fichier. Si une option Learning Data avec une variable est utilisée à la place, elle vous sera demandée si vous souhaitez modifier un chemin de fichier spécifique ou abandonner cette opération.
- Ajoutez une activité Classifieur de mots-clés intelligents (Intelligent Keyword Classifier)/Outil d'entraînement des classifieurs de mots-clés intelligents (Intelligent Keyword Classifier Trainer) à votre workflow.
- Configurez votre activité Intelligent Keyword Classifier en ajoutant le chemin d'un fichier
.json
.- Si aucun chemin n'est fourni et que l'option Gérer l'apprentissage (Manage Learning) est sélectionnée, une fenêtre contextuelle s'affiche, demandant une entrée Chemin d'accès au fichier d'apprentissage (Learning File Path). Une fois le chemin fourni, l'assistant s'ouvre.
- Une variable peut être ajoutée à la place d'un fichier
.json
, mais, comme l'assistant ne peut pas appliquer le modèle d'apprentissage à une variable LearningData, il demande un chemin de fichier spécifique qui peut être modifié.
- Cliquez sur l'option Gérer l'apprentissage (Manage Learning).
- La fenêtre de l'assistant (Wizard) s'ouvre.
- La fenêtre de l'assistant (Wizard) s'ouvre.
- Si aucun chemin n'est fourni et que l'option Gérer l'apprentissage (Manage Learning) est sélectionnée, une fenêtre contextuelle s'affiche, demandant un chemin d'accès au fichier d'apprentissage (Learning File Path). Une fois le chemin fourni, l'assistant s'ouvre.
Remarque : même si aucun fichier.json
n'est disponible, vous pouvez ajouter le nom d'un nouveau fichier.json
directement dans l'activité et le fichier.json
sera automatiquement créé dans le dossier spécifié.
La capture d'écran ci-dessous présente un type de document qui a été entraîné, un qui ne l'a pas été et un autre qui a été entraîné et ouvert pour être consulté ou supprimé.
Pour les types de document qui n'ont pas encore été entraînés, l'entraînement au moment de la conception peut être effectuée à l'aide de l'option Commencer l’entraînement (Start Training). Pour les types de documents qui ont déjà été entraînés, vous pouvez soit le supprimer pour recommencer en utilisant cette option , ou effectuer un entraînement supplémentaire (se cumulant à celui déjà existant) à l'aide de l'option de modification .
Une fois qu'un nouvel entraînement a été initié, un nouvel écran s'affiche demandant les fichiers d'entraînement et le moteur OCR à utiliser.
Chaque moteur OCR est livré avec son propre ensemble d'options personnalisées. Vous trouverez ici plus de détails sur toutes les options disponibles pour chaque moteur OCR.
Les moteurs OCR suivants ne prennent pas en charge les documents pivotés et ne doivent pas être utilisés pour traiter de tels documents :
- Reconnaissance optique des caractères Microsoft (Microsoft OCR)
- Tesseract OCR
Seules les données d'entraînement des types de documents qui ont été entraînés sont éligibles pour l'exportation. Les types de documents qui n'ont pas été entraînés ne peuvent pas être sélectionnés.
Vous pouvez exporter les données d'entraînement en suivant ces étapes :
- Sélectionnez les types de documents qui ont été formés.
- Cliquez sur le bouton Exporter (Export).
- Si vous avez des modifications non enregistrées, le message suivant s'affiche.
- Cliquez sur Oui (Yes).
- Enregistrez l'archive des données d'entraînement sous le nom souhaité.
- Un message s'affiche indiquant le nombre d'ensembles de données d'entraînement de type de document ayant été exportés. Par exemple :
- Cliquez sur OK pour revenir à l'écran principal de l'assistant.
Vous pouvez importer des données d'entraînement en suivant ces étapes :
- Cliquez sur le bouton Importer (Import).
- Sélectionnez l'archive des données d'entraînement et cliquez sur Ouvrir (Open).
- Sélectionnez les types de documents souhaités.
- Cliquez sur le bouton Importer (Import).
- Les données d'entraînement sont importées.
Le tableau ci-dessous explique chaque message affiché lors de l'importation des données d'entraînement :
Import Type |
Message affiché |
---|---|
Nouveau type de document et vecteurs de mots |
Ce type de document sera ajouté à la taxonomie |
Nouveau vecteur de mot (aucun n'a été défini précédemment) |
S/O |
Type de document identique et vecteurs de mots |
Le vecteur mot de ce type de document sera écrasé |
Placez l'activité Outil d'entraînement de classifieur de mots-clés intelligents (Intelligent Keyword Classifier Trainer) dans une activité Tester l'étendue des classifieurs (Train Classifiers Scope) et configurez-la en conséquence.
Nous ne pouvons pas appliquer la cohérence des fichiers d'entraînement entre les entraînements parallèles au niveau de l'activité. Deux solutions possibles à ce problème sont fournies par un Processus de Document Understanding (Document Understanding Process). Les deux consistent en un contrôle du trafic :
- verrouillage des fichiers (implémenté par défaut dans le processus) : renommez le fichier en utilisant l'extension
.lock
, modifiez et enregistrez le fichier, puis renommez le fichier en supprimant l'extension.lock
- configuration manuelle d'une file d'attente spéciale : créez une file d'attente vide dans Orchestrator et intégrez vos deux activités du projet
Pour plus d'informations sur l'entraînement d'un classificateur, consultez Entraînement de la classification des documents.