- Vue d'ensemble (Overview)
- Document Processing Contracts
- Notes de publication
- À propos des contrats de traitement de documents
- Classe Zone
- Interface ActivitéIPersisted
- Classe PrettyBoxConverter
- Interface ActivitéIClassifier
- Interface FournisseurIClassifieurCapacités
- Classe TypeDocumentClassifieur
- Classe RésultatClassifieur
- Classe ActivitéCodeClassifieur
- Classe ActivitéClassifieurNatif
- Classe ActivitéClassifieurCodeAsync
- Classe CapacitéClassifieurTypeDocument
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- Classe ActivitéExtracteurCodeAsync
- Classe ActivitéExtracteurCode
- Classe ExtracteurTypeDocument
- Classe ExtracteurDocumentTypeCapacités
- Classe ExtracteurChampCapacités
- Classe ActivitéExtracteurNatif
- Classe ExtracteurRésultat
- FieldValue Class
- FieldValueResult Class
- Interface FournisseurICapabilities
- Interface ActivitéIExtractor
- Classe ChargeUtileExtracteur
- Énumération PrioritéActionDocument
- Classe DocumentActionData
- Énumération StatutActionDocument
- Énumération TypeActionDocument
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe DonnéesUtilisateur
- Classe Documents
- Classe RésultatDivisionDocument
- Classe ExtensionDom
- Classe Page
- Classe SectionPage
- Classe Polygone
- Classe ConvertisseurPolygones
- Classe de métadonnées
- Classe GroupeMot
- Classe Mot
- Énumération SourceTraitement
- Classe CelluleRésultatsTable
- Classe ValeurTableRésultats
- Classe InformationsColonnesTableRésultats
- Classe TableRésultats
- Énumération Rotation
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- Énumération TypeSection
- Énumération TypeGroupeMot
- ProjectionTexteIDocument Interface
- Classe RésultatClassification
- Classe RésultatExtraction
- Classe ResultatsDocument
- Classe ResultatsLimitesDocument
- Classe ResultatsDonnéesPoint
- Classe RésultatsValeur
- Classe ResultatsContenuRéference
- Classe ResultatsValeurJetons
- Classe ResultatsChampDérivé
- Énumération ResultatsSourceDonnées
- Classe ResultatsConstantes
- Classe ChampValeurSimple
- Classe ValeurChampTable
- Classe GroupeDocument
- Classe DocumentTaxonomie
- Classe TypeDocument
- Classe Champ
- Énumération TypeChamp
- FieldValueDetails Class
- Classe InfoLangage
- Classe SaisieMétadonnées
- Énumération TypeTexte
- Classe TypeFieldTypeField Class
- Interface ActivitéISuivi
- ITrainableActivity Interface
- Interface ActivitéClassifieurITrainable
- Interface ActivitéExtracteurITrainable
- Classe ActivitéFormationClassifieurCodeAsync
- Classe ActivitéFormationClassifieurCode
- Classe ActivitéFormationClassifieurNatif
- Classe ActivitéFormationExtracteurCodeAsync
- Classe ActivitéFormationExtracteurCode
- Classe ActivitéFormationExtracteurNative
- Classe BasicDataPoint : aperçu
- Classe GestionnaireRésultatExtraction - aperçu
- Document Understanding ML
- Serveur local OCR Document Understanding
- Document Understanding
- Notes de publication
- À propos du package d’activités Document Understanding
- Compatibilité du projet
- Configuration de la connexion externe
- Définir le mot de passe du PDF
- Merge PDFs
- Get PDF Page Count
- Extraire le texte PDF (Extract PDF Text)
- Extract PDF Images
- Extract PDF Page Range
- Extraire les données du document
- Create Validation Task and Wait
- Attendre la tâche de validation et reprendre
- Create Validation Task
- Classer un document (Classify Document)
- Créer une tâche de validation de classification (Create Classification Validation Task)
- Créer une tâche de validation de classification et attendre (Create Classification Validation Task and Wait)
- Attendre la tâche de validation de la classification et reprendre
- IntelligentOCR
- Notes de publication
- À propos du package d'activités IntelligentOCR
- Compatibilité du projet
- Load Taxonomy
- Digitize Document
- Classify Document Scope
- Keyword Based Classifier
- Classifieur de projet Document Understanding (Document Understanding Project Classifier)
- Intelligent Keyword Classifier
- Create Document Classification Action
- Créer une action de validation de document (Create Document Validation Action)
- Retrieve Document Validation Artifacts
- Attendre l'action de classification du document et reprendre
- Tester l'étendue des classifieurs
- Outil d'entraînement de classifieur basé sur des mots-clés
- Intelligent Keyword Classifier Trainer
- Data Extraction Scope
- Extracteur de projet Document Understanding (Document Understanding Project Extractor)
- Entraîneur d’extracteur de projet Document Understanding
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Caviarder le document
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Tester l'étendue des extracteurs
- Export Extraction Results
- Extracteur d'apprentissage automatique
- Machine Learning Extractor Trainer
- Machine Learning Classifier
- Machine Learning Classifier Trainer
- Classifieur génératif
- Extracteur génératif
- Configuration de l'authentification
- Valider des documents avec des actions App
- Valider manuellement des documents numérisés
- Extraction de données basée sur des ancres à l'aide de l'Extracteur de formulaires intelligent
- Station de validation
- Activités génératives - Bonnes pratiques
- Extracteur génératif - Bonnes pratiques
- Classifieur génératif - Bonnes pratiques
- Services ML
- OCR
- Contrats OCR
- Notes de publication
- À propos des contrats OCR
- Compatibilité du projet
- Interface ActivitéIOCR
- Classe OCRCodeAsync
- Classe ActivitéCodeOCR
- Classe ActivitéOCRNatif
- Classe Caractère
- Classe RésultatOCR
- Classe Mot
- Énumération StylesPolice
- Énumération RotationOCR
- Classe OCRCapabilities
- Classe BaseCaptureOCR
- Classe UsineCaptureOCR
- Classe BaseContrôleCapture
- Énumération UtilisationCaptureMoteur
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Non listé] Abbyy
- Notes de publication
- À propos du package d'activités Abbyy
- Compatibilité du projet
- Reconnaissance optique des caractères ABBYY (ABBYY OCR)
- Reconnaissance optique des caractères ABBYY Cloud (ABBYY Cloud OCR)
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Classer un document (Classify Document)
- Traiter le document (Process Document)
- Valider le document (Validate Document)
- Exporter le document (Export Document)
- Obtenir le champ (Get Field)
- Obtenir la table (Get Table)
- Prepare Validation Station Data
- [Non listé] Abbyy intégré

Activités Document Understanding
Intelligent Keyword Classifier
UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier
Description
Cette activité permet à n’importe quel utilisateur de classifier et de diviser les packages de documents en types de documents individuels. Vous pouvez uniquement l’utiliser avec l’activité Classer l’étendue du document (Classify Document Scope).
Compatibilité du projet
Windows - Héritage | Windows
Configuration
Module Designer
-
LearningFilePath - The full path to the file containing the classifier data. This field supports only strings and
Stringvariables.Remarque :Only one of the above parameters can be set at a time. You can use either the LearningData string or the LearningFilePath string.
The LearningFilePath specifies the locations from where to retrieve the classifier data.
The LearningData contains the actual information of that classifier.
-
Point de terminaison : l’URL du serveur UiPath®. Par défaut, le point de terminaison est
https://du.uipath.com/svc/intelligentkeywords. Pour plus d’informations sur les points de terminaison, consultez la section Points de terminaison publics Document Understanding. -
ApiKey - Specifies the API key of the account. The API Key field is automatically pre-populated if defined in local project settings or in the Document Understanding framework.
Panneau propriétés
Commun
- NomAffichage (DisplayName) - Nom affiché de l'activité.
Entrée
-
ApiKey - Specifies the API key of the account. The API Key field is automatically pre-populated if defined in local project settings or in the Document Understanding framework.
-
Point de terminaison : l’URL du serveur UiPath®. Par défaut, le point de terminaison est
https://du.uipath.com/svc/intelligentkeywords. Pour plus d’informations sur les points de terminaison, consultez la section Points de terminaison publics Document Understanding. -
LearningData - The string containing the serialized classifier data. This field supports only strings and
Stringvariables. -
LearningFilePath - The full path to the file containing the classifier data. This field supports only strings and
Stringvariables.Remarque :Only one of the above parameters can be set at a time. You can use either the LearningData string or the LearningFilePath string.
The LearningFilePath specifies the locations from where to retrieve the classifier data.
The LearningData contains the actual information of that classifier.
-
Envoyer les documents : lorsqu’elle est activée, cette option permet à UiPath® d’enregistrer le document référencé afin d’améliorer les performances de l’algorithme. La désactivation de cette fonctionnalité empêchera UiPath® de stocker les documents. Le choix de ce paramètre ne modifiera pas le fonctionnement de l’algorithme.
Divers
- Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).
Remarque :
The best practice is to create an empty
.jsonfile at that location, then use its name in the LearningFilePath field.
Fractionnement
- ExécuterDivisionDocument : si cette case n’est pas cochée, le modèle n’effectuera pas de fractionnement de document, mais uniquement une classification.
- UtiliserNumérosPage : si cette option est cochée, le mode utilisera la fonctionnalité de numéros de page pour décider où fractionner les documents. Utilisez cette option au cas où la numérotation des pages est susceptible d'améliorer les résultats du fractionnement.
Pour des performances de fractionnement optimisées, utilisez la version 6.9.0 ou une version ultérieure.
Utilisation de l'assistant Gérer l'apprentissage
Access the Manage Learning wizard to configure the Intelligent Keyword Classifier activity. The same wizard can be used for reviewing data collected during the document classification training phase, by opening the same wizard with an updated learning file path.
This wizard allows you to configure and manage the training data used by the Intelligent Keyword Classifier activity for identifying the document type and classifying the documents. It was created to suit the need for editing a file path. If a Learning Data option with a variable is used instead, then you are asked if you either want to edit a specific file path or to abort this operation.
L'assistant Gérer l'apprentissage (Manage Learning) ne fonctionne que lorsque l'activité est configurée avec une chaîne Chemin du fichier d'apprentissage (Learning File Path). Cela ne fonctionne pas avec un chemin du fichier d'apprentissage (Learning File Path) défini comme entrée variable ou avec une entrée de chaîne LearningData.
-
Ajoutez une activité Classifieur de mots-clés intelligents (Intelligent Keyword Classifier) ou Outil d’entraînement de classifieurs de mots-clés intelligents (Intelligent Keyword Classifier Trainer) à votre workflow.
-
Configurez votre activité Intelligent Keyword Classifier en ajoutant le chemin d'un fichier
.json. Prenez en compte les informations suivantes lors de la configuration du classifieur :- Si aucun chemin n’est fourni et que l’option Gérer l’apprentissage est sélectionnée, une fenêtre contextuelle s’affiche, demandant une entrée Chemin d’accès au fichier d’apprentissage. Une fois le chemin fourni, l’assistant s’ouvre.
- Une variable peut être ajoutée à la place d'un fichier
.json, mais, comme l'assistant ne peut pas appliquer le modèle d'apprentissage à une variable LearningData, il demande un chemin de fichier spécifique qui peut être modifié.
-
Sélectionnez Gérer l’apprentissage.
La fenêtre de l’assistant du Classifieur de mots-clés intelligents s’ouvre.
Graphique 1. Présentation de la section Gérer l’apprentissage de l’assistant du Classifieur de mots clés intelligents (Intelligent Keyword Classifier)

-
Si aucun chemin n’est fourni et que l’option Gérer l’apprentissage est sélectionnée, une fenêtre contextuelle s’affiche, demandant un CheminFichierApprentissage. Une fois le chemin fourni, l’assistant s’ouvre.
Image 2. La fenêtre contextuelle d’avertissement s’affiche si aucun chemin n’est fourni et que l’option Gérer l’apprentissage est sélectionnée
Remarque :Même si aucun fichier
.jsonn'est disponible, vous pouvez ajouter le nom d'un nouveau fichier.jsondirectement dans l'activité et le fichier.jsonsera automatiquement créé dans le dossier spécifié.
Dans l’assistant Gérer l’apprentissage, vous pouvez voir si un type de document a été entraîné ou non en regardant si les libellés suivants s’affichent à côté d’eux : Entraîné sur X fichiers X, ou Commencer l’entraînement. La capture d’écran suivante présente un type de document qui a été entraîné, un qui ne l’a pas été, ainsi qu’un autre qui a été entraîné et sélectionné pour pouvoir être consulté ou supprimé.
Image 3. Types de documents et leur statut d’apprentissage dans la section Gérer l’apprentissage du Classifieur de mots clés intelligents (Intelligent Keyword Classifier)

Données d’entraînement
Pour les types de document qui n'ont pas encore été entraînés, l'entraînement au moment de la conception peut être effectuée à l'aide de l'option Commencer l’entraînement (Start Training). Pour les types de documents qui ont déjà été entraînés, vous pouvez soit le supprimer pour recommencer en utilisant l’option Supprimer
, soit effectuer un entraînement supplémentaire (se cumulant à celui existant) à l’aide de l’option Modifier
.
Les fichiers d'entraînement à utiliser doivent contenir une seule instance de type de document par fichier. N'exécutez pas d'entraînement au moment de la conception sur des fichiers contenant deux types de documents ou plus, car vos données d'entraînement seront erronées.
Une fois qu’un nouvel entraînement a été initié, un nouvel écran s’affiche demandant les fichiers d’entraînement et le moteur OCR à utiliser. Le moteur OCR par défaut est UiPath® Document OCR. Chaque moteur OCR est livré avec son propre ensemble d'options personnalisées.
Figure 4. L’assistant qui apparaît après avoir sélectionné l’option Démarrer l’entraînement

Les moteurs OCR suivants ne prennent pas en charge les documents pivotés et ne doivent pas être utilisés pour traiter de tels documents :
- Reconnaissance optique des caractères Microsoft (Microsoft OCR)
- Tesseract OCR
L’option Appliquer OCR aux PDF détermine si le processus OCR doit être appliqué ou non aux documents PDF. Trois options sont disponibles dans la liste déroulante :
- Vrai : si l’option est définie sur Vrai, l’OCR sera appliqué à toutes les pages PDF du document.
- Faux: si l’option est définie sur Faux, seul le texte saisi numériquement sera extrait.
- Auto : la valeur par défaut Auto permet de déterminer si le document nécessite l’application de l’algorithme OCR en fonction du document d’entrée.
Si le package UiPath.IntelligentOCR.Activities a été mis à jour vers la version v5.1.0, alors le paramètre ForcerApplicationOCR a été remplacé par AppliquerOCRAuxPDF. Voici la compatibilité entre les anciens et les nouveaux paramètres :
- ForcerApplicationOCR = Vrai est remplacé par AppliquerOCRAuxPDF = Oui
- ForcerApplicationOCR = Faux est remplacé par AppliquerOCRAuxPDF = Auto
- ForcerApplicationOCR = un champ vide est remplacé par AppliquerOCRAuxPDF = Auto
- ForcerApplicationOCR = votre variable définie est remplacée par AppliquerOCRAuxPDF = Auto
Exportation des données d'entraînement
Seules les données d'entraînement des types de documents qui ont été entraînés sont éligibles pour l'exportation. Les types de documents qui n'ont pas été entraînés ne peuvent pas être sélectionnés.
Image 5. Types de documents dans le Classifieur de mots-clés intelligents qui n’ont pas été entraînés, d’où l’option d’exportation non disponible

Vous pouvez exporter les données d'entraînement en suivant ces étapes :
-
Sélectionnez les types de documents qui ont été formés.
-
Sélectionnez Exporter (Export).
Si vous avez des modifications non enregistrées, le message suivant s’affiche : « Vous ne pouvez pas exporter tant que vous avez des modifications non enregistrées. Voulez-vous enregistrer automatiquement avant d’exporter ? ». Sélectionnez Oui pour poursuivre le processus d’exportation.
Image 6. Le message Enregistrer les modifications qui s’affiche si vous avez des modifications non enregistrées avant d’exporter les données d’entraînement

-
Enregistrez l'archive des données d'entraînement sous le nom souhaité.
Un message s’affiche indiquant le nombre d’ensembles de données d’entraînement de type de document ayant été exportés. Par exemple : « 4 vecteur(s) mot exporté(s) ».
Image 7. Exemple de message affichant le nombre d’ensembles de données d’entraînement de type de document ayant été exportés

-
Sélectionnez OK pour revenir à l’écran principal de l’assistant.
Importation des données d'entraînement
Vous pouvez importer des données d'entraînement en suivant ces étapes :
-
Sélectionnez Importer.
-
Sélectionnez l’archive des données d’entraînement, puis sélectionnez Ouvrir (Open).
-
Sélectionnez les types de documents souhaités.
Image 8. Types de documents sélectionnés dans la section Importer des vecteurs mot

-
Sélectionnez Importer.
Les données d'entraînement sont importées.
Image 9. Les types de documents précédemment sélectionnés pour l’importation s’affichent dans la section Gérer l’apprentissage

Le tableau suivant détaille les messages qui s’afficheront lors de l’importation des données d’entraînement, en fonction du type d’importation :
Tableau 1. Messages affichés pour les différents types d’importation
| Message affiché | |
|---|---|
| Nouveau type de document et vecteurs de mots | Ce type de document sera ajouté à la taxonomie. |
| Nouveau vecteur de mot (aucun n'a été défini précédemment) | Aucun message ne s’affiche. |
| Type de document identique et vecteurs de mots | Le vecteur mot de ce type de document sera écrasé. |
Intégration de Document Understanding
L’activité Classifieur intelligent de mots clés fait partie des Solutions Document Understanding. Consultez le document Document Understanding Guide pour plus d'informations.