activities
latest
false
Important :
Veuillez noter que ce contenu a été localisé en partie à l’aide de la traduction automatique.
UiPath logo, featuring letters U and I in white
Activités Document Understanding
Last updated 14 nov. 2024

Intelligent Keyword Classifier

UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier

Description

Cette activité permet à n’importe quel utilisateur de classifier et de diviser les packages de documents en types de documents individuels. Vous pouvez uniquement l’utiliser avec l’activité Classer l’étendue du document (Classify Document Scope).

Compatibilité du projet

Windows - Héritage | Windows

Configuration

Module Designer
  • LearningFilePath : Chemin d'accès complet au fichier contenant les données du classifieur. Ce champ prend uniquement en charge les chaînes et les variables String.
    Remarque :

    Un seul des paramètres ci-dessus peut être défini à la fois. Vous pouvez utiliser la chaîne LearningData ou la chaîne LearningFilePath .

    LearningFilePath spécifie les emplacements à partir desquels récupérer les données du classifieur.

    LearningData contient les informations réelles de ce classifieur.

  • Endpoint - The URL to UiPath® server. By default, the endpoint is https://du.uipath.com/svc/intelligentkeywords. For more information about endpoints, visit Document Understanding Public Endpoints.
  • Clé API : spécifie la clé API du compte. Le champ Clé API est automatiquement prérempli s'il est défini dans les paramètres du projet local ou dans l'infrastructure Document Understanding.
Panneau propriétés

Commun

  • NomAffichage (DisplayName) - Nom affiché de l'activité.

Entrée

  • Clé API : spécifie la clé API du compte. Le champ Clé API est automatiquement prérempli s'il est défini dans les paramètres du projet local ou dans l'infrastructure Document Understanding.
  • Endpoint - The URL to UiPath® server. By default, the endpoint is https://du.uipath.com/svc/intelligentkeywords. For more information about endpoints, visit Document Understanding Public Endpoints.
  • LearningData : La chaîne contenant les données sérialisées du classifieur. Ce champ prend uniquement en charge les chaînes et les variables String.
  • LearningFilePath : Chemin d'accès complet au fichier contenant les données du classifieur. Ce champ prend uniquement en charge les chaînes et les variables String.
    Remarque :

    Un seul des paramètres ci-dessus peut être défini à la fois. Vous pouvez utiliser la chaîne LearningData ou la chaîne LearningFilePath .

    LearningFilePath spécifie les emplacements à partir desquels récupérer les données du classifieur.

    LearningData contient les informations réelles de ce classifieur.

  • Send documents - When enabled, it allows UiPath® to save the referenced document to improve the algorithm performance. Disabling this feature prevents UiPath® from storing the documents. Regardless of this setting, the algorithm's operation remains unaffected.

Divers

  • Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).
    Remarque : la meilleure pratique consiste à créer un fichier .json vide à cet emplacement, puis à utiliser son nom dans le champ CheminFichierApprentissage .

Fractionnement

  • ExécuterDivisionDocument : si cette case n’est pas cochée, le modèle n’effectuera pas de fractionnement de document, mais uniquement une classification.
  • UtiliserNumérosPage : si cette option est cochée, le mode utilisera la fonctionnalité de numéros de page pour décider où fractionner les documents. Utilisez cette option au cas où la numérotation des pages est susceptible d'améliorer les résultats du fractionnement.
Remarque : pour des performances de fractionnement optimisées, utilisez la version 6.9.0 ou une version ultérieure.

Utilisation de l'assistant Gérer l'apprentissage

Accédez à l'assistant Gérer l'apprentissage (Manage Learning) pour configurer l'activité Intelligent Keyword Classifier . Le même assistant peut être utilisé pour examiner les données collectées pendant la phase d'apprentissage de la classification des documents, en ouvrant le même assistant avec un chemin de fichier d'apprentissage mis à jour.

Cet assistant permet de configurer et de gérer les données d'entraînement utilisées par l'activité Intelligent Keyword Classifier pour identifier le type de document et classer les documents. Il a été créé pour répondre au besoin de modifier un chemin de fichier. Si une option Learning Data avec une variable est utilisée à la place, elle vous sera demandée si vous souhaitez modifier un chemin de fichier spécifique ou abandonner cette opération.

Remarque : l'assistant Gérer l'apprentissage (Manage Learning) ne fonctionne que lorsque l'activité est configurée avec une chaîne Chemin du fichier d'apprentissage (Learning File Path). Cela ne fonctionne pas avec un chemin du fichier d'apprentissage (Learning File Path) défini comme entrée variable ou avec une entrée de chaîne LearningData.
  1. Ajoutez une activité Classifieur de mots-clés intelligents (Intelligent Keyword Classifier) ou Outil d’entraînement de classifieurs de mots-clés intelligents (Intelligent Keyword Classifier Trainer) à votre workflow.
  2. Configurez votre activité Classifieur de mots-clés intelligents (Intelligent Keyword Classifier) en ajoutant le chemin d’un fichier .json. Prenez en compte les informations suivantes lors de la configuration du classifieur :
    • Si aucun chemin n’est fourni et que l’option Gérer l’apprentissage est sélectionnée, une fenêtre contextuelle s’affiche, demandant une entrée Chemin d’accès au fichier d’apprentissage. Une fois le chemin fourni, l’assistant s’ouvre.
    • Une variable peut être ajoutée à la place d'un fichier .json, mais, comme l'assistant ne peut pas appliquer le modèle d'apprentissage à une variable LearningData, il demande un chemin de fichier spécifique qui peut être modifié.
  3. Sélectionnez Gérer l’apprentissage.
    La fenêtre de l’assistant du Classifieur de mots-clés intelligents s’ouvre.
    Image 1. Présentation de la section Gérer l’apprentissage de l’assistant du Classifieur de mots clés intelligents (Intelligent Keyword Classifier)

  4. Si aucun chemin n’est fourni et que l’option Gérer l’apprentissage est sélectionnée, une fenêtre contextuelle s’affiche, demandant un CheminFichierApprentissage. Une fois le chemin fourni, l’assistant s’ouvre.
    Image 2. La fenêtre contextuelle d’avertissement s’affiche si aucun chemin n’est fourni et que l’option Gérer l’apprentissage est sélectionnée

    Remarque : même si aucun fichier .json n'est disponible, vous pouvez ajouter le nom d'un nouveau fichier .json directement dans l'activité et le fichier .json sera automatiquement créé dans le dossier spécifié.

Dans l’assistant Gérer l’apprentissage, vous pouvez voir si un type de document a été entraîné ou non en regardant si les libellés suivants s’affichent à côté d’eux : Entraîné sur X fichiers X, ou Commencer l’entraînement. La capture d’écran suivante présente un type de document qui a été entraîné, un qui ne l’a pas été, ainsi qu’un autre qui a été entraîné et sélectionné pour pouvoir être consulté ou supprimé.

Image 3. Types de documents et leur statut d’apprentissage dans la section Gérer l’apprentissage du Classifieur de mots clés intelligents (Intelligent Keyword Classifier)

Données d’entraînement

Pour les types de document qui n’ont pas encore été entraînés, l’entraînement au moment de la conception peut être effectuée à l’aide de l’option Commencer l’entraînement (Start Training). Pour les types de documents qui ont déjà été entraînés, vous pouvez soit le supprimer pour recommencer en utilisant l’option Supprimer remove, soit effectuer un entraînement supplémentaire (se cumulant à celui existant) à l’aide de l’option Modifier Modifier (Edit).

Remarque : Les fichiers d'entraînement à utiliser doivent contenir une seule instance de type de document par fichier. N'exécutez pas d'entraînement au moment de la conception sur des fichiers contenant deux types de documents ou plus, car vos données d'entraînement seront erronées.

Once a new training has been initiated, a new screen is displayed asking for the training files and the OCR engine that should be used. The default OCR engine is UiPath® Document OCR. Each OCR engine comes with its own set of custom options.

Image 4. L’assistant qui apparaît après avoir sélectionné l’option Commencer l’entraînement

Remarque :

Les moteurs OCR suivants ne prennent pas en charge les documents pivotés et ne doivent pas être utilisés pour traiter de tels documents :

  • Reconnaissance optique des caractères Microsoft (Microsoft OCR)
  • Tesseract OCR
L’option Appliquer OCR aux PDF détermine si le processus OCR doit être appliqué ou non aux documents PDF. Trois options sont disponibles dans la liste déroulante :
  • Vrai : si l’option est définie sur Vrai, l’OCR sera appliqué à toutes les pages PDF du document.
  • Faux: si l’option est définie sur Faux, seul le texte saisi numériquement sera extrait.
  • Auto : la valeur par défaut Auto permet de déterminer si le document nécessite l’application de l’algorithme OCR en fonction du document d’entrée.
Remarque :
Si le package UiPath.IntelligentOCR.Activities a été mis à jour vers la version v5.1.0, alors le paramètre ForcerApplicationOCR a été remplacé par AppliquerOCRAuxPDF. Voici la compatibilité entre les anciens et les nouveaux paramètres :
  • ForcerApplicationOCR = Vrai est remplacé par AppliquerOCRAuxPDF = Oui
  • ForcerApplicationOCR = Faux est remplacé par AppliquerOCRAuxPDF = Auto
  • ForcerApplicationOCR = un champ vide est remplacé par AppliquerOCRAuxPDF = Auto
  • ForcerApplicationOCR = votre variable définie est remplacée par AppliquerOCRAuxPDF = Auto

Exportation des données d'entraînement

Seules les données d'entraînement des types de documents qui ont été entraînés sont éligibles pour l'exportation. Les types de documents qui n'ont pas été entraînés ne peuvent pas être sélectionnés.

Image 5. Types de documents dans le Classifieur de mots-clés intelligents qui n’ont pas été entraînés, d’où l’option d’exportation non disponible

Vous pouvez exporter les données d'entraînement en suivant ces étapes :

  1. Sélectionnez les types de documents qui ont été formés.
  2. Sélectionnez Exporter(Export) .
    Si vous avez des modifications non enregistrées, le message suivant s’affiche : « Vous ne pouvez pas exporter tant que vous avez des modifications non enregistrées. Voulez-vous enregistrer automatiquement avant d’exporter ? ». Sélectionnez Oui pour poursuivre le processus d’exportation.
    Image 6. Le message Enregistrer les modifications qui s’affiche si vous avez des modifications non enregistrées avant d’exporter les données d’entraînement

  3. Enregistrez l'archive des données d'entraînement sous le nom souhaité.
    Un message s’affiche indiquant le nombre d’ensembles de données d’entraînement de type de document ayant été exportés. Par exemple : « 4 vecteur(s) mot exporté(s) ».
    Image 7. Exemple de message affichant le nombre d’ensembles de données d’entraînement de type de document ayant été exportés

  4. Sélectionnez OK pour revenir à l’écran principal de l’assistant.

Importation des données d'entraînement

Vous pouvez importer des données d'entraînement en suivant ces étapes :

  1. Sélectionnez Importer(Import).
  2. Sélectionnez l’archive des données d’entraînement, puis sélectionnez Ouvrir (Open).
  3. Sélectionnez les types de documents souhaités.
    Image 8. Types de documents sélectionnés dans la section Importer des vecteurs mot

  4. Sélectionnez Importer(Import).
    Les données d'entraînement sont importées.
    Image 9. Les types de documents précédemment sélectionnés pour l’importation s’affichent dans la section Gérer l’apprentissage

Le tableau suivant détaille les messages qui s’afficheront lors de l’importation des données d’entraînement, en fonction du type d’importation :

Tableau 1. Messages affichés pour les différents types d’importation
 

Message affiché

Nouveau type de document et vecteurs de mots

Ce type de document sera ajouté à la taxonomie.

Nouveau vecteur de mot (aucun n'a été défini précédemment)

Aucun message ne s’affiche.

Type de document identique et vecteurs de mots

Le vecteur mot de ce type de document sera écrasé.

Intégration de Document Understanding

L’activité Classifieur intelligent de mots clés (Intelligent Keyword Classifier) fait partie des Solutions Document Understanding. Consultez le document Document Understanding Guide pour plus d'informations.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.