Document Understanding
2021.10
false
Guide de l'utilisateur de Document Understanding
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 5 juin 2024

Keyword Based Classifier

Qu'est-ce que le Keyword Based Classifier

Le classifieur basé sur des mots-clés est un classifieur simple qui recherche des séquences de chaînes répétitives dans un fichier donné afin d'effectuer une classification de documents.

L'algorithme est construit autour du concept de titres de documents et part du principe que l'apparence des titres des types de documents qui en comportent varie relativement peu dans les documents.

Lors de la classification d'un fichier dans un type de document, le classifieur basé sur des mots-clés (Keyword Based Classifier) :

  • trouve la meilleure chaîne ou collection de chaînes correspondante à partir de ses données d'apprentissage, qui s'applique à un type de document de taxonomie. La confiance est calculée sur la base :

    • du degré de correspondance au début du document,
    • du nombre de fois que la correspondance a été confirmée par les travailleurs de la connaissance et confortée dans les données d'apprentissage.
  • des rapports sur le type de document ayant obtenu le score le plus élevé, avec la configuration correspondante sous-jacente.

Le classifieur basé sur des mots-clés (Keyword Based Classifier) peut fonctionner avec une seule entrée de chaîne (une chaîne considérée comme une entrée dans les données d'apprentissage utilisée par le classifieur) ou avec une entrée contenant plusieurs chaînes (deux chaînes ou plus qui forment une seule entrée). En cas de chaîne multiple, le classifieur applique l'algorithme de correspondance sur chaque chaîne, puis calcule une moyenne simple des confiances des correspondances identifiées.

Exemple

Prenons l'exemple ci-dessous :

  • si une entrée contient une seule chaîne, par exemple, "this is my match", le classifieur basé sur les mots-clés recherche et évalue cette chaîne comme une correspondance potentielle de type de document (selon le type de document auquel la chaîne est attribuée).
  • si une entrée contient trois chaînes, par exemple, ["this is a match", "needs more evidence for filtering", "yet another one"], le classifieur basé sur les mots-clés recherche et évalue chacune des trois chaînes, puis calcule une moyenne simple des confiances correspondantes à des fins de rapport.

L'ensemble de mots-clés peut être défini dans une ligne ou en utilisant plusieurs lignes. Lorsqu'il est défini dans une ligne, il identifie l'entrée donnée, par exemple, si x, y et z sont répertoriés comme mots-clés, alors la fonction de recherche recherchera x et y et z.

Avoir plusieurs lignes définies signifie que la fonction de recherche recherche les mots-clés répertoriés dans la première ligne, ou la deuxième ligne, ou la troisième jusqu'à ce qu'elle couvre toutes les lignes et identifie les meilleures correspondances, augmentant ainsi le score de confiance en ayant simplement identifié plus de correspondances à partir de plus de mots-clés disponibles.

Quand l'utiliser

Nous vous conseillons d'utiliser ce classifieur si :

  • vos fichiers contiennent chacun un seul et unique type de document (aucun fractionnement de fichier n'est donc nécessaire) ;
  • vos dossiers contiennent des preuves liées au type de document dans les trois premières pages du dossier.

Exigences spécifiques

Aucune exigence particulière pour utiliser le classifieur basé sur les mots-clés (Keyword Based Classifier).

Quelle configuration au moment de la conception

Vous pouvez configurer le classifieur basé sur les mots-clés (Keyword Based Classifier) au moment de la conception en accédant simplement à l'assistant Gérer l'apprentissage (Manage Learning) de l'activité. Le même assistant peut servir à réviser les données collectées pendant la phase d'entraînement de la classification des documents en ouvrant le même assistant avec un chemin de fichier d'apprentissage mis à jour.

Cet assistant permet de configurer et de gérer les mots-clés utilisés par cette activité pour identifier le type de document. Il a été créé pour répondre au besoin de modifier un chemin de fichier. Si un paramètre Learning Data avec une variable est utilisé à la place, il vous est demandé si vous souhaitez modifier un chemin de fichier spécifique ou abandonner cette opération.

Remarque : l'assistant Gérer l'apprentissage du classifieur par mots clés (Manage Keyword Based Classifier Learning) ne peut être utilisé que pour modifier et configurer un chemin de fichier.
  1. Ajoutez une activité Classifieur basé sur des mots-clés (Keyword Based Classifier)/Outil d'entraînement de classifieurs basé sur les mots-clés (Keyword Based Classifier Trainer) à votre workflow.
  2. Configurez votre activité Keyword Based Classifier en ajoutant le chemin d'un fichier .json.
    • Si aucun chemin n'est fourni et que l'option Gérer l'apprentissage (Manage Learning) est sélectionnée, une fenêtre contextuelle s'affiche, demandant une entrée Chemin d'accès au fichier d'apprentissage (Learning File Path). Une fois le chemin fourni, l'assistant s'ouvre.
    • Une variable peut être ajoutée à la place d'un fichier .json, mais, comme l'assistant ne peut pas appliquer le modèle d'apprentissage à une variable LearningData, il demande un chemin de fichier spécifique qui peut être modifié.
  3. Cliquez sur l'option Gérer l'apprentissage (Manage Learning).
    • La fenêtre de l'assistant (Wizard) s'ouvre.


  4. Si aucun chemin n'est fourni et que l'option Gérer l'apprentissage (Manage Learning) est sélectionnée, une fenêtre contextuelle s'affiche, demandant un chemin d'accès au fichier d'apprentissage (Learning File Path). Une fois le chemin fourni, l'assistant s'ouvre.


    Remarque : même si aucun fichier .json n'est disponible, vous pouvez ajouter le nom d'un nouveau fichier .json directement dans l'activité et le fichier .json sera automatiquement créé dans le dossier spécifié.

L'assistant contient autant de catégories de types de documents que vous avez définies dans votre taxonomie. Vous pouvez ajouter un ou plusieurs mots clés pour chaque type de document. L'activité apprend les mots-clés d'un document spécifique et est capable plus tard d'identifier et de classer le document dans une catégorie spécifique en fonction de ces règles.

Toutes les entrées doivent être saisies sous forme de chaînes, entre "" (guillemets), et vous pouvez ajouter une ou plusieurs valeurs.
  • Cliquer sur le bouton Ajouter un nouvel ensemble de mots-clés (Add new keyword set) ajoute un champ supplémentaire à cette catégorie.
  • Cliquer sur le bouton docs image supprime le champ et ses mots clés.
  • Cliquez sur le bouton Enregistrer (Save) pour enregistrer la configuration de votre assistant. Vous pouvez trouver toutes les valeurs ajoutées dans le fichier .json du projet.
    Remarque : les guillemets doubles entrés pour définir un mot-clé dans l'assistant Gérer les mots-clés (Manage Keywords) sont toujours échappés, conformément à la convention Visual Basic (guillemets doubles), même dans un projet C#.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath. Tous droits réservés.