ai-center
2020.10
false
AI Center
Automation CloudAutomation SuiteStandalone
Last updated 6 juin 2024

Classification des textes français

Packages du système d'exploitation > Analyse linguistique > FrenchTextClassification

Ce modèle est un modèle de classification de texte générique utilisant l'apprentissage par transfert pour la langue française et doit être entraîné avant de pouvoir commencer à être utilisé pour les prédictions. Il est basé sur des intégrations de CamemBERT auxquels nous ajoutons un réseau de neurones à 3 couches entièrement connecté pour classer les données. CamemBERT est un modèle linguistique de pointe pour le français basé sur l'architecture RoBERTa pré-entraînée sur le sous-corpus français du corpus multilingue OSCAR de HuggingFace.

Type d'entrée

JSON

Description de l'entrée

Texte à classer en string : « Mon séjour dans cet hôtel s'est très bien passé »

Description de la sortie

String JSON avec nom de classe prévu, confiance associée sur cette prédiction de classe (entre 0 et 1) et une liste de toutes les classes avec la confiance associée dans le champ « all_predictions ».

Exemple :

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Pipelines

Les trois types de pipelines (complet, entraînement et évaluation) sont pris en charge par ce package.

Lorsque vous entraînez le modèle pour la première fois, les classes seront déduites en examinant l'ensemble de données fourni. Une fois le modèle formé, les mêmes classes seront utilisées pour les prédictions et le réentraînement futur. Si vous souhaitez réinitialiser les classes (ou ajouter de nouvelles classes), vous devez réentraîner le modèle à l'aide de la variable d'environnement reset (voir ci-dessous).

L'utilisation d'un GPU rendra l'exécution du pipeline beaucoup plus rapide et est recommandée pour l'entraînement sur des ensembles de données importants.

Format d'ensemble de données

Ce paquet ML recherchera les fichiers json et csv dans votre ensemble de données (pas dans les sous-répertoires).

  • fichier csv : le csv doit contenir un en-tête nommé input_column (par défaut « texte ») et target_column (par défaut « classe ») et une ligne par donnée.
  • fichiers json : ne doivent contenir qu'un seul point de données avec les champs input_column (par défaut "text") et target_column (par défaut "class").

Variables de l'environnement

  • epochs : personnalisez le nombre d'époques pour le pipeline d'entraînement complet (défini sur 10 par défaut)$
  • input_column : modifiez cette valeur pour qu'elle corresponde au nom de la colonne d'entrée de votre ensemble de données (par défaut « text »)
  • target_column : modifiez cette valeur pour qu'elle corresponde au nom de la colonne d'entrée de votre ensemble de données (par défaut « class »)
  • reset : ajoutez cette variable d'environnement si vous souhaitez réentraîner à partir de zéro le réseau neuronal à trois couches et/ou changer de classe. Par défaut, ce modèle utilise l'apprentissage par transfert et conserve les mêmes classes que l'entraînement précédent.

Artefacts

La fonction d'évaluation produit deux artefacts :

  • predictions.csv : Fichier CSV avec 4 colonnes :

    • text : texte d'entrée en cours de classification.
    • class : classe de vérité terrain de l'ensemble de données.
    • predicted_class : classe prédite par le modèle.
    • confidence : score de confiance associé à la prédiction.
  • metrics.json : fichier json regroupant la précision, la macro-moyenne F1, la précision et le rappel de F1, et la précision et le rappel pour chaque classe. Exemple :

    {
      "accuracy": 0.7572500109672546,
      "f1_macro": 0.756912701179931,
      "precision_macro": 0.7594798901045778,
      "recall_macro": 0.7576722549210066,
      "details": [
        {
          "class": "Negative",
          "f1": 0.7659677030609786,
          "precision": 0.7329335793357934,
          "recall": 0.8021201413427562
        },
        {
          "class": "Positive",
          "f1": 0.7478576992988835,
          "precision": 0.7860262008733624,
          "recall": 0.7132243684992571
        }
      ]
    }{
      "accuracy": 0.7572500109672546,
      "f1_macro": 0.756912701179931,
      "precision_macro": 0.7594798901045778,
      "recall_macro": 0.7576722549210066,
      "details": [
        {
          "class": "Negative",
          "f1": 0.7659677030609786,
          "precision": 0.7329335793357934,
          "recall": 0.8021201413427562
        },
        {
          "class": "Positive",
          "f1": 0.7478576992988835,
          "precision": 0.7860262008733624,
          "recall": 0.7132243684992571
        }
      ]
    }

Papier

CamemBERT : un savoureux modèle pour le français conçu par Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah et Benoît Sagot.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.