AI Center - Classification des textes français

ai-center

2020.10

false

AI Center

Notes de publication
Prérequis
- Prérequis logiciels et matériels
- Architecture d'AI Fabric
Installation
Démarrage
- À propos d'AI Fabric
- Utilisation d'AI Fabric
Projets
- À propos des projets
- Gérer des projets
Jeux de données
- À propos des jeux de données
- Gestion des ensembles de données
Paquets ML
Pipelines
Compétences ML
- À propos des compétences ML
- Gestion des compétences ML
Journaux ML
- À propos des journaux ML
Document Understanding dans AI Fabric
- Data Manager
- Services OCR
Guide de dépannage de base
- Résolution de problèmes générale pour AI Center et FAQ

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Classification des textes français

Packages du système d'exploitation > Analyse linguistique > FrenchTextClassification

Ce modèle est un modèle de classification de texte générique utilisant l'apprentissage par transfert pour la langue française et doit être entraîné avant de pouvoir commencer à être utilisé pour les prédictions. Il est basé sur des intégrations de CamemBERT auxquels nous ajoutons un réseau de neurones à 3 couches entièrement connecté pour classer les données. CamemBERT est un modèle linguistique de pointe pour le français basé sur l'architecture RoBERTa pré-entraînée sur le sous-corpus français du corpus multilingue OSCAR de HuggingFace.

Type d'entrée

JSON

Description de l'entrée

Texte à classer en string : « Mon séjour dans cet hôtel s'est très bien passé »

Description de la sortie

String JSON avec nom de classe prévu, confiance associée sur cette prédiction de classe (entre 0 et 1) et une liste de toutes les classes avec la confiance associée dans le champ « all_predictions ».

Exemple :

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Pipelines

Les trois types de pipelines (complet, entraînement et évaluation) sont pris en charge par ce package.

Lorsque vous entraînez le modèle pour la première fois, les classes seront déduites en examinant l'ensemble de données fourni. Une fois le modèle formé, les mêmes classes seront utilisées pour les prédictions et le réentraînement futur. Si vous souhaitez réinitialiser les classes (ou ajouter de nouvelles classes), vous devez réentraîner le modèle à l'aide de la variable d'environnement reset (voir ci-dessous).

L'utilisation d'un GPU rendra l'exécution du pipeline beaucoup plus rapide et est recommandée pour l'entraînement sur des ensembles de données importants.

Format d'ensemble de données

Ce paquet ML recherchera les fichiers json et csv dans votre ensemble de données (pas dans les sous-répertoires).

fichier csv : le csv doit contenir un en-tête nommé input_column (par défaut « texte ») et target_column (par défaut « classe ») et une ligne par donnée.
fichiers json : ne doivent contenir qu'un seul point de données avec les champs input_column (par défaut "text") et target_column (par défaut "class").

Variables de l'environnement

epochs : personnalisez le nombre d'époques pour le pipeline d'entraînement complet (défini sur 10 par défaut)$
input_column : modifiez cette valeur pour qu'elle corresponde au nom de la colonne d'entrée de votre ensemble de données (par défaut « text »)
target_column : modifiez cette valeur pour qu'elle corresponde au nom de la colonne d'entrée de votre ensemble de données (par défaut « class »)
reset : ajoutez cette variable d'environnement si vous souhaitez réentraîner à partir de zéro le réseau neuronal à trois couches et/ou changer de classe. Par défaut, ce modèle utilise l'apprentissage par transfert et conserve les mêmes classes que l'entraînement précédent.

Artefacts

La fonction d'évaluation produit deux artefacts :

predictions.csv : Fichier CSV avec 4 colonnes :
- text : texte d'entrée en cours de classification.
- class : classe de vérité terrain de l'ensemble de données.
- predicted_class : classe prédite par le modèle.
- confidence : score de confiance associé à la prédiction.

metrics.json : fichier json regroupant la précision, la macro-moyenne F1, la précision et le rappel de F1, et la précision et le rappel pour chaque classe. Exemple :

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

Papier

CamemBERT : un savoureux modèle pour le français conçu par Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah et Benoît Sagot.

https://camembert-model.fr/

Sommaire de la page

Type d'entrée
Description de l'entrée
Description de la sortie
Pipelines
Format d'ensemble de données
Variables de l'environnement
Artefacts

Cette page vous a-t-elle été utile ?

PrécédentClassification des textes anglais

SuivantClassification TPOT AutoML