AI Center - Classification des textes français

ai-center

latest

false

AI Center - Guide de l'utilisateur

Démarrage
Notifications
- Mes notifications
Projets
- À propos des projets
- Gérer des projets
Jeux de données
- À propos des jeux de données
- Gestion des ensembles de données
Labellisation des données
Paquets ML
Paquets prêts à l’emploi
Pipelines
Compétences ML
- À propos des compétences ML
- Gestion des compétences ML
Journaux ML
- À propos des journaux ML
Document UnderstandingTM dans AI Center
- Document Manager
- Services OCR
API AI Center
- Vue d'ensemble (Overview)
- Liste des API
Licences
Modèles de solutions d'IA
- À propos des modèles de solutions d'IA
  - E-mail d'IA
Comment
- Paquets ML
  - Utilisez le NER personnalisé avec l'apprentissage continu
- Compétences ML
Guide de dépannage de base

Important :

Veuillez noter que ce contenu a été localisé en partie à l’aide de la traduction automatique. La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Classification des textes français

Remarque :

Les paquets ML prêts à l’emploi sont obsolètes. Pour plus d’informations, consultez la page Calendrier d’obsolescence du guide Vue d’ensemble .

Packages du système d'exploitation > Analyse linguistique > FrenchTextClassification

Ce modèle est un modèle de classification de texte générique utilisant l'apprentissage par transfert pour la langue française et doit être entraîné avant de pouvoir commencer à être utilisé pour les prédictions. Il est basé sur des intégrations de CamemBERT auxquels nous ajoutons un réseau de neurones à 3 couches entièrement connecté pour classer les données. CamemBERT est un modèle linguistique de pointe pour le français basé sur l'architecture RoBERTa pré-entraînée sur le sous-corpus français du corpus multilingue OSCAR de HuggingFace.

Détails du modèle

Type d'entrée

JSON

Description de l'entrée

Texte à classer en string : « Mon séjour dans cet hôtel s'est très bien passé »

Description de la sortie

String JSON avec nom de classe prévu, confiance associée sur cette prédiction de classe (entre 0 et 1) et une liste de toutes les classes avec la confiance associée dans le champ « all_predictions ».

Exemple :

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}
{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Pipelines

Les trois types de pipelines (complet, entraînement et évaluation) sont pris en charge par ce package.

Lorsque vous entraînez le modèle pour la première fois, les classes seront déduites en examinant l'ensemble de données fourni. Une fois le modèle formé, les mêmes classes seront utilisées pour les prédictions et le réentraînement futur. Si vous souhaitez réinitialiser les classes (ou ajouter de nouvelles classes), vous devez réentraîner le modèle à l'aide de la variable d'environnement reset.

L'utilisation d'un GPU rendra l'exécution du pipeline beaucoup plus rapide et est recommandée pour l'entraînement sur des ensembles de données importants.

Format d'ensemble de données

Ce paquet ML recherchera les fichiers json et csv dans votre ensemble de données (pas dans les sous-répertoires).

fichier csv : le csv doit contenir un en-tête nommé input_column (par défaut « texte ») et target_column (par défaut « classe ») et une ligne par donnée.
fichiers json : ne doivent contenir qu'un seul point de données avec les champs input_column (par défaut "text") et target_column (par défaut "class").

Variables de l'environnement

epochs : personnalisez le nombre d'époques pour le pipeline d'entraînement complet (défini sur 10 par défaut)$
input_column : modifiez cette valeur pour qu'elle corresponde au nom de la colonne d'entrée de votre ensemble de données (par défaut « text »)
target_column : modifiez cette valeur pour qu'elle corresponde au nom de la colonne d'entrée de votre ensemble de données (par défaut « class »)
reset : ajoutez cette variable d'environnement si vous souhaitez réentraîner à partir de zéro le réseau neuronal à trois couches et/ou changer de classe. Par défaut, ce modèle utilise l'apprentissage par transfert et conserve les mêmes classes que l'entraînement précédent.

Artefacts

La fonction d'évaluation produit deux artefacts :

predictions.csv : Fichier CSV avec 4 colonnes :
- text : texte d'entrée en cours de classification.
- class : classe de vérité terrain de l'ensemble de données.
- predicted_class : classe prédite par le modèle.
- confidence : score de confiance associé à la prédiction.

metrics.json : fichier json regroupant la précision, la macro-moyenne F1, la précision et le rappel de F1, et la précision et le rappel pour chaque classe. Exemple :

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}
{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

Papier

CamemBERT : un savoureux modèle pour le français conçu par Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah et Benoît Sagot.

https://camembert-model.fr/

Sommaire de la page

Détails du modèle
Type d'entrée
Description de l'entrée
Description de la sortie
Pipelines
Format d'ensemble de données
Variables de l'environnement
Artefacts
Papier

Cette page vous a-t-elle été utile ?

PrécédentClassification des textes anglais

SuivantClassification des textes japonais

Détails du modèle​

Type d'entrée​

Description de l'entrée​

Description de la sortie​

Pipelines​

Format d'ensemble de données​

Variables de l'environnement​

Artefacts​

Papier​