- Notes de publication
- Prérequis
- Installation
- Démarrage
- Projets
- Jeux de données
- Paquets ML
- Pipelines
- Compétences ML
- Journaux ML
- Document Understanding dans AI Fabric
- Guide de dépannage de base
Classification des textes français
Packages du système d'exploitation > Analyse linguistique > FrenchTextClassification
Ce modèle est un modèle de classification de texte générique utilisant l'apprentissage par transfert pour la langue française et doit être entraîné avant de pouvoir commencer à être utilisé pour les prédictions. Il est basé sur des intégrations de CamemBERT auxquels nous ajoutons un réseau de neurones à 3 couches entièrement connecté pour classer les données. CamemBERT est un modèle linguistique de pointe pour le français basé sur l'architecture RoBERTa pré-entraînée sur le sous-corpus français du corpus multilingue OSCAR de HuggingFace.
Texte à classer en string : « Mon séjour dans cet hôtel s'est très bien passé »
String JSON avec nom de classe prévu, confiance associée sur cette prédiction de classe (entre 0 et 1) et une liste de toutes les classes avec la confiance associée dans le champ « all_predictions ».
Exemple :
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
Les trois types de pipelines (complet, entraînement et évaluation) sont pris en charge par ce package.
Lorsque vous entraînez le modèle pour la première fois, les classes seront déduites en examinant l'ensemble de données fourni. Une fois le modèle formé, les mêmes classes seront utilisées pour les prédictions et le réentraînement futur. Si vous souhaitez réinitialiser les classes (ou ajouter de nouvelles classes), vous devez réentraîner le modèle à l'aide de la variable d'environnement reset (voir ci-dessous).
L'utilisation d'un GPU rendra l'exécution du pipeline beaucoup plus rapide et est recommandée pour l'entraînement sur des ensembles de données importants.
Ce paquet ML recherchera les fichiers json et csv dans votre ensemble de données (pas dans les sous-répertoires).
- fichier csv : le csv doit contenir un en-tête nommé input_column (par défaut « texte ») et target_column (par défaut « classe ») et une ligne par donnée.
- fichiers json : ne doivent contenir qu'un seul point de données avec les champs input_column (par défaut "text") et target_column (par défaut "class").
- epochs : personnalisez le nombre d'époques pour le pipeline d'entraînement complet (défini sur 10 par défaut)$
- input_column : modifiez cette valeur pour qu'elle corresponde au nom de la colonne d'entrée de votre ensemble de données (par défaut « text »)
- target_column : modifiez cette valeur pour qu'elle corresponde au nom de la colonne d'entrée de votre ensemble de données (par défaut « class »)
- reset : ajoutez cette variable d'environnement si vous souhaitez réentraîner à partir de zéro le réseau neuronal à trois couches et/ou changer de classe. Par défaut, ce modèle utilise l'apprentissage par transfert et conserve les mêmes classes que l'entraînement précédent.
La fonction d'évaluation produit deux artefacts :
-
predictions.csv : Fichier CSV avec 4 colonnes :
- text : texte d'entrée en cours de classification.
- class : classe de vérité terrain de l'ensemble de données.
- predicted_class : classe prédite par le modèle.
- confidence : score de confiance associé à la prédiction.
-
metrics.json : fichier json regroupant la précision, la macro-moyenne F1, la précision et le rappel de F1, et la précision et le rappel pour chaque classe. Exemple :
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
Papier
CamemBERT : un savoureux modèle pour le français conçu par Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah et Benoît Sagot.