- Notes de publication
- Démarrage
- Notifications
- Projets
- Jeux de données
- Labellisation des données
- Paquets ML
- Paquets prêts à l’emploi
- Pipelines
- Compétences ML
- Journaux ML
- Document UnderstandingTM dans AI Center
- API AI Center
- Licences
- Modèles de solutions d'IA
- Comment
- Guide de dépannage de base
Classification de texte
Packages du système d'exploitation (OS Packages) > Analyse linguistique (Language Analysis) > TextClassification
Il s'agit d'un modèle générique et réentraînable pour la classification dans une langue définie. Ce package ML doit être réentraîné ; s'il est déployé sans entraînement préalable, le déploiement échouera en présentant une erreur indiquant que le modèle n'a pas été entraîné.
Ce modèle est une architecture d'apprentissage profond pour la classification des langues. Il est basé sur BERT, une méthode auto-supervisée pour le pré-entraînement des systèmes de traitement des langages naturels. Un GPU peut être utilisé à la fois au moment du service et au moment de l'entraînement. Un GPU permet d'améliorer la vitesse de 5 à 10 fois. Le modèle a été publié en open source par Facebook AI Research.
Le principal moteur de la performance du modèle sera la qualité des données utilisées pour la formation. De plus, les données utilisées pour paramétrer ce modèle peuvent également influencer les performances. Ce modèle a été formé sur les 100 premières langues les plus utilisées sur Wikipédia (liste complète)
Les trois types de pipelines (complet, entraînement et évaluation) sont pris en charge par ce package.
Pour la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié ; le modèle utilise des techniques avancées pour trouver un modèle performant. Pour les entraînements subséquents au premier entraînement, le modèle utilise un apprentissage incrémentiel (c'est-à-dire que la version précédemment entraînée sera utilisée à la fin de l'exécution d'un entraînement).
Deux options sont possibles pour structurer votre ensemble de données pour ce modèle. Vous ne pouvez pas utiliser les deux options en même temps. Par défaut, le modèle recherche le fichier dataset.csv dans le répertoire du dossier supérieur ; s'il est trouvé, il utilise l'option 2 ici, sinon, le modèle essaie d'utiliser l'option 1 (structure des dossiers).
Utilisez la structure des dossiers pour séparer votre classe
Créez un dossier pour chaque classe (au niveau supérieur de l'ensemble de données) et ajoutez un fichier texte par point de données dans le dossier correspondant (le dossier est la classe et le fichier n'a que l'entrée). La structure de l'ensemble de données ressemble à ceci :
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
Utiliser un fichier csv
Regroupez toutes vos données dans un fichier csv nommé dataset.csv au niveau supérieur de votre ensemble de données. Le fichier devra avoir deux colonnes input (le texte) et target (la classe). Il se présente comme suit :
input,target
I like this movie,positive
I hated the acting,negative
input,target
I like this movie,positive
I hated the acting,negative
BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding par Devlin, Jacob et Chang, Ming-Wei et Lee, Kenton et Toutanova, Kristina.