ai-center
latest
false
Important :
Veuillez noter que ce contenu a été localisé en partie à l’aide de la traduction automatique.
AI Center
Automation CloudAutomation SuiteStandalone
Last updated 10 oct. 2024

Classification de texte

Packages du système d'exploitation (OS Packages) > Analyse linguistique (Language Analysis) > TextClassification

Il s'agit d'un modèle générique et réentraînable pour la classification dans une langue définie. Ce package ML doit être réentraîné ; s'il est déployé sans entraînement préalable, le déploiement échouera en présentant une erreur indiquant que le modèle n'a pas été entraîné.

Ce modèle est une architecture d'apprentissage profond pour la classification des langues. Il est basé sur BERT, une méthode auto-supervisée pour le pré-entraînement des systèmes de traitement des langages naturels. Un GPU peut être utilisé à la fois au moment du service et au moment de l'entraînement. Un GPU permet d'améliorer la vitesse de 5 à 10 fois. Le modèle a été publié en open source par Facebook AI Research.

Langues

Le principal moteur de la performance du modèle sera la qualité des données utilisées pour la formation. De plus, les données utilisées pour paramétrer ce modèle peuvent également influencer les performances. Ce modèle a été formé sur les 100 premières langues les plus utilisées sur Wikipédia (liste complète)

Détails du modèle

Type d'entrée

JSON

Description de l'entrée

Texte à classer en tant que chaîne : « J'ai adoré ce film ».

Description de la sortie

JSON avec prévision du nom de classe et niveau de confiance relatif à cette prévision de classe (entre 0 et 1).

Exemple :

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

Pipelines

Les trois types de pipelines (complet, entraînement et évaluation) sont pris en charge par ce package.

Pour la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié ; le modèle utilise des techniques avancées pour trouver un modèle performant. Pour les entraînements subséquents au premier entraînement, le modèle utilise un apprentissage incrémentiel (c'est-à-dire que la version précédemment entraînée sera utilisée à la fin de l'exécution d'un entraînement).

Format d'ensemble de données

Deux options sont possibles pour structurer votre ensemble de données pour ce modèle. Vous ne pouvez pas utiliser les deux options en même temps. Par défaut, le modèle recherche le fichier dataset.csv dans le répertoire du dossier supérieur ; s'il est trouvé, il utilise l'option 2 ici, sinon, le modèle essaie d'utiliser l'option 1 (structure des dossiers).

Utilisez la structure des dossiers pour séparer votre classe

Créez un dossier pour chaque classe (au niveau supérieur de l'ensemble de données) et ajoutez un fichier texte par point de données dans le dossier correspondant (le dossier est la classe et le fichier n'a que l'entrée). La structure de l'ensemble de données ressemble à ceci :

Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..

Utiliser un fichier csv

Regroupez toutes vos données dans un fichier csv nommé dataset.csv au niveau supérieur de votre ensemble de données. Le fichier devra avoir deux colonnes input (le texte) et target (la classe). Il se présente comme suit :

input,target 
I like this movie,positive 
I hated the acting,negativeinput,target 
I like this movie,positive 
I hated the acting,negative

Papier

BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding par Devlin, Jacob et Chang, Ming-Wei et Lee, Kenton et Toutanova, Kristina.

  • Langues
  • Détails du modèle
  • Type d'entrée
  • Description de l'entrée
  • Description de la sortie
  • Pipelines
  • Format d'ensemble de données
  • Papier

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.