ai-center

latest

false

Important :

Veuillez noter que ce contenu a été localisé en partie à l’aide de la traduction automatique. La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

AI Center

PRODUIT :

Dernière mise à jour 21 mai 2025

Classification de texte

Remarque : les paquets ML prêts à l'emploi seront bientôt obsolètes. Pour plus d'informations, consultez la page Calendrier d'obsolescence du guide de présentation .

Packages du système d'exploitation (OS Packages) > Analyse linguistique (Language Analysis) > TextClassification

Il s'agit d'un modèle générique et réentraînable pour la classification dans une langue définie. Ce package ML doit être réentraîné ; s'il est déployé sans entraînement préalable, le déploiement échouera en présentant une erreur indiquant que le modèle n'a pas été entraîné.

Ce modèle est une architecture d'apprentissage profond pour la classification des langues. Il est basé sur BERT, une méthode auto-supervisée pour le pré-entraînement des systèmes de traitement des langages naturels. Un GPU peut être utilisé à la fois au moment du service et au moment de l'entraînement. Un GPU permet d'améliorer la vitesse de 5 à 10 fois. Le modèle a été publié en open source par Facebook AI Research.

Langues

Le principal moteur de la performance du modèle sera la qualité des données utilisées pour la formation. De plus, les données utilisées pour paramétrer ce modèle peuvent également influencer les performances. Ce modèle a été formé sur les 100 premières langues les plus utilisées sur Wikipédia (liste complète)

Détails du modèle

Type d'entrée

JSON

Description de l'entrée

Texte à classer en tant que chaîne : « J'ai adoré ce film ».

Description de la sortie

JSON avec prévision du nom de classe et niveau de confiance relatif à cette prévision de classe (entre 0 et 1).

Exemple :

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

Pipelines

Les trois types de pipelines (complet, entraînement et évaluation) sont pris en charge par ce package.

Pour la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié ; le modèle utilise des techniques avancées pour trouver un modèle performant. Pour les entraînements subséquents au premier entraînement, le modèle utilise un apprentissage incrémentiel (c'est-à-dire que la version précédemment entraînée sera utilisée à la fin de l'exécution d'un entraînement).

Format d'ensemble de données

Deux options sont possibles pour structurer votre ensemble de données pour ce modèle. Vous ne pouvez pas utiliser les deux options en même temps. Par défaut, le modèle recherche le fichier dataset.csv dans le répertoire du dossier supérieur ; s'il est trouvé, il utilise l'option 2 ici, sinon, le modèle essaie d'utiliser l'option 1 (structure des dossiers).

Utilisez la structure des dossiers pour séparer votre classe

Créez un dossier pour chaque classe (au niveau supérieur de l'ensemble de données) et ajoutez un fichier texte par point de données dans le dossier correspondant (le dossier est la classe et le fichier n'a que l'entrée). La structure de l'ensemble de données ressemble à ceci :

Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..

Utiliser un fichier csv

Regroupez toutes vos données dans un fichier csv nommé dataset.csv au niveau supérieur de votre ensemble de données. Le fichier devra avoir deux colonnes input (le texte) et target (la classe). Il se présente comme suit :

input,target 
I like this movie,positive 
I hated the acting,negativeinput,target 
I like this movie,positive 
I hated the acting,negative

Papier

BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding par Devlin, Jacob et Chang, Ming-Wei et Lee, Kenton et Toutanova, Kristina.

Sommaire de la page

Langues
Détails du modèle
Type d'entrée
Description de l'entrée
Description de la sortie
Pipelines
Format d'ensemble de données
Papier

Cette page vous a-t-elle été utile ?

PrécédentDétection d'objets

SuivantClassification TPOT AutoML

Support et Services

Obtenez l'aide dont vous avez besoin

UiPath Academy

Formation RPA - Cours d'automatisation

UiPath Forum

Forum de la communauté UiPath

Confiance et sécurité

Conditions d’utilisation

Politique de confidentialité

Politique de cookies