- Notes de publication
- Démarrage
- Notifications
- Projets
- Jeux de données
- Labellisation des données
- Paquets ML
- Paquets prêts à l’emploi
- Pipelines
- Compétences ML
- Journaux ML
- Document UnderstandingTM dans AI Center
- API AI Center
- Licences
- Modèles de solutions d'IA
- Comment
- Guide de dépannage de base
Classification de textes multi-labels
La classification de texte multi-labels est actuellement en aperçu public.
UiPath® is committed to stability and quality of our products, but preview features are always subject to change based on feedback that we receive from our customers. Using preview features is not recommended for production deployments.
Classification de textes multi-labels des packages prêts à l'emploi
Il s'agit d'un modèle générique réutilisable pour baliser un texte avec plusieurs libellés. Ce paquet ML doit être entraîné, et s'il est déployé sans entraînement au préalable, le déploiement échouera avec une erreur indiquant que le modèle n'a pas été entraîné. Il est basé sur BERT, une méthode auto-supervisée de pré-entraînement des systèmes de traitement du langage naturel. Un GPU est recommandé, en particulier pendant l'entraînement. Un GPU offre une amélioration de la vitesse d'environ 5 à 10 fois.
Ce modèle multilingue prend en charge les langues répertoriées ci-dessous. Ces langues ont été choisies car elles représentent les 100 premières langues les plus utilisées sur Wikipédia :
- Afrikaans
- Albanais
- Arabe
- Aragonais
- arménien
- asturien
- Azerbaïdjanais
- Bachkir
- Basque
- bavarois
- Biélorusse
- bengali
- Bishnupriya Manipuri
- Bosniaque
- breton
- Bulgare
- Birman
- Catalan
- cebuano
- Tchétchène
- Chinois (simplifié)
- Chinois (traditionnel)
- Tchouvache
- croate
- Tchèque
- Danois
- Néerlandais
- Anglais
- estonien
- Finnois
- Français
- galicien
- géorgien
- Allemand
- Grec
- gujarati
- haïtien
- Hébreu
- Hindi
- Hongrois
- Islandais
- Ido
- Indonésien
- Irlandais
- Italien
- Japonais
- javanais
- kannada
- Kazakh
- kirghiz
- Coréen
- latin
- letton
- lituanien
- lombard
- bas saxon
- luxembourgeois
- macédonien
- Malgache
- malais
- Malayalam
- marathi
- Minangkabau
- népalais
- newar
- norvégien (Bokmål)
- norvégien (Nynorsk)
- occitan
- persan (farsi)
- piémontais
- Polonais
- Portugais
- pendjabi
- Roumain
- Russe
- écossais
- Serbe
- serbo-croate
- sicilien
- slovaque
- slovène
- azerbaïdjanais du sud
- Espagnol
- sundanais
- Swahili
- Suédois
- Tagalog
- Tadjik
- tamil
- Tatar
- telugu
- Turque
- Ukrainien
- Ourdou
- ouzbek
- Vietnamien
- volapük
- waray-waray
- gallois
- frison occidental
- pendjabi occidental
- yoruba
Texte à classer comme String : "J'aime cet acteur mais je déteste ses films."
JSON avec deux listes. La première liste contiendra le(s) libellé(s) prédit(s) et la seconde liste contiendra la confiance associée au libellé prédit (entre 0 et 1).
Exemple :
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
Ce package prend en charge les trois types de pipelines (formation complète, formation et évaluation). Dans la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié. Le modèle utilise des techniques avancées pour trouver un modèle performant. Dans les entraînements suivants, après le premier, le modèle utilise l'apprentissage incrémentiel (c'est-à-dire que la version précédemment entraînée sera utilisée à la fin d'une exécution d'entraînement).
text
et label
par défaut. Les noms de ces deux colonnes et/ou propriétés sont configurables à l'aide de variables d'environnement.
Format de fichier CSV
text
) et dataset.target_column_name (si elle n'est pas modifiée, la valeur par défaut est labels
).
Par exemple, un fichier CSV unique peut ressembler à ceci :
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
Vous pouvez utiliser le GPU ou le CPU pour la formation. Nous vous recommandons d'utiliser le GPU car il est plus rapide.
- dataset.text_column_name - valeur par défaut
text
- model.epochs - valeur par défaut
100
- dataset.target_column_name - valeur par défaut
label
Matrice de confusion
Afin de mieux couvrir tous les libellés, dans le cas de la classification de texte multi-label, la matrice de confusion est un fichier JSON. Nous fournissons une matrice de confusion pour chaque libellé ([[#True Positives, #True Negatives], [#False Positives, # False Negatives]])
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
Rapport de classification
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
Évaluation
Il s'agit d'un fichier csv avec des prédictions sur l'ensemble de tests utilisé pour l'évaluation.
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]