- Notes de publication
- Démarrage
- Notifications
- Projets
- Jeux de données
- Labellisation des données
- Paquets ML
- Paquets prêts à l’emploi
- Pipelines
- Compétences ML
- Journaux ML
- Document UnderstandingTM dans AI Center
- API AI Center
- Licences
- Modèles de solutions d'IA
- Comment
- Guide de dépannage de base
Classification de textes multi-labels
La classification de texte multi-labels est actuellement en aperçu public.
UiPath® s'engage à assurer la stabilité et la qualité de nos produits, mais les fonctionnalités d'aperçu sont toujours sujettes à modification en fonction des commentaires que nous recevons de nos clients. L'utilisation des fonctionnalités d'aperçu n'est pas recommandée pour les déploiements de production.
Classification de textes multi-labels des packages prêts à l'emploi
Il s'agit d'un modèle générique réutilisable pour baliser un texte avec plusieurs libellés. Ce paquet ML doit être entraîné, et s'il est déployé sans entraînement au préalable, le déploiement échouera avec une erreur indiquant que le modèle n'a pas été entraîné. Il est basé sur BERT, une méthode auto-supervisée de pré-entraînement des systèmes de traitement du langage naturel. Un GPU est recommandé, en particulier pendant l'entraînement. Un GPU offre une amélioration de la vitesse d'environ 5 à 10 fois.
Ce modèle multilingue prend en charge les langues répertoriées ci-dessous. Ces langues ont été choisies car elles représentent les 100 premières langues les plus utilisées sur Wikipédia :
- Afrikaans
- Albanais
- Arabe
- Aragonais
- arménien
- asturien
- Azerbaïdjanais
- Bachkir
- Basque
- bavarois
- Biélorusse
- bengali
- Bishnupriya Manipuri
- Bosniaque
- breton
- Bulgare
- Birman
- Catalan
- cebuano
- Tchétchène
- Chinois (simplifié)
- Chinois (traditionnel)
- Tchouvache
- croate
- Tchèque
- Danois
- Néerlandais
- Anglais
- estonien
- Finnois
- Français
- galicien
- géorgien
- Allemand
- Grec
- gujarati
- haïtien
- Hébreu
- Hindi
- Hongrois
- Islandais
- Ido
- Indonésien
- Irlandais
- Italien
- Japonais
- javanais
- kannada
- Kazakh
- kirghiz
- Coréen
- latin
- letton
- lituanien
- lombard
- bas saxon
- luxembourgeois
- macédonien
- Malgache
- malais
- Malayalam
- marathi
- Minangkabau
- népalais
- newar
- norvégien (Bokmål)
- norvégien (Nynorsk)
- occitan
- persan (farsi)
- piémontais
- Polonais
- Portugais
- pendjabi
- Roumain
- Russe
- écossais
- Serbe
- serbo-croate
- sicilien
- slovaque
- slovène
- azerbaïdjanais du sud
- Espagnol
- sundanais
- Swahili
- Suédois
- Tagalog
- Tadjik
- tamil
- Tatar
- telugu
- Turque
- Ukrainien
- Ourdou
- ouzbek
- Vietnamien
- volapük
- waray-waray
- gallois
- frison occidental
- pendjabi occidental
- yoruba
Texte à classer comme String : "J'aime cet acteur mais je déteste ses films."
JSON avec deux listes. La première liste contiendra le(s) libellé(s) prédit(s) et la seconde liste contiendra la confiance associée au libellé prédit (entre 0 et 1).
Exemple :
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
Ce package prend en charge les trois types de pipelines (formation complète, formation et évaluation). Dans la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié. Le modèle utilise des techniques avancées pour trouver un modèle performant. Dans les entraînements suivants, après le premier, le modèle utilise l'apprentissage incrémentiel (c'est-à-dire que la version précédemment entraînée sera utilisée à la fin d'une exécution d'entraînement).
text
et label
par défaut. Les noms de ces deux colonnes et/ou propriétés sont configurables à l'aide de variables d'environnement.
Format de fichier CSV
text
) et dataset.target_column_name (si elle n'est pas modifiée, la valeur par défaut est labels
).
Par exemple, un fichier CSV unique peut ressembler à ceci :
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
Vous pouvez utiliser le GPU ou le CPU pour la formation. Nous vous recommandons d'utiliser le GPU car il est plus rapide.
- dataset.text_column_name - valeur par défaut
text
- model.epochs - valeur par défaut
100
- dataset.target_column_name - valeur par défaut
label
Matrice de confusion
Afin de mieux couvrir tous les libellés, dans le cas de la classification de texte multi-label, la matrice de confusion est un fichier JSON. Nous fournissons une matrice de confusion pour chaque libellé ([[#True Positives, #True Negatives], [#False Positives, # False Negatives]])
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
Rapport de classification
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
Évaluation
Il s'agit d'un fichier csv avec des prédictions sur l'ensemble de tests utilisé pour l'évaluation.
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]