- Notes de publication
- Avant de commencer
- Démarrage
- Installation d'AI Center
- Migration et mise à niveau
- Projets
- Jeux de données
- Labellisation des données
- Paquets ML
- Paquets prêts à l’emploi
- Pipelines
- Compétences ML
- Journaux ML
- Document UnderstandingTM dans AI Center
- Comment
- Licences
- Guide de dépannage de base
Classification de texte multilingue
Packages prêts à l'emploi (Out of the Box Packages) > Analyse du langage UiPath (UiPath Language Analysis) > MultiLingualTextClassification
Il s'agit d'un modèle générique réentraîné pour la classification de texte. Ce paquet ML doit être entraîné, et s'il est déployé sans entraînement au préalable, le déploiement échouera avec une erreur indiquant que le modèle n'a pas été entraîné. Il est basé sur BERT, une méthode auto-supervisée de pré-entraînement des systèmes de traitement du langage naturel. Un GPU est recommandé, en particulier pendant la formation. Un GPU offre une amélioration de la vitesse d'environ 5 à 10 fois.
Ce modèle multilingue prend en charge les langues répertoriées ci-dessous. Ces langues ont été choisies car elles représentent les 100 premières langues les plus utilisées sur Wikipédia :
- Afrikaans
- Albanais
- Arabe
- Aragonais
- arménien
- asturien
- Azerbaïdjanais
- Bachkir
- Basque
- bavarois
- Biélorusse
- bengali
- Bishnupriya Manipuri
- Bosniaque
- breton
- Bulgare
- Birman
- Catalan
- cebuano
- Tchétchène
- Chinois (simplifié)
- Chinois (traditionnel)
- Tchouvache
- croate
- Tchèque
- Danois
- Néerlandais
- Anglais
- estonien
- Finnois
- Français
- galicien
- géorgien
- Allemand
- Grec
- gujarati
- haïtien
- Hébreu
- Hindi
- Hongrois
- Islandais
- Ido
- Indonésien
- Irlandais
- Italien
- Japonais
- javanais
- kannada
- Kazakh
- kirghiz
- Coréen
- latin
- letton
- lituanien
- lombard
- bas saxon
- luxembourgeois
- macédonien
- Malgache
- malais
- Malayalam
- marathi
- Minangkabau
- népalais
- newar
- norvégien (Bokmål)
- norvégien (Nynorsk)
- occitan
- persan (farsi)
- piémontais
- Polonais
- Portugais
- pendjabi
- Roumain
- Russe
- écossais
- Serbe
- serbo-croate
- sicilien
- slovaque
- slovène
- azerbaïdjanais du sud
- Espagnol
- sundanais
- Swahili
- Suédois
- Tagalog
- Tadjik
- tamil
- Tatar
- telugu
- Thaï
- Turque
- Ukrainien
- Ourdou
- ouzbek
- Vietnamien
- volapük
- waray-waray
- gallois
- frison occidental
- pendjabi occidental
- yoruba
JSON avec prévision du nom de classe et niveau de confiance relatif à cette prévision de classe (entre 0 et 1).
Exemple :
{
"prediction": "Positive",
"confidence": 0.9422031841278076
}
{
"prediction": "Positive",
"confidence": 0.9422031841278076
}
Les trois types de pipelines (complet, formation et évaluation) sont pris en charge par ce package. Pour la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié ; le modèle utilise des techniques avancées pour trouver un modèle performant. Pour les entraînements subséquents au premier entraînement, le modèle utilise un apprentissage incrémentiel (c'est-à-dire que la version précédemment entraînée sera utilisée à la fin de l'exécution d'un entraînement).
Trois options sont disponibles pour structurer votre ensemble de données pour ce modèle : JSON, CSV et AI Center au format JSON (il s'agit également du format d'exportation de l'outil de labellisation). Le modèle lira tous les fichiers CSV et JSON dans le répertoire spécifié. Pour chaque format, le modèle attend deux colonnes ou deux propriétés, dataset.input_column_name et dataset.target_column_name Par défaut Les noms de ces deux colonnes et/ou répertoires sont configurables à l'aide de variables d'environnement.
Format de fichier CSV
Chaque fichier CSV peut avoir n'importe quel nombre de colonnes, mais seules deux seront utilisées par le modèle. Ces colonnes sont spécifiées par dataset.input_column_name et dataset.target_column_name paramètres.
Consultez l'exemple et les variables d'environnement suivants pour obtenir un exemple de format de fichier CSV.
text, label
I like this movie, 7
I hated the acting, 9
text, label
I like this movie, 7
I hated the acting, 9
Les variables d'environnement de l'exemple précédent seraient les suivantes :
- dataset.input_format:
auto
- dataset.input_column_name:
text
- dataset.nom_colonne_sortie :
label
Format de fichier JSON
Plusieurs points de données peuvent faire partie du même fichier JSON.
Consultez l'exemple et les variables d'environnement suivants pour obtenir un exemple de format de fichier JSON.
[
{
"text": "I like this movie",
"label": "7"
},
{
"text": "I hated the acting",
"label": "9"
}
]
[
{
"text": "I like this movie",
"label": "7"
},
{
"text": "I hated the acting",
"label": "9"
}
]
Les variables d'environnement de l'exemple précédent seraient les suivantes :
- dataset.input_format:
auto
- dataset.input_column_name:
text
- dataset.nom_colonne_sortie :
label
format de fichier ai_center
.json
.
Consultez l'exemple et les variables d'environnement suivants pour obtenir un exemple de format de fichier ai_center.
{
"annotations": {
"intent": {
"to_name": "text",
"choices": [
"TransactionIssue",
"LoanIssue"
]
},
"sentiment": {
"to_name": "text",
"choices": [
"Very Positive"
]
},
"ner": {
"to_name": "text",
"labels": [
{
"start_index": 37,
"end_index": 47,
"entity": "Stakeholder",
"value": " Citi Bank"
},
{
"start_index": 51,
"end_index": 61,
"entity": "Date",
"value": "07/19/2018"
},
{
"start_index": 114,
"end_index": 118,
"entity": "Amount",
"value": "$500"
},
{
"start_index": 288,
"end_index": 293,
"entity": "Stakeholder",
"value": " Citi"
}
]
}
},
"data": {
"cc": "",
"to": "xyz@abc.com",
"date": "1/29/2020 12:39:01 PM",
"from": "abc@xyz.com",
"text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."
{
"annotations": {
"intent": {
"to_name": "text",
"choices": [
"TransactionIssue",
"LoanIssue"
]
},
"sentiment": {
"to_name": "text",
"choices": [
"Very Positive"
]
},
"ner": {
"to_name": "text",
"labels": [
{
"start_index": 37,
"end_index": 47,
"entity": "Stakeholder",
"value": " Citi Bank"
},
{
"start_index": 51,
"end_index": 61,
"entity": "Date",
"value": "07/19/2018"
},
{
"start_index": 114,
"end_index": 118,
"entity": "Amount",
"value": "$500"
},
{
"start_index": 288,
"end_index": 293,
"entity": "Stakeholder",
"value": " Citi"
}
]
}
},
"data": {
"cc": "",
"to": "xyz@abc.com",
"date": "1/29/2020 12:39:01 PM",
"from": "abc@xyz.com",
"text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."
Pour tirer parti de l'exemple JSON précédent, les variables d'environnement doivent être définies comme suit :
- dataset.input_format:
ai_center
- dataset.input_column_name:
data.text
- dataset.nom_colonne_sortie :
annotations.intent.choices
Vous pouvez utiliser le GPU ou le CPU pour la formation. Nous vous recommandons d'utiliser le GPU car il est plus rapide.
- dataset.input_column_name
- Le nom de la colonne d'entrée contenant le texte.
- La valeur par défaut est
data.text
. - Assurez-vous que cette variable est configurée en fonction de votre fichier JSON ou CSV d'entrée.
- dataset.target_column_name
- Le nom de la colonne cible contenant le texte.
- La valeur par défaut est
annotations.intent.choices
. - Assurez-vous que cette variable est configurée en fonction de votre fichier JSON ou CSV d'entrée.
- jeu de données.format_entrée
- Le format d'entrée des données d'entraînement.
- La valeur par défaut est
ai_center
. - Les valeurs prises en charge sont :
ai_center
ouauto
. - Si
ai_center
est sélectionné, seuls les fichiersJSON
sont pris en charge. Assurez-vous également de remplacer la valeur de dataset.target_column_name parannotations.sentiment.choices
siai_center
est sélectionné. - Si
auto
est sélectionné, les fichiersCoNLL
etJSON
sont pris en charge.
- modèle.époques
- Le nombre d'époques.
- Valeur par défaut :
100
.
Matrice de confusion
Rapport de classification
precision recall f1-score support
positive 0.94 0.94 0.94 10408
negative 0.93 0.93 0.93 9592
accuracy 0.94 20000
macro avg 0.94 0.94 0.94 20000
weighted avg 0.94 0.94 0.94 20000
precision recall f1-score support
positive 0.94 0.94 0.94 10408
negative 0.93 0.93 0.93 9592
accuracy 0.94 20000
macro avg 0.94 0.94 0.94 20000
weighted avg 0.94 0.94 0.94 20000
Fichier CSV d'évaluation
Il s'agit d'un fichier csv avec des prédictions sur l'ensemble de tests utilisé pour l'évaluation.
text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98
text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98