AI Center - Classification de texte multilingue

ai-center

2022.4

true

AI Center - Guide de l'utilisateur

Notes de publication
- 2022.4.0
Avant de commencer
- Installer ou mettre à niveau AI Center
- Matrice de compatibilité
Démarrage
Projets
- À propos des projets
- Gérer des projets
Jeux de données
- À propos des jeux de données
- Gestion des ensembles de données
Paquets ML
Pipelines
Compétences ML
- À propos des compétences ML
- Gestion des compétences ML
Journaux ML
- À propos des journaux ML
Document Understanding dans AI Center
- Data Manager
- Services OCR
Licences
- AI Units
- Informations légales
Comment
- Paquets ML
  - Utilisez le NER personnalisé avec l'apprentissage continu
Guide de dépannage de base
- Résolution de problèmes générale pour AI Center et FAQ
- Dépannage autonome d'AI Center

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Classification de texte multilingue

Packages prêts à l'emploi (Out of the Box Packages) > Analyse du langage UiPath (UiPath Language Analysis) > MultiLingualTextClassification

Il s'agit d'un modèle générique réentraîné pour la classification de texte. Ce paquet ML doit être entraîné, et s'il est déployé sans entraînement au préalable, le déploiement échouera avec une erreur indiquant que le modèle n'a pas été entraîné. Il est basé sur BERT, une méthode auto-supervisée de pré-entraînement des systèmes de traitement du langage naturel. Un GPU est recommandé, en particulier pendant la formation. Un GPU offre une amélioration de la vitesse d'environ 5 à 10 fois.

Langues

Ce modèle multilingue prend en charge les langues répertoriées ci-dessous. Ces langues ont été choisies car elles représentent les 100 premières langues les plus utilisées sur Wikipédia :

Afrikaans
Albanais
Arabe
Aragonais
arménien
asturien
Azerbaïdjanais
Bachkir
Basque
bavarois
Biélorusse
bengali
Bishnupriya Manipuri
Bosniaque
breton
Bulgare
Birman
Catalan
cebuano
Tchétchène
Chinois (simplifié)
Chinois (traditionnel)
Tchouvache
croate
Tchèque
Danois
Néerlandais
Anglais
estonien
Finnois
Français
galicien
géorgien
Allemand
Grec
gujarati
haïtien
Hébreu
Hindi
Hongrois
Islandais
Ido
Indonésien
Irlandais
Italien
Japonais
javanais
kannada
Kazakh
kirghiz
Coréen
latin
letton
lituanien
lombard
bas saxon
luxembourgeois
macédonien
Malgache
malais
Malayalam
marathi
Minangkabau
népalais
newar
norvégien (Bokmål)
norvégien (Nynorsk)
occitan
persan (farsi)
piémontais
Polonais
Portugais
pendjabi
Roumain
Russe
écossais
Serbe
serbo-croate
sicilien
slovaque
slovène
azerbaïdjanais du sud
Espagnol
sundanais
Swahili
Suédois
Tagalog
Tadjik
tamil
Tatar
telugu
Thaï
Turque
Ukrainien
Ourdou
ouzbek
Vietnamien
volapük
waray-waray
gallois
frison occidental
pendjabi occidental
yoruba

Détails du modèle

Type d'entrée

JSON

Description de l'entrée

Texte à classer en tant que string : « J'ai adoré ce film ».

Description de la sortie

JSON avec prévision du nom de classe et niveau de confiance relatif à cette prévision de classe (entre 0 et 1).

Exemple :

{
  "prediction": "Positive", 
  "confidence": 0.9422031841278076
}{
  "prediction": "Positive", 
  "confidence": 0.9422031841278076
}

Recommander un GPU

Par défaut, un GPU est recommandé.

Formation possible

Par défaut, l'apprentissage est activé.

Pipelines

Les trois types de pipelines (complet, formation et évaluation) sont pris en charge par ce package. Pour la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié ; le modèle utilise des techniques avancées pour trouver un modèle performant. Pour les entraînements subséquents au premier entraînement, le modèle utilise un apprentissage incrémentiel (c'est-à-dire que la version précédemment entraînée sera utilisée à la fin de l'exécution d'un entraînement).

Format d'ensemble de données

Trois options sont disponibles pour structurer votre jeu de données pour ce modèle : JSON, CSV et AI Center au format JSON. Le modèle lira tous les fichiers CSV et JSON dans le répertoire spécifié. Pour chaque format, le modèle attend deux colonnes ou deux propriétés, dataset.input_column_name et dataset.target_column_name Par défaut Les noms de ces deux colonnes et/ou répertoires sont configurables à l'aide de variables d'environnement.

Format de fichier CSV

Chaque fichier CSV peut avoir n'importe quel nombre de colonnes, mais seules deux seront utilisées par le modèle. Ces colonnes sont spécifiées par dataset.input_column_name et dataset.target_column_name paramètres.

Consultez l'exemple et les variables d'environnement suivants pour obtenir un exemple de format de fichier CSV.

text, label
I like this movie, 7
I hated the acting, 9text, label
I like this movie, 7
I hated the acting, 9

Les variables d'environnement de l'exemple précédent seraient les suivantes :

dataset.input_format: auto
dataset.input_column_name: text
dataset.nom_colonne_sortie : label

Format de fichier JSON

Plusieurs points de données peuvent faire partie du même fichier JSON.

Consultez l'exemple et les variables d'environnement suivants pour obtenir un exemple de format de fichier JSON.

[
  {
    "text": "I like this movie",
    "label": "7"
  },
  {
    "text": "I hated the acting",
    "label": "9"
  }
][
  {
    "text": "I like this movie",
    "label": "7"
  },
  {
    "text": "I hated the acting",
    "label": "9"
  }
]

Les variables d'environnement de l'exemple précédent seraient les suivantes :

dataset.input_format: auto
dataset.input_column_name: text
dataset.nom_colonne_sortie : label

format de fichier ai_center

Il s'agit de la valeur par défaut des variables d'environnement qui peuvent être définies, et ce modèle lira tous les fichiers dans un répertoire fourni avec une extension .json .

Consultez l'exemple et les variables d'environnement suivants pour obtenir un exemple de format de fichier ai_center.

{
    "annotations": {
        "intent": {
            "to_name": "text",
            "choices": [
                "TransactionIssue",
                "LoanIssue"
            ]
        },
        "sentiment": {
            "to_name": "text",
            "choices": [
                "Very Positive"
            ]
        },
        "ner": {
            "to_name": "text",
            "labels": [
                {
                    "start_index": 37,
                    "end_index": 47,
                    "entity": "Stakeholder",
                    "value": " Citi Bank"
                },
                {
                    "start_index": 51,
                    "end_index": 61,
                    "entity": "Date",
                    "value": "07/19/2018"
                },
                {
                    "start_index": 114,
                    "end_index": 118,
                    "entity": "Amount",
                    "value": "$500"
                },
                {
                    "start_index": 288,
                    "end_index": 293,
                    "entity": "Stakeholder",
                    "value": " Citi"
                }
            ]
        }
    },
    "data": {
        "cc": "",
        "to": "xyz@abc.com",
        "date": "1/29/2020 12:39:01 PM",
        "from": "abc@xyz.com",
        "text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."{
    "annotations": {
        "intent": {
            "to_name": "text",
            "choices": [
                "TransactionIssue",
                "LoanIssue"
            ]
        },
        "sentiment": {
            "to_name": "text",
            "choices": [
                "Very Positive"
            ]
        },
        "ner": {
            "to_name": "text",
            "labels": [
                {
                    "start_index": 37,
                    "end_index": 47,
                    "entity": "Stakeholder",
                    "value": " Citi Bank"
                },
                {
                    "start_index": 51,
                    "end_index": 61,
                    "entity": "Date",
                    "value": "07/19/2018"
                },
                {
                    "start_index": 114,
                    "end_index": 118,
                    "entity": "Amount",
                    "value": "$500"
                },
                {
                    "start_index": 288,
                    "end_index": 293,
                    "entity": "Stakeholder",
                    "value": " Citi"
                }
            ]
        }
    },
    "data": {
        "cc": "",
        "to": "xyz@abc.com",
        "date": "1/29/2020 12:39:01 PM",
        "from": "abc@xyz.com",
        "text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."

Pour tirer parti de l'exemple JSON précédent, les variables d'environnement doivent être définies comme suit :

dataset.input_format: ai_center
dataset.input_column_name: data.text
dataset.nom_colonne_sortie : annotations.intent.choices

Formation sur GPU ou CPU

Vous pouvez utiliser le GPU ou le CPU pour la formation. Nous vous recommandons d'utiliser le GPU car il est plus rapide.

Variables de l'environnement

dataset.input_column_name
- Le nom de la colonne d'entrée contenant le texte.
- La valeur par défaut est data.text.
- Assurez-vous que cette variable est configurée en fonction de votre fichier JSON ou CSV d'entrée.
dataset.target_column_name
- Le nom de la colonne cible contenant le texte.
- La valeur par défaut est annotations.intent.choices.
- Assurez-vous que cette variable est configurée en fonction de votre fichier JSON ou CSV d'entrée.
jeu de données.format_entrée
- Le format d'entrée des données d'entraînement.
- La valeur par défaut est ai_center.
- Les valeurs prises en charge sont : ai_center ou auto .
- Si ai_center est sélectionné, seuls les fichiers JSON sont pris en charge. Assurez-vous également de remplacer la valeur de dataset.target_column_name par annotations.sentiment.choices si ai_center est sélectionné.
- Si auto est sélectionné, les fichiers CoNLL et JSON sont pris en charge.
modèle.époques
- Le nombre d'époques.
- Valeur par défaut : 100 .

Artefacts

Matrice de confusion

Rapport de classification

precision    recall  f1-score   support
         positive     0.94      0.94      0.94     10408
         negative     0.93      0.93      0.93      9592
    accuracy                              0.94     20000
   macro avg          0.94      0.94      0.94     20000
weighted avg          0.94      0.94      0.94     20000precision    recall  f1-score   support
         positive     0.94      0.94      0.94     10408
         negative     0.93      0.93      0.93      9592
    accuracy                              0.94     20000
   macro avg          0.94      0.94      0.94     20000
weighted avg          0.94      0.94      0.94     20000

Données

Fichier CSV d'évaluation

Il s'agit d'un fichier csv avec des prédictions sur l'ensemble de tests utilisé pour l'évaluation.

text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98

Sommaire de la page

Langues
Détails du modèle
Type d'entrée
Description de l'entrée
Description de la sortie
Recommander un GPU
Formation possible
Pipelines
Format d'ensemble de données
Formation sur GPU ou CPU
Variables de l'environnement
Artefacts
Données

Cette page vous a-t-elle été utile ?

PrécédentClassification de texte clair

SuivantPaquets Open Source