AI Center
Plus récente (Latest)
False
Image de fond de la bannière
AI Center
Dernière mise à jour 18 avr. 2024

Classification de textes multi-labels

Remarque :

La classification de texte multi-labels est actuellement en aperçu public.

UiPath s'engage à assurer la stabilité et la qualité de nos produits, mais les fonctionnalités d'aperçu sont toujours sujettes à modification en fonction des commentaires que nous recevons de nos clients. L'utilisation des fonctionnalités d'aperçu n'est pas recommandée pour les déploiements de production.

Classification de textes multi-labels des packages prêts à l'emploi

Il s'agit d'un modèle générique réutilisable pour baliser un texte avec plusieurs libellés. Ce paquet ML doit être entraîné, et s'il est déployé sans entraînement au préalable, le déploiement échouera avec une erreur indiquant que le modèle n'a pas été entraîné. Il est basé sur BERT, une méthode auto-supervisée de pré-entraînement des systèmes de traitement du langage naturel. Un GPU est recommandé, en particulier pendant l'entraînement. Un GPU offre une amélioration de la vitesse d'environ 5 à 10 fois.

Langues

Ce modèle multilingue prend en charge les langues répertoriées ci-dessous. Ces langues ont été choisies car elles représentent les 100 premières langues les plus utilisées sur Wikipédia :

  • Afrikaans
  • Albanais
  • Arabe
  • Aragonais
  • arménien
  • asturien
  • Azerbaïdjanais
  • Bachkir
  • Basque
  • bavarois
  • Biélorusse
  • bengali
  • Bishnupriya Manipuri
  • Bosniaque
  • breton
  • Bulgare
  • Birman
  • Catalan
  • cebuano
  • Tchétchène
  • Chinois (simplifié)
  • Chinois (traditionnel)
  • Tchouvache
  • croate
  • Tchèque
  • Danois
  • Néerlandais
  • Anglais
  • estonien
  • Finnois
  • Français
  • galicien
  • géorgien
  • Allemand
  • Grec
  • gujarati
  • haïtien
  • Hébreu
  • Hindi
  • Hongrois
  • Islandais
  • Ido
  • Indonésien
  • Irlandais
  • Italien
  • Japonais
  • javanais
  • kannada
  • Kazakh
  • kirghiz
  • Coréen
  • latin
  • letton
  • lituanien
  • lombard
  • bas saxon
  • luxembourgeois
  • macédonien
  • Malgache
  • malais
  • Malayalam
  • marathi
  • Minangkabau
  • népalais
  • newar
  • norvégien (Bokmål)
  • norvégien (Nynorsk)
  • occitan
  • persan (farsi)
  • piémontais
  • Polonais
  • Portugais
  • pendjabi
  • Roumain
  • Russe
  • écossais
  • Serbe
  • serbo-croate
  • sicilien
  • slovaque
  • slovène
  • azerbaïdjanais du sud
  • Espagnol
  • sundanais
  • Swahili
  • Suédois
  • Tagalog
  • Tadjik
  • tamil
  • Tatar
  • telugu
  • Turque
  • Ukrainien
  • Ourdou
  • ouzbek
  • Vietnamien
  • volapük
  • waray-waray
  • gallois
  • frison occidental
  • pendjabi occidental
  • yoruba

Détails du modèle

Type d'entrée

JSON

Description de l'entrée

Texte à classer comme String : "J'aime cet acteur mais je déteste ses films."

Description de la sortie

JSON avec deux listes. La première liste contiendra le(s) libellé(s) prédit(s) et la seconde liste contiendra la confiance associée au libellé prédit (entre 0 et 1).

Exemple :

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

Recommander un GPU

Par défaut, un GPU est recommandé.

Formation possible

L’entraînement est activé.

Pipelines

Ce package prend en charge les trois types de pipelines (formation complète, formation et évaluation). Dans la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié. Le modèle utilise des techniques avancées pour trouver un modèle performant. Dans les entraînements suivants, après le premier, le modèle utilise l'apprentissage incrémentiel (c'est-à-dire que la version précédemment entraînée sera utilisée à la fin d'une exécution d'entraînement).

Format d'ensemble de données

Le modèle lira tous les fichiers CSV dans le répertoire spécifié. Dans chaque fichier CSV, le modèle attend deux colonnes ou deux propriétés, text et label par défaut. Les noms de ces deux colonnes et/ou propriétés sont configurables à l'aide de variables d'environnement.

Format de fichier CSV

Chaque fichier CSV peut disposer de n'importe quel nombre de colonnes, mais seules deux seront utilisées par le modèle. Ces colonnes sont spécifiées par les paramètres dataset.text_column_name (si elle n'est pas modifiée, la valeur par défaut est text) et dataset.target_column_name (si elle n'est pas modifiée, la valeur par défaut est labels).

Par exemple, un fichier CSV unique peut ressembler à ceci :

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

Formation sur GPU ou CPU

Vous pouvez utiliser le GPU ou le CPU pour la formation. Nous vous recommandons d'utiliser le GPU car il est plus rapide.

Variables de l'environnement

  • dataset.text_column_name - valeur par défaut text
  • model.epochs - valeur par défaut 100
  • dataset.target_column_name - valeur par défaut label

Artefacts

Matrice de confusion

Afin de mieux couvrir tous les libellés, dans le cas de la classification de texte multi-label, la matrice de confusion est un fichier JSON. Nous fournissons une matrice de confusion pour chaque libellé ([[#True Positives, #True Negatives], [#False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

Rapport de classification

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

Évaluation

Il s'agit d'un fichier csv avec des prédictions sur l'ensemble de tests utilisé pour l'évaluation.

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Logo Uipath blanc
Confiance et sécurité
© 2005-2024 UiPath. All rights reserved.