ai-center

latest

false

Notes de publication
Démarrage
Notifications
- Mes notifications
Projets
- À propos des projets
- Gérer des projets
Jeux de données
- À propos des jeux de données
- Gestion des ensembles de données
Labellisation des données
Paquets ML
Paquets prêts à l’emploi
Pipelines
Compétences ML
- À propos des compétences ML
- Gestion des compétences ML
Journaux ML
- À propos des journaux ML
Document UnderstandingTM dans AI Center
- Document Manager
- Services OCR
API AI Center
- Vue d'ensemble (Overview)
- Liste des API
Licences
Modèles de solutions d'IA
- À propos des modèles de solutions d'IA
  - E-mail d'IA
Comment
- Paquets ML
  - Utilisez le NER personnalisé avec l'apprentissage continu
- Compétences ML
Guide de dépannage de base

Important :

Veuillez noter que ce contenu a été localisé en partie à l’aide de la traduction automatique. La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

AI Center

PRODUIT :

Dernière mise à jour 28 mars 2025

Classification de textes multi-labels

Remarque : ce paquet ML sera bientôt obsolète. Pour plus d'informations, consultez la page Calendrier d'obsolescence du guide de présentation .

Remarque :

La classification de texte multi-labels est actuellement en aperçu public.

UiPath® s’engage à assurer la stabilité et la qualité de nos produits, mais les fonctionnalités d’aperçu sont toujours sujettes à modification en fonction des commentaires que nous recevons de nos clients. L'utilisation des fonctionnalités d'aperçu n'est pas recommandée pour les déploiements de production.

Classification de textes multi-labels des packages prêts à l'emploi

Il s'agit d'un modèle générique réutilisable pour baliser un texte avec plusieurs libellés. Ce paquet ML doit être entraîné, et s'il est déployé sans entraînement au préalable, le déploiement échouera avec une erreur indiquant que le modèle n'a pas été entraîné. Il est basé sur BERT, une méthode auto-supervisée de pré-entraînement des systèmes de traitement du langage naturel. Un GPU est recommandé, en particulier pendant l'entraînement. Un GPU offre une amélioration de la vitesse d'environ 5 à 10 fois.

Langues

Ce modèle multilingue prend en charge les langues répertoriées ci-dessous. Ces langues ont été choisies car elles représentent les 100 premières langues les plus utilisées sur Wikipédia :

Afrikaans
Albanais
Arabe
Aragonais
arménien
asturien
Azerbaïdjanais
Bachkir
Basque
bavarois
Biélorusse
bengali
Bishnupriya Manipuri
Bosniaque
breton
Bulgare
Birman
Catalan
cebuano
Tchétchène
Chinois (simplifié)
Chinois (traditionnel)
Tchouvache
croate
Tchèque
Danois
Néerlandais
Anglais
estonien
Finnois
Français
galicien
géorgien
Allemand
Grec
gujarati
haïtien
Hébreu
Hindi
Hongrois
Islandais
Ido
Indonésien
Irlandais
Italien
Japonais
javanais
kannada
Kazakh
kirghiz
Coréen
latin
letton
lituanien
lombard
bas saxon
luxembourgeois
macédonien
Malgache
malais
Malayalam
marathi
Minangkabau
népalais
newar
norvégien (Bokmål)
norvégien (Nynorsk)
occitan
persan (farsi)
piémontais
Polonais
Portugais
pendjabi
Roumain
Russe
écossais
Serbe
serbo-croate
sicilien
slovaque
slovène
azerbaïdjanais du sud
Espagnol
sundanais
Swahili
Suédois
Tagalog
Tadjik
tamil
Tatar
telugu
Turque
Ukrainien
Ourdou
ouzbek
Vietnamien
volapük
waray-waray
gallois
frison occidental
pendjabi occidental
yoruba

Détails du modèle

Type d'entrée

JSON

Description de l'entrée

Texte à classer comme String : "J'aime cet acteur mais je déteste ses films."

Description de la sortie

JSON avec deux listes. La première liste contiendra le(s) libellé(s) prédit(s) et la seconde liste contiendra la confiance associée au libellé prédit (entre 0 et 1).

Exemple :

 {
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

Recommander un GPU

Par défaut, un GPU est recommandé.

Formation possible

L’entraînement est activé.

Pipelines

Ce package prend en charge les trois types de pipelines (formation complète, formation et évaluation). Dans la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié. Le modèle utilise des techniques avancées pour trouver un modèle performant. Dans les entraînements suivants, après le premier, le modèle utilise l'apprentissage incrémentiel (c'est-à-dire que la version précédemment entraînée sera utilisée à la fin d'une exécution d'entraînement).

Format d'ensemble de données

Le modèle lira tous les fichiers CSV dans le répertoire spécifié. Dans chaque fichier CSV, le modèle attend deux colonnes ou deux propriétés, text et label par défaut. Les noms de ces deux colonnes et/ou propriétés sont configurables à l'aide de variables d'environnement.

Format de fichier CSV

Chaque fichier CSV peut disposer de n'importe quel nombre de colonnes, mais seules deux seront utilisées par le modèle. Ces colonnes sont spécifiées par les paramètres dataset.text_column_name (si elle n'est pas modifiée, la valeur par défaut est text) et dataset.target_column_name (si elle n'est pas modifiée, la valeur par défaut est labels).

Par exemple, un fichier CSV unique peut ressembler à ceci :

 text,labels
"I love this actor but I hate his movies", ['positive', 'negative']text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

Formation sur GPU ou CPU

Vous pouvez utiliser le GPU ou le CPU pour la formation. Nous vous recommandons d'utiliser le GPU car il est plus rapide.

Variables de l'environnement

dataset.text_column_name - valeur par défaut text
model.epochs - valeur par défaut 100
dataset.target_column_name - valeur par défaut label

Artefacts

Matrice de confusion

Afin de mieux couvrir tous les libellés, dans le cas de la classification de texte multi-label, la matrice de confusion est un fichier JSON. Nous fournissons une matrice de confusion pour chaque libellé ([[#True Positives, #True Negatives], [#False Positives, # False Negatives]])

 {
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

Rapport de classification

 {
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

Évaluation

Il s'agit d'un fichier csv avec des prédictions sur l'ensemble de tests utilisé pour l'évaluation.

 label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]