AI Center – Textklassifizierung mit mehreren Bezeichnungen

ai-center

latest

false

AI Center – Benutzerhandbuch

Erste Schritte
Benachrichtigungen
- Meine Benachrichtigungen
Projekte
- Über Projekte
- Verwalten von Projekten
Datasets
- Über Datasets
- Verwalten von Datasets
Data Labeling
ML-Pakete
Sofort einsetzbare Pakete
Pipelines
ML-Skills
- Über ML-Fähigkeiten
- Verwalten von ML-Fähigkeiten
ML-Protokolle
- Über ML-Protokolle
Document UnderstandingTM im AI Center
- Dokumentmanager
- OCR-Dienste
AI Center-API
- Überblick
- API-Liste
Lizenzierung
Vorlagen für AI Solutions
- Infos zu den Vorlagen für AI Solutions
  - AI Solutions für E-Mails
Anleitungen zu …
- ML-Pakete
  - Verwenden von benutzerdefinierter NER mit kontinuierlichem Lernen
- ML-Skills
Grundlegende Anleitung zur Fehlerbehebung

Wichtig :

Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Mehrstufige Textklassifizierung

Das vorgefertigte ML-Paket MultilabelTextClassification im AI Center ist ein Vorschaumodell zum Klassifizieren von Text in mehreren gleichzeitigen Kategorien.

Hinweis:

Dieses ML-Paket wird bald als veraltet betrachtet. Weitere Informationen finden Sie auf der Seite Zeitleiste der veralteten Elemente in der Übersicht .

Hinweis:

Die Textklassifizierung mit mehreren Bezeichnungen befindet sich derzeit in der öffentlichen Vorschau.

UiPath® legt großen Wert auf die Stabilität und Qualität seiner Produkte, aber die Vorschaufunktionen können aufgrund des Feedbacks unserer Kunden jederzeit geändert werden. Die Verwendung von Vorschaufunktionen wird für Produktionsbereitstellungen nicht empfohlen.

Sofort einsetzbare Pakete: Textklassifizierung mit mehreren Bezeichnungen

Dies ist ein generisches, erneut trainierbares Modell zum Taggen eines Texts mit mehreren Beschriftungen. Dieses ML-Paket muss trainiert werden, und wenn es zuerst ohne Training bereitgestellt wird, schlägt die Bereitstellung mit einem Fehler fehl, der angibt, dass das Modell nicht trainiert wurde. Es basiert auf BERT, einer selbstüberwachenden Methode zum Vortraining von Systemen zur Verarbeitung natürlicher Sprache. Eine GPU wird empfohlen, insbesondere während des Trainings. Eine GPU verbessert die Geschwindigkeit um das 5- bis 10-fache.

Sprachen

Dieses mehrsprachige Modell unterstützt die Sprachen aus der folgenden Liste. Diese Sprachen wurden ausgewählt, da sie die Top 100 Sprachen mit den umfangreichsten Wikipedia-Enzyklopädien sind:

Afrikaans
Albanisch
Arabisch
Aragonesisch
Armenisch
Asturisch
Aserbaidschanisch
Baschkirisch
Baskisch
Bayerisch
Weißrussisch
Bengali
Bishnupriya Manipuri
Bosnisch
Bretonisch
Bulgarisch
Birmanisch
Katalanisch
Cebuano
Tschetschenien
Chinesisch (vereinfacht)
Chinesisch (traditionell)
Tschuwaschisch
Kroatisch
Tschechisch
Dänisch
Niederländisch
Englisch
Estnisch
Finnisch
Französisch
Galizisch
Georgisch
Deutsch
Griechisch
Gujarati
Haitianisch
Hebräisch
Hindi
Ungarisch
Isländisch
Ido
Indonesisch
Irisch
Italienisch
Japanisch
Javanisch
Kannada
Kasachisch
Kirgisisch
Koreanisch
Latein
Lettisch
Litauisch
Langobardisch
Niedersächsisch
Luxemburgisch
Mazedonisch
Madagassisch
Malaiisch
Malaiisch
Marathi
Minangkabau
Nepali
Newari
Norwegisch (Bokmål)
Norwegisch (Nynorsk)
Okzitanisch
Persisch (Farsi)
Piemontesisch
Polnisch
Portugiesisch
Punjabi
Rumänisch
Russisch
Scots
Serbisch
Serbokroatisch
Sizilianisch
Slowakisch
Slowenisch
Süd-Aserbaidschanisch
Spanisch
Sundanesisch
Swahili
Schwedisch
Tagalog
Tadschikisch
Tamil
Tatarisch
Telugu
Türkisch
Ukrainisch
Urdu
Usbekisch
Vietnamesisch
Volapük
Waray-Waray
Walisisch
Westfriesisch
West-Punjabi
Yoruba

Modelldetails

Eingabetyp

JSON

Eingabebeschreibung

Text, der als String klassifiziert werden soll: „Ich liebe diesen Schauspieler, aber ich hasse seine Filme.“

Ausgabebeschreibung

JSON mit zwei Listen. Die erste Liste enthält vorhergesagte Beschriftungen, und die zweite Liste enthält die zugehörige Konfidenz der vorhergesagten Beschriftung (zwischen 0 und 1).

Beispiel:

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}
{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

Standardmäßig wird eine GPU empfohlen.

Training aktiviert

Das Training ist aktiviert.

Pipelines

Dieses Paket unterstützt alle drei Arten von Pipelines (Vollständiges Training, Training und Evaluierung). Für die meisten Anwendungsfälle müssen keine Parameter angegeben werden. Das Modell verwendet erweiterte Techniken, um ein performantes Modell zu finden. In den folgenden Trainings nach dem ersten verwendet das Modell inkrementelles Lernen (d. h., die zuvor trainierte Version wird am Ende eines Trainingslaufs verwendet).

Dataset-Format

Das Modell liest alle CSV-Dateien im angegebenen Verzeichnis. In jeder CSV-Datei erwartet das Modell zwei Spalten oder zwei Eigenschaften, standardmäßig text und label . Die Namen dieser beiden Spalten und/oder Eigenschaften können mithilfe von Umgebungsvariablen konfiguriert werden.

CSV-Dateiformat

Jede CSV-Datei kann eine beliebige Anzahl von Spalten haben, aber nur zwei werden vom Modell verwendet. Diese Spalten werden durch die Parameter dataset.text_column_name . angegeben (Wenn nicht geändert, ist der Standardwert text ) und dataset.target_column_name (Wenn nicht geändert, ist der Standardwert labels ).

Beispielsweise kann eine einzelne CSV-Datei folgendermaßen aussehen:

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

Training auf GPU oder CPU

Sie können für das Training entweder den GPU oder den CPU verwenden. Wir empfehlen die Verwendung des GPUs, da er schneller ist.

Umgebungsvariablen

dataset.text_column_name – Standardwert text
model.epochs – Standardwert 100
dataset.target_column_name – Standardwert label

Artefakte

Konfusionsmatrix

Um alle Beschriftungen besser abzudecken, ist die Verwirrungsmatrix im Fall der Multilabel-Textklassifizierung eine JSON-Datei. Wir stellen eine Verwirrungsmatrix für jede Bezeichnung bereit ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}
{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

Klassifizierungsbericht

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}
{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

Auswertung

Dies ist eine CSV-Datei mit Vorhersagen für den Testsatz, der für die Auswertung verwendet wird.

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

War diese Seite hilfreich?

Vorherige (previous)Semantische Ähnlichkeit

WeiterUiPath Bildanalyse

Sprachen​

Modelldetails​

Eingabetyp​

Eingabebeschreibung​

Ausgabebeschreibung​

GPU empfohlen​

Training aktiviert​

Pipelines​

Dataset-Format​

CSV-Dateiformat​

Training auf GPU oder CPU​

Umgebungsvariablen​

Artefakte​

Konfusionsmatrix​

Klassifizierungsbericht​

Auswertung​