ai-center
latest
false
Wichtig :
Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.
UiPath logo, featuring letters U and I in white

AI Center

Automation CloudAutomation SuiteStandalone
Letzte Aktualisierung 19. Nov. 2024

Mehrstufige Textklassifizierung

Hinweis:

Die Textklassifizierung mit mehreren Bezeichnungen befindet sich derzeit in der öffentlichen Vorschau.

UiPath® legt großen Wert auf die Stabilität und Qualität seiner Produkte, aber die Vorschaufunktionen können aufgrund des Feedbacks unserer Kunden jederzeit geändert werden. Die Verwendung von Vorschaufunktionen wird für Produktionsbereitstellungen nicht empfohlen.

Sofort einsetzbare Pakete: Textklassifizierung mit mehreren Bezeichnungen

Dies ist ein generisches, erneut trainierbares Modell zum Taggen eines Texts mit mehreren Beschriftungen. Dieses ML-Paket muss trainiert werden, und wenn es zuerst ohne Training bereitgestellt wird, schlägt die Bereitstellung mit einem Fehler fehl, der angibt, dass das Modell nicht trainiert wurde. Es basiert auf BERT, einer selbstüberwachenden Methode zum Vortraining von Systemen zur Verarbeitung natürlicher Sprache. Eine GPU wird empfohlen, insbesondere während des Trainings. Eine GPU verbessert die Geschwindigkeit um das 5- bis 10-fache.

Sprachen

Dieses mehrsprachige Modell unterstützt die unten aufgeführten Sprachen. Diese Sprachen wurden ausgewählt, da sie die Top 100 Sprachen mit den umfangreichsten Wikipedia-Enzyklopädien sind:

  • Afrikaans
  • Albanisch
  • Arabisch
  • Aragonesisch
  • Armenisch
  • Asturisch
  • Aserbaidschanisch
  • Baschkirisch
  • Baskisch
  • Bayerisch
  • Weißrussisch
  • Bengali
  • Bishnupriya Manipuri
  • Bosnisch
  • Bretonisch
  • Bulgarisch
  • Birmanisch
  • Katalanisch
  • Cebuano
  • Tschetschenien
  • Chinesisch (vereinfacht)
  • Chinesisch (traditionell)
  • Tschuwaschisch
  • Kroatisch
  • Tschechisch
  • Dänisch
  • Niederländisch
  • Englisch
  • Estnisch
  • Finnisch
  • Französisch
  • Galizisch
  • Georgisch
  • Deutsch
  • Griechisch
  • Gujarati
  • Haitianisch
  • Hebräisch
  • Hindi
  • Ungarisch
  • Isländisch
  • Ido
  • Indonesisch
  • Irisch
  • Italienisch
  • Japanisch
  • Javanisch
  • Kannada
  • Kasachisch
  • Kirgisisch
  • Koreanisch
  • Latein
  • Lettisch
  • Litauisch
  • Langobardisch
  • Niedersächsisch
  • Luxemburgisch
  • Mazedonisch
  • Madagassisch
  • Malaiisch
  • Malaiisch
  • Marathi
  • Minangkabau
  • Nepali
  • Newari
  • Norwegisch (Bokmål)
  • Norwegisch (Nynorsk)
  • Okzitanisch
  • Persisch (Farsi)
  • Piemontesisch
  • Polnisch
  • Portugiesisch
  • Punjabi
  • Rumänisch
  • Russisch
  • Scots
  • Serbisch
  • Serbokroatisch
  • Sizilianisch
  • Slowakisch
  • Slowenisch
  • Süd-Aserbaidschanisch
  • Spanisch
  • Sundanesisch
  • Swahili
  • Schwedisch
  • Tagalog
  • Tadschikisch
  • Tamil
  • Tatarisch
  • Telugu
  • Türkisch
  • Ukrainisch
  • Urdu
  • Usbekisch
  • Vietnamesisch
  • Volapük
  • Waray-Waray
  • Walisisch
  • Westfriesisch
  • West-Punjabi
  • Yoruba

Modelldetails

Eingabetyp

JSON

Eingabebeschreibung

Text, der als String klassifiziert werden soll: „Ich liebe diesen Schauspieler, aber ich hasse seine Filme.“

Ausgabebeschreibung

JSON mit zwei Listen. Die erste Liste enthält vorhergesagte Beschriftungen, und die zweite Liste enthält die zugehörige Konfidenz der vorhergesagten Beschriftung (zwischen 0 und 1).

Beispiel:

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

GPU empfohlen

Standardmäßig wird eine GPU empfohlen.

Training aktiviert

Das Training ist aktiviert.

Pipelines

Dieses Paket unterstützt alle drei Arten von Pipelines (Vollständiges Training, Training und Evaluierung). Für die meisten Anwendungsfälle müssen keine Parameter angegeben werden. Das Modell verwendet erweiterte Techniken, um ein performantes Modell zu finden. In den folgenden Trainings nach dem ersten verwendet das Modell inkrementelles Lernen (d. h., die zuvor trainierte Version wird am Ende eines Trainingslaufs verwendet).

Dataset-Format

Das Modell liest alle CSV-Dateien im angegebenen Verzeichnis. In jeder CSV-Datei erwartet das Modell zwei Spalten oder zwei Eigenschaften, standardmäßig text und label . Die Namen dieser beiden Spalten und/oder Eigenschaften können mithilfe von Umgebungsvariablen konfiguriert werden.

CSV-Dateiformat

Jede CSV-Datei kann eine beliebige Anzahl von Spalten haben, aber nur zwei werden von dem Modell verwendet. Diese Spalten werden durch die Parameter dataset.text_column_name angegeben (wenn unverändert ist der Standardwert text) und dataset.target_column_name (wenn unverändert ist der Standardwert labels).

Beispielsweise kann eine einzelne CSV-Datei folgendermaßen aussehen:

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

Training auf GPU oder CPU

Sie können für das Training entweder den GPU oder den CPU verwenden. Wir empfehlen die Verwendung des GPUs, da er schneller ist.

Umgebungsvariablen

  • dataset.text_column_name – Standardwert text
  • model.epochs – Standardwert 100
  • dataset.target_column_name – Standardwert label

Artefakte

Konfusionsmatrix

Um alle Beschriftungen besser abzudecken, ist die Verwirrungsmatrix im Fall der Multilabel-Textklassifizierung eine JSON-Datei. Wir stellen eine Verwirrungsmatrix für jede Bezeichnung bereit ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

Klassifizierungsbericht

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

Auswertung

Dies ist eine CSV-Datei mit Vorhersagen für den Testsatz, der für die Auswertung verwendet wird.

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten