AI Center
2020.10
False
Bannerhintergrundbild
AI Center
Letzte Aktualisierung 11. März 2024

Französischsprachige Textklassifizierung

OS-Pakete > Sprachanalyse > FrenchTextClassification

Dieses Modell ist ein generisches Textklassifizierungsmodell, das Transferlernen für Französisch verwendet und trainiert werden muss, bevor Sie mit der Verwendung für die Vorhersage beginnen können. Es basiert auf CamemBERT-Einbettungen, zu denen wir ein dreischichtiges, voll vernetztes neuronales Netzwerk hinzufügen, um Daten zu klassifizieren. CamemBERT ist ein modernes Sprachmodell für Französisch basierend auf der RoBERTa-Architektur, das auf dem französischen Subkorpus des mehrsprachigen Corpus OSCAR von HuggingFace vortrainiert wurde.

Eingabetyp

JSON

Eingabebeschreibung

Folgender Text soll als String klassifiziert werden: „Mon séjour dans cet hôtel s’est très bien passé“

Ausgabebeschreibung

JSON-String mit vorausgesagtem Klassennamen, der zugehörigen Konfidenz für diese Klassenvorhersage (zwischen 0 und 1) und eine Liste aller Klassen mit der entsprechenden Konfidenz im Feld „all_predictions“.

Beispiel:

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Pipelines

Alle drei Pipelinetypen (Vollständiges Training, Training und Auswertung) werden von diesem Paket unterstützt.

Während Sie das Modell zum ersten Mal trainieren, werden die Klassen abgeleitet, indem das gesamte bereitgestellte Dataset betrachtet wird. Sobald das Modell trainiert wurde, werden dieselben Klassen für Vorhersagen und zukünftiges erneutes Training verwendet. Wenn Sie die Klassen zurücksetzen möchten (oder neue Klassen hinzufügen), müssen Sie das Modell mithilfe des Zurücksetzens der Umgebungsvariablen erneut trainieren (siehe unten).

Die Verwendung einer GPU beschleunigt die Pipelineausführung und wird für das Training mit großen Datasets empfohlen.

Dataset-Format

Dieses ML-Paket sucht nach JSON- und CSV-Dateien in Ihrem Dataset (nicht in Unterverzeichnissen).

  • CSV-Dateien: Es wird eine CSV-Datei mit Header mit dem Namen input_column (Standardwert „text“) und target_column (Standardwert „class“) und einer Zeile pro Daten erwartet.
  • JSON-Dateien: Erwartet wird, dass diese nur einen Datenpunkt mit den Feldern input_column (Standardwert “text”) und target_column (Standardwert “class”) enthält.

Umgebungsvariablen

  • Epochen: Passen Sie die Anzahl der Epochen für das Training oder die vollständige Pipeline an (Standardwert: 10)
  • input_column: Ändern Sie diesen Wert so, dass er dem Namen der Eingabespalte Ihres Datasets entspricht (Standardwert “text”)
  • target_column: Ändern Sie diesen Wert so, dass er dem Namen der Eingabespalte Ihres Datasets entspricht (Standardwert "class")
  • Zurücksetzen: Fügen Sie diese Umgebungsvariable hinzu, wenn Sie die dreischichtigen neuronalen Netzwerke erneut trainieren und/oder die Klassen ändern möchten. Standardmäßig verwendet dieses Modell Transferlernen und behält die gleichen Klassen wie das vorherige Training bei.

Artefakte

Die Funktion „Auswerten“ erzeugt zwei Artefakte:

  • predictions.csv: CSV-Datei mit 4 Spalten:

    • text: Eingabetext, der klassifiziert wird.
    • class: Ground-Truth-Klasse aus dem Dataset.
    • predicted_class: Die vom Modell vorhergesagte Klasse.
    • confidence: Konfidenzniveau in Verbindung mit der Vorhersage.
  • metrics.json: JSON-Datei, die die Genauigkeit, den Makro-Durchschnitt von f1, die Präzision und die Wiedererkennung sowie f1, Präzision und Wiedererkennung für jede Klasse neu gruppiert. Beispiel:

    {
      "accuracy": 0.7572500109672546,
      "f1_macro": 0.756912701179931,
      "precision_macro": 0.7594798901045778,
      "recall_macro": 0.7576722549210066,
      "details": [
        {
          "class": "Negative",
          "f1": 0.7659677030609786,
          "precision": 0.7329335793357934,
          "recall": 0.8021201413427562
        },
        {
          "class": "Positive",
          "f1": 0.7478576992988835,
          "precision": 0.7860262008733624,
          "recall": 0.7132243684992571
        }
      ]
    }{
      "accuracy": 0.7572500109672546,
      "f1_macro": 0.756912701179931,
      "precision_macro": 0.7594798901045778,
      "recall_macro": 0.7576722549210066,
      "details": [
        {
          "class": "Negative",
          "f1": 0.7659677030609786,
          "precision": 0.7329335793357934,
          "recall": 0.8021201413427562
        },
        {
          "class": "Positive",
          "f1": 0.7478576992988835,
          "precision": 0.7860262008733624,
          "recall": 0.7132243684992571
        }
      ]
    }

Papier

CamemBERT: Ein ansprechendes, französisches Sprachmodell von Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah und Benoît Sagot.

  • Eingabetyp
  • Eingabebeschreibung
  • Ausgabebeschreibung
  • Pipelines
  • Dataset-Format
  • Umgebungsvariablen
  • Artefakte

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
UiPath Logo weiß
Vertrauen und Sicherheit
© 2005-2024 UiPath. All rights reserved.