AI Center – Französische Textklassifizierung

ai-center

latest

false

AI Center – Benutzerhandbuch

Erste Schritte
Benachrichtigungen
- Meine Benachrichtigungen
Projekte
- Über Projekte
- Verwalten von Projekten
Datasets
- Über Datasets
- Verwalten von Datasets
Data Labeling
ML-Pakete
Sofort einsetzbare Pakete
Pipelines
ML-Skills
- Über ML-Fähigkeiten
- Verwalten von ML-Fähigkeiten
ML-Protokolle
- Über ML-Protokolle
Document UnderstandingTM im AI Center
- Dokumentmanager
- OCR-Dienste
AI Center-API
- Überblick
- API-Liste
Lizenzierung
Vorlagen für AI Solutions
- Infos zu den Vorlagen für AI Solutions
  - AI Solutions für E-Mails
Anleitungen zu …
- ML-Pakete
  - Verwenden von benutzerdefinierter NER mit kontinuierlichem Lernen
- ML-Skills
Grundlegende Anleitung zur Fehlerbehebung

Wichtig :

Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Französischsprachige Textklassifizierung

Hinweis:

Out-of-the-Box ML-Pakete sind veraltet. Weitere Informationen finden Sie auf der Seite Zeitleiste der veralteten Elemente in der Übersicht .

OS-Pakete > Sprachanalyse > FrenchTextClassification

Dieses Modell ist ein generisches Textklassifizierungsmodell, das Transferlernen für Französisch verwendet und trainiert werden muss, bevor Sie mit der Verwendung für die Vorhersage beginnen können. Es basiert auf CamemBERT-Einbettungen, zu denen wir ein dreischichtiges, voll vernetztes neuronales Netzwerk hinzufügen, um Daten zu klassifizieren. CamemBERT ist ein modernes Sprachmodell für Französisch basierend auf der RoBERTa-Architektur, das auf dem französischen Subkorpus des mehrsprachigen Corpus OSCAR von HuggingFace vortrainiert wurde.

Modelldetails

Eingabetyp

JSON

Eingabebeschreibung

Folgender Text soll als String klassifiziert werden: „Mon séjour dans cet hôtel s’est très bien passé“

Ausgabebeschreibung

JSON-String mit vorausgesagtem Klassennamen, der zugehörigen Konfidenz für diese Klassenvorhersage (zwischen 0 und 1) und eine Liste aller Klassen mit der entsprechenden Konfidenz im Feld „all_predictions“.

Beispiel:

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}
{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Pipelines

Alle drei Pipelinetypen (Vollständiges Training, Training und Auswertung) werden von diesem Paket unterstützt.

Während Sie das Modell zum ersten Mal trainieren, werden die Klassen abgeleitet, indem das gesamte bereitgestellte Dataset betrachtet wird. Sobald das Modell trainiert wurde, werden dieselben Klassen für Vorhersagen und zukünftiges erneutes Training verwendet. Wenn Sie die Klassen zurücksetzen (oder neue Klassen hinzufügen möchten), müssen Sie das Modell mithilfe des Zurücksetzens der Umgebungsvariablen erneut trainieren.

Die Verwendung einer GPU beschleunigt die Pipelineausführung und wird für das Training mit großen Datasets empfohlen.

Dataset-Format

Dieses ML-Paket sucht nach JSON- und CSV-Dateien in Ihrem Dataset (nicht in Unterverzeichnissen).

CSV-Dateien: Es wird eine CSV-Datei mit Header mit dem Namen input_column (Standardwert „text“) und target_column (Standardwert „class“) und einer Zeile pro Daten erwartet.
JSON-Dateien: Erwartet wird, dass diese nur einen Datenpunkt mit den Feldern input_column (Standardwert “text”) und target_column (Standardwert “class”) enthält.

Umgebungsvariablen

Epochen: Passen Sie die Anzahl der Epochen für das Training oder die vollständige Pipeline an (Standardwert: 10)
input_column: Ändern Sie diesen Wert so, dass er dem Namen der Eingabespalte Ihres Datasets entspricht (Standardwert “text”)
target_column: Ändern Sie diesen Wert so, dass er dem Namen der Eingabespalte Ihres Datasets entspricht (Standardwert "class")
Zurücksetzen: Fügen Sie diese Umgebungsvariable hinzu, wenn Sie die dreischichtigen neuronalen Netzwerke erneut trainieren und/oder die Klassen ändern möchten. Standardmäßig verwendet dieses Modell Transferlernen und behält die gleichen Klassen wie das vorherige Training bei.

Artefakte

Die Funktion „Auswerten“ erzeugt zwei Artefakte:

predictions.csv: CSV-Datei mit 4 Spalten:
- text: Eingabetext, der klassifiziert wird.
- class: Ground-Truth-Klasse aus dem Dataset.
- predicted_class: Die vom Modell vorhergesagte Klasse.
- confidence: Konfidenzniveau in Verbindung mit der Vorhersage.

metrics.json: JSON-Datei, die die Genauigkeit, den Makro-Durchschnitt von f1, die Präzision und die Wiedererkennung sowie f1, Präzision und Wiedererkennung für jede Klasse neu gruppiert. Beispiel:

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}
{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

Papier

CamemBERT: Ein ansprechendes, französisches Sprachmodell von Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah und Benoît Sagot.

https://camembert-model.fr/

Auf dieser Seite

Modelldetails
Eingabetyp
Eingabebeschreibung
Ausgabebeschreibung
Pipelines
Dataset-Format
Umgebungsvariablen
Artefakte
Papier

War diese Seite hilfreich?

Vorherige (previous)Englischsprachige Textklassifizierung

WeiterJapanischsprachige Textklassifizierung

Modelldetails​

Eingabetyp​

Eingabebeschreibung​

Ausgabebeschreibung​

Pipelines​

Dataset-Format​

Umgebungsvariablen​

Artefakte​

Papier​