AI Center – Französische Textklassifizierung

ai-center

2020.10

false

AI Center

Versionshinweise
Anforderungen
- Hard- und Softwareanforderungen
- Architektur von AI Fabric
Installation
Erste Schritte
- Über AI Fabric
- Verwenden von AI Fabric
Projekte
- Über Projekte
- Verwalten von Projekten
Datasets
- Über Datasets
- Verwalten von Datasets
ML-Pakete
- Über ML-Pakete
- Erstellen von ML-Paketen
- Verwalten von ML-Paketen
  - Importieren/Exportieren von ML-Paketen
- Out-of-the-Box Pakete
  - Englischsprachige Textklassifizierung
  - Französischsprachige Textklassifizierung
  - TPOT AutoML Classification
  - TPOT XGBoost-Klassifizierung
  - UiPath Document Understanding
- Beispiele
Pipelines
ML-Skills
- Über ML-Fähigkeiten
- Verwalten von ML-Fähigkeiten
ML-Protokolle
- Über ML-Protokolle
Document Understanding in AI Fabric
- Data Manager
- OCR-Dienste
Grundlegende Anleitung zur Fehlerbehebung
- Allgemeine Fehlerbehebung im AI Center und häufig gestellte Fragen

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Französischsprachige Textklassifizierung

OS-Pakete > Sprachanalyse > FrenchTextClassification

Dieses Modell ist ein generisches Textklassifizierungsmodell, das Transferlernen für Französisch verwendet und trainiert werden muss, bevor Sie mit der Verwendung für die Vorhersage beginnen können. Es basiert auf CamemBERT-Einbettungen, zu denen wir ein dreischichtiges, voll vernetztes neuronales Netzwerk hinzufügen, um Daten zu klassifizieren. CamemBERT ist ein modernes Sprachmodell für Französisch basierend auf der RoBERTa-Architektur, das auf dem französischen Subkorpus des mehrsprachigen Corpus OSCAR von HuggingFace vortrainiert wurde.

Eingabetyp

JSON

Eingabebeschreibung

Folgender Text soll als String klassifiziert werden: „Mon séjour dans cet hôtel s’est très bien passé“

Ausgabebeschreibung

JSON-String mit vorausgesagtem Klassennamen, der zugehörigen Konfidenz für diese Klassenvorhersage (zwischen 0 und 1) und eine Liste aller Klassen mit der entsprechenden Konfidenz im Feld „all_predictions“.

Beispiel:

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Pipelines

Alle drei Pipelinetypen (Vollständiges Training, Training und Auswertung) werden von diesem Paket unterstützt.

Während Sie das Modell zum ersten Mal trainieren, werden die Klassen abgeleitet, indem das gesamte bereitgestellte Dataset betrachtet wird. Sobald das Modell trainiert wurde, werden dieselben Klassen für Vorhersagen und zukünftiges erneutes Training verwendet. Wenn Sie die Klassen zurücksetzen möchten (oder neue Klassen hinzufügen), müssen Sie das Modell mithilfe des Zurücksetzens der Umgebungsvariablen erneut trainieren (siehe unten).

Die Verwendung einer GPU beschleunigt die Pipelineausführung und wird für das Training mit großen Datasets empfohlen.

Dataset-Format

Dieses ML-Paket sucht nach JSON- und CSV-Dateien in Ihrem Dataset (nicht in Unterverzeichnissen).

CSV-Dateien: Es wird eine CSV-Datei mit Header mit dem Namen input_column (Standardwert „text“) und target_column (Standardwert „class“) und einer Zeile pro Daten erwartet.
JSON-Dateien: Erwartet wird, dass diese nur einen Datenpunkt mit den Feldern input_column (Standardwert “text”) und target_column (Standardwert “class”) enthält.

Umgebungsvariablen

Epochen: Passen Sie die Anzahl der Epochen für das Training oder die vollständige Pipeline an (Standardwert: 10)
input_column: Ändern Sie diesen Wert so, dass er dem Namen der Eingabespalte Ihres Datasets entspricht (Standardwert “text”)
target_column: Ändern Sie diesen Wert so, dass er dem Namen der Eingabespalte Ihres Datasets entspricht (Standardwert "class")
Zurücksetzen: Fügen Sie diese Umgebungsvariable hinzu, wenn Sie die dreischichtigen neuronalen Netzwerke erneut trainieren und/oder die Klassen ändern möchten. Standardmäßig verwendet dieses Modell Transferlernen und behält die gleichen Klassen wie das vorherige Training bei.

Artefakte

Die Funktion „Auswerten“ erzeugt zwei Artefakte:

predictions.csv: CSV-Datei mit 4 Spalten:
- text: Eingabetext, der klassifiziert wird.
- class: Ground-Truth-Klasse aus dem Dataset.
- predicted_class: Die vom Modell vorhergesagte Klasse.
- confidence: Konfidenzniveau in Verbindung mit der Vorhersage.

metrics.json: JSON-Datei, die die Genauigkeit, den Makro-Durchschnitt von f1, die Präzision und die Wiedererkennung sowie f1, Präzision und Wiedererkennung für jede Klasse neu gruppiert. Beispiel:

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

Papier

CamemBERT: Ein ansprechendes, französisches Sprachmodell von Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah und Benoît Sagot.

https://camembert-model.fr/

Auf dieser Seite

Eingabetyp
Eingabebeschreibung
Ausgabebeschreibung
Pipelines
Dataset-Format
Umgebungsvariablen
Artefakte

War diese Seite hilfreich?

Vorherige (previous)Englischsprachige Textklassifizierung

WeiterTPOT AutoML Classification