- Versionshinweise
- Anforderungen
- Installation
- Erste Schritte
- Projekte
- Datasets
- ML-Pakete
- Pipelines
- ML-Skills
- ML-Protokolle
- Document Understanding in AI Fabric
- Grundlegende Anleitung zur Fehlerbehebung
Französischsprachige Textklassifizierung
OS-Pakete > Sprachanalyse > FrenchTextClassification
Dieses Modell ist ein generisches Textklassifizierungsmodell, das Transferlernen für Französisch verwendet und trainiert werden muss, bevor Sie mit der Verwendung für die Vorhersage beginnen können. Es basiert auf CamemBERT-Einbettungen, zu denen wir ein dreischichtiges, voll vernetztes neuronales Netzwerk hinzufügen, um Daten zu klassifizieren. CamemBERT ist ein modernes Sprachmodell für Französisch basierend auf der RoBERTa-Architektur, das auf dem französischen Subkorpus des mehrsprachigen Corpus OSCAR von HuggingFace vortrainiert wurde.
Folgender Text soll als String klassifiziert werden: „Mon séjour dans cet hôtel s’est très bien passé“
JSON-String mit vorausgesagtem Klassennamen, der zugehörigen Konfidenz für diese Klassenvorhersage (zwischen 0 und 1) und eine Liste aller Klassen mit der entsprechenden Konfidenz im Feld „all_predictions“.
Beispiel:
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
Alle drei Pipelinetypen (Vollständiges Training, Training und Auswertung) werden von diesem Paket unterstützt.
Während Sie das Modell zum ersten Mal trainieren, werden die Klassen abgeleitet, indem das gesamte bereitgestellte Dataset betrachtet wird. Sobald das Modell trainiert wurde, werden dieselben Klassen für Vorhersagen und zukünftiges erneutes Training verwendet. Wenn Sie die Klassen zurücksetzen möchten (oder neue Klassen hinzufügen), müssen Sie das Modell mithilfe des Zurücksetzens der Umgebungsvariablen erneut trainieren (siehe unten).
Die Verwendung einer GPU beschleunigt die Pipelineausführung und wird für das Training mit großen Datasets empfohlen.
Dieses ML-Paket sucht nach JSON- und CSV-Dateien in Ihrem Dataset (nicht in Unterverzeichnissen).
- CSV-Dateien: Es wird eine CSV-Datei mit Header mit dem Namen input_column (Standardwert „text“) und target_column (Standardwert „class“) und einer Zeile pro Daten erwartet.
- JSON-Dateien: Erwartet wird, dass diese nur einen Datenpunkt mit den Feldern input_column (Standardwert “text”) und target_column (Standardwert “class”) enthält.
- Epochen: Passen Sie die Anzahl der Epochen für das Training oder die vollständige Pipeline an (Standardwert: 10)
- input_column: Ändern Sie diesen Wert so, dass er dem Namen der Eingabespalte Ihres Datasets entspricht (Standardwert “text”)
- target_column: Ändern Sie diesen Wert so, dass er dem Namen der Eingabespalte Ihres Datasets entspricht (Standardwert "class")
- Zurücksetzen: Fügen Sie diese Umgebungsvariable hinzu, wenn Sie die dreischichtigen neuronalen Netzwerke erneut trainieren und/oder die Klassen ändern möchten. Standardmäßig verwendet dieses Modell Transferlernen und behält die gleichen Klassen wie das vorherige Training bei.
Die Funktion „Auswerten“ erzeugt zwei Artefakte:
-
predictions.csv: CSV-Datei mit 4 Spalten:
- text: Eingabetext, der klassifiziert wird.
- class: Ground-Truth-Klasse aus dem Dataset.
- predicted_class: Die vom Modell vorhergesagte Klasse.
- confidence: Konfidenzniveau in Verbindung mit der Vorhersage.
-
metrics.json: JSON-Datei, die die Genauigkeit, den Makro-Durchschnitt von f1, die Präzision und die Wiedererkennung sowie f1, Präzision und Wiedererkennung für jede Klasse neu gruppiert. Beispiel:
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
Papier
CamemBERT: Ein ansprechendes, französisches Sprachmodell von Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah und Benoît Sagot.