ai-center

latest

false

Erste Schritte
Benachrichtigungen
- Meine Benachrichtigungen
Projekte
- Über Projekte
- Verwalten von Projekten
Datasets
- Über Datasets
- Verwalten von Datasets
Data Labeling
ML-Pakete
Sofort einsetzbare Pakete
Pipelines
ML-Skills
- Über ML-Fähigkeiten
- Verwalten von ML-Fähigkeiten
ML-Protokolle
- Über ML-Protokolle
Document UnderstandingTM im AI Center
- Dokumentmanager
- OCR-Dienste
AI Center-API
- Überblick
- API-Liste
Lizenzierung
Vorlagen für AI Solutions
- Infos zu den Vorlagen für AI Solutions
  - AI Solutions für E-Mails
Anleitungen zu …
- ML-Pakete
  - Verwenden von benutzerdefinierter NER mit kontinuierlichem Lernen
- ML-Skills
Grundlegende Anleitung zur Fehlerbehebung

Wichtig :

Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

AI Center – Benutzerhandbuch

Japanischsprachige Textklassifizierung

Hinweis:

Out-of-the-Box ML-Pakete sind veraltet. Weitere Informationen finden Sie auf der Seite Zeitleiste der veralteten Elemente in der Übersicht .

OS-Pakete > Sprachanalyse > JapaneseTextClassification

Dies ist ein generisches, erneut trainierbares Modell für die Klassifizierung von Japanisch. Dieses ML-Paket muss neu trainiert werden. Wenn es zunächst ohne Training bereitgestellt wird, schlägt die Bereitstellung mit einem Fehler fehl, der angibt, dass das Modell nicht trainiert ist.

Dieses Modell ist eine Deep Learning-Architektur für die Sprachklassifizierung. Sie basiert auf BERT, einer selbstüberwachten Methode zum Vortraining von linguistischen Datenverarbeitungssystemen. Eine GPU kann sowohl zur Ausgabezeit als auch zur Trainingszeit verwendet werden. Eine GPU liefert eine ca. 5- bis 10-fache Verbesserung der Geschwindigkeit. Das Modell ist ein Open-Source-Projekt von Google und unser Grundmodell ist ein vortrainiertes Modell von der Tohoku University in Japan.

Modelldetails

Eingabetyp

JSON

Eingabebeschreibung

Text, der als String klassifiziert werden soll: „この映画が好き“

Ausgabebeschreibung

JSON mit dem vorhergesagten Klassennamen, der der Klassenvorhersage zugeordnet ist (zwischen 0–1).

Beispiel:

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}
{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

Pipelines

Alle drei Pipelinetypen (Vollständiges Training, Training und Auswertung) werden von diesem Paket unterstützt.

Für die meisten Anwendungsfälle müssen keine Parameter angegeben werden, das Modell verwendet erweiterte Techniken, um ein performantes Modell zu finden. In nachfolgenden Trainings nach dem ersten verwendet das Modell inkrementelles Lernen (das heißt, am Ende eines Trainingslaufs wird die zuvor trainierte Version verwendet).

Dataset-Format

Lesen mehrerer Dateien

Standardmäßig liest dieses Modell alle Dateien mit einer .csv- und .json- Erweiterung (rekursiv) im angegebenen Verzeichnis.

CSV-Dateiformat

Jede CSV-Datei kann eine beliebige Anzahl von Spalten haben, nur zwei werden vom Modell verwendet. Diese Spalten werden von den Parametern input_column (wenn nicht festgelegt, wird standardmäßig „input“ verwendet) und target_column (wenn nicht festgelegt, wird standardmäßig „target“ verwendet) angegeben.

Beispielsweise sieht eine einzelne CSV-Datei folgendermaßen aus:

input,target 
この映画が好き,positive 
演技が嫌だった,negative
input,target 
この映画が好き,positive 
演技が嫌だった,negative

In der vorherigen Beispieldatei kann jede Art von Pipeline getriggert werden, ohne zusätzliche Parameter hinzuzufügen. Im folgenden Beispiel müssen die Spalten explizit angegeben werden:

review,sentiment
この映画が好き,positive 
演技が嫌だった,negative
review,sentiment
この映画が好き,positive 
演技が嫌だった,negative

Alle Dateien, die nicht die in input_column und target_column angegebenen Spalten haben, werden übersprungen. Darüber hinaus kann das Trennzeichen, das zum Analysieren der Datei verwendet wird, durch Konfigurieren der csv_delimiter-Parameter definiert werden. Wenn Ihre Datei beispielsweise durch Tabstopp getrennt ist, speichern Sie sie mit der Erweiterung .csv und legen Sie den Parameter csv_delimiter auf ** ** fest.

JSON-Dateiformat

Jede JSON-Datei kann für einen einzelnen Datenpunkt oder eine Liste von Datenpunkten bestimmt sein. Das heißt, jede JSON-Datei kann eines von zwei Formaten haben: Einzelner Datenpunkt in einer JSON-Datei:

{
  "input": "この映画が好き",
  "target": "positive"
}
{
  "input": "この映画が好き",
  "target": "positive"
}

Mehrere Datenpunkte in einer JSON-Datei:

[
  {
    "input": "この映画が好き",
    "target": "positive"
  },
  {
    "input": "演技が嫌だった",
    "target": "negative"
  }
]
[
  {
    "input": "この映画が好き",
    "target": "positive"
  },
  {
    "input": "演技が嫌だった",
    "target": "negative"
  }
]

Wenn die Parameter input_column und target_column für die CSV-Datei festgelegt sind, überschreibt das Format „input“ mit input_column und „target“ mit target_column.

Alle gültigen Dateien werden gruppiert.

Lesen einer einzelnen Datei

In einigen Fällen kann es nützlich sein, eine einzelne Datei zu verwenden (auch wenn Ihr Verzeichnis viele Dateien hat). In diesem Fall kann der Parameter csv_name verwendet werden. Wenn diese Option festgelegt ist, liest die Pipeline nur diese Datei. Wenn dieser Parameter festgelegt ist, sind zwei weitere zusätzliche Parameter aktiviert:

csv_start_index, mit dem der Benutzer die Zeile angeben kann, in der mit dem Lesen begonnen werden soll.
csv_end_index, womit der Benutzer die Zeile angeben kann, in der das Lesen beendet wird.

Beispielsweise haben Sie möglicherweise eine große Datei mit 20.000 Zeilen, möchten aber möglicherweise schnell sehen, wie eine Trainingsausführung mit einer Teilmenge von Daten aussehen würde. In diesem Fall können Sie den Dateinamen angeben und csv_end_index auf einen Wert festlegen, der viel niedriger als 20.000 ist.

Umgebungsvariablen

input_column: Ändern Sie diesen Wert so, dass er mit dem Namen der Dataset-Eingabespalte übereinstimmt (der Standard ist „input“)
target_column: Ändern Sie diesen Wert, um dem Namen der Dataset-Eingabespalte (Standard ist „target“) zu entsprechen.
evaluation_metric: Ändern Sie mit diesem Wert, welche Metrik von der Auswertungsfunktion zurückgegeben und in der UI angezeigt wird. Dieser Parameter kann auf einen der folgenden Werte festgelegt werden: „accuracy“ (Standard), „auroc“ (Bereich unter der ROC-Kurve), „precision“, „recall“, „matthews correlation“ (Matthews-Korrelationskoeffizient), „fscore“.
csv_name: Verwenden Sie diese Variable, wenn Sie eine eindeutige CSV-Datei angeben möchten, die aus dem Dataset gelesen werden soll.
csv_start_index: Ermöglicht das Angeben der Zeile, in der mit dem Lesen begonnen wird. In Kombination mit csv_name zu verwenden.
csv_end_index: Ermöglicht das Angeben der Zeile, in der das Lesen beendet wird. In Kombination mit csv_name zu verwenden.

Artefakte

Die Trainingsfunktion erzeugt drei Artefakte:

train.csv - Die Daten, die zum Trainieren des Modells verwendet wurden, die hier zur Governance und Nachverfolgbarkeit gespeichert wurden.
validation.csv - Die Daten, die zum Validieren des Modells verwendet wurden. learning-rate-finder.png – Darüber müssen sich die meisten Benutzer nie Gedanken machen. Für erfahrene Benutzer ist dies möglicherweise hilfreich.
train-report.pdf - Ein Bericht, der zusammenfassende Informationen dieser Ausführung enthält. Der erste Abschnitt enthält alle Parameter, die vom Benutzer angegeben wurden. Der zweite Abschnitt enthält Statistiken über die Daten (die Anzahl der Datenpunkte für Training, Validierung und die Prüfsumme jeder Datei). Der letzte Abschnitt enthält zwei Diagramme:
- Verlustdiagramm – Dies beschreibt den Trainings- und Validierungsverlust als Funktion für die Anzahl der Epochen. Die Ausgabeversion des ML-Pakets ist immer die Version, die den minimalen Validierungsverlust hatte (nicht das Modell in der letzten Epoche).
- Metrikendiagramm – Dies zeichnet eine Reihe von Metriken auf, die auf der Validierung berechnet wurden, die am Ende jeder Epoche festgelegt wurde. Die Funktion „Auswertung“ erzeugt zwei Artefakte:
evaluation.csv - Die Daten, die zum Auswerten des Modells verwendet wurden.
evaluation-report.pdf – Ein Bericht, der zusammenfassende Informationen dieser Ausführung enthält. Der erste Abschnitt enthält alle Parameter, die vom Benutzer angegeben wurden. Der zweite Abschnitt enthält Statistiken über die Daten (die Anzahl der Datenpunkte für die Auswertung und Prüfsumme der Datei). Der dritte Abschnitt enthält Statistiken zu dieser Auswertung (bei mehreren Klassen werden die Metriken gewichtet). Der letzte Abschnitt enthält eine Darstellung der Konfusionsmatrix und eine Berechnung von Richtigkeit, Präzision, Wiedererkennung und Unterstützung pro Klasse sowie deren Durchschnittswerte.

Papier

BERT: BERT: „Pre-training of Deep Bidirectional Transformers for Language Understanding“ (dt. „BERT: Vortraining von tief bidirektionalen Transformatoren für das Sprachverständnis“) von Jacob Devlin et al..

Auf dieser Seite

Modelldetails
Eingabetyp
Eingabebeschreibung
Ausgabebeschreibung
Pipelines
Dataset-Format
Umgebungsvariablen
Artefakte
Papier

War diese Seite hilfreich?

Vorherige (previous)Französischsprachige Textklassifizierung

WeiterObjekterkennung

AI Center – Benutzerhandbuch

Modelldetails​

Eingabetyp​

Eingabebeschreibung​

Ausgabebeschreibung​

Pipelines​

Dataset-Format​

CSV-Dateiformat​

JSON-Dateiformat​

Umgebungsvariablen​

Artefakte​

Papier​