AI Center – Mehrsprachige Textklassifizierung

ai-center

2022.4

true

AI Center – Benutzerhandbuch

Versionshinweise
- 2022.4.0
Bevor Sie beginnen
- Installieren oder Aktualisieren von AI Center
- Kompatibilitätsmatrix
Erste Schritte
Projekte
- Über Projekte
- Verwalten von Projekten
Datasets
- Über Datasets
- Verwalten von Datasets
ML-Pakete
Pipelines
ML-Skills
- Über ML-Fähigkeiten
- Verwalten von ML-Fähigkeiten
ML-Protokolle
- Über ML-Protokolle
Document Understanding im AI Center
- Data Manager
- OCR-Dienste
Lizenzierung
- AI Units
- Rechtliche Informationen
Anleitungen zu …
- ML-Pakete
  - Verwenden von benutzerdefinierter NER mit kontinuierlichem Lernen
Grundlegende Anleitung zur Fehlerbehebung
- Allgemeine Fehlerbehebung im AI Center und häufig gestellte Fragen
- Fehlerbehebung bei eigenständigem AI Center

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Mehrsprachige Textklassifizierung

Sofort einsetzbare Pakete > UiPath Sprachanalyse > MultiLingualTextClassification

Dies ist ein generisches, erneut trainierbares Modell für die Textklassifizierung. Dieses ML-Paket muss trainiert werden, und wenn es zuerst ohne Training bereitgestellt wird, schlägt die Bereitstellung mit einem Fehler fehl, der angibt, dass das Modell nicht trainiert wurde. Es basiert auf BERT, einer selbstüberwachenden Methode zum Vortraining von Systemen zur Verarbeitung natürlicher Sprache. Eine GPU wird insbesondere während des Trainings empfohlen. Eine GPU verbessert die Geschwindigkeit um das 5- bis 10-fache.

Sprachen

Dieses mehrsprachige Modell unterstützt die unten aufgeführten Sprachen. Diese Sprachen wurden ausgewählt, da sie die Top 100 Sprachen mit den umfangreichsten Wikipedia-Enzyklopädien sind:

Afrikaans
Albanisch
Arabisch
Aragonesisch
Armenisch
Asturisch
Aserbaidschanisch
Baschkirisch
Baskisch
Bayerisch
Weißrussisch
Bengali
Bishnupriya Manipuri
Bosnisch
Bretonisch
Bulgarisch
Birmanisch
Katalanisch
Cebuano
Tschetschenien
Chinesisch (vereinfacht)
Chinesisch (traditionell)
Tschuwaschisch
Kroatisch
Tschechisch
Dänisch
Niederländisch
Englisch
Estnisch
Finnisch
Französisch
Galizisch
Georgisch
Deutsch
Griechisch
Gujarati
Haitianisch
Hebräisch
Hindi
Ungarisch
Isländisch
Ido
Indonesisch
Irisch
Italienisch
Japanisch
Javanisch
Kannada
Kasachisch
Kirgisisch
Koreanisch
Latein
Lettisch
Litauisch
Langobardisch
Niedersächsisch
Luxemburgisch
Mazedonisch
Madagassisch
Malaiisch
Malaiisch
Marathi
Minangkabau
Nepali
Newari
Norwegisch (Bokmål)
Norwegisch (Nynorsk)
Okzitanisch
Persisch (Farsi)
Piemontesisch
Polnisch
Portugiesisch
Punjabi
Rumänisch
Russisch
Scots
Serbisch
Serbokroatisch
Sizilianisch
Slowakisch
Slowenisch
Süd-Aserbaidschanisch
Spanisch
Sundanesisch
Swahili
Schwedisch
Tagalog
Tadschikisch
Tamil
Tatarisch
Telugu
Thai
Türkisch
Ukrainisch
Urdu
Usbekisch
Vietnamesisch
Volapük
Waray-Waray
Walisisch
Westfriesisch
West-Punjabi
Yoruba

Modelldetails

Eingabetyp

JSON

Eingabebeschreibung

Text, der als String klassifiziert werden soll: „I loved this movie.“

Ausgabebeschreibung

JSON mit dem vorhergesagten Klassennamen, der der Klassenvorhersage zugeordnet ist (zwischen 0–1).

Beispiel:

{
  "prediction": "Positive", 
  "confidence": 0.9422031841278076
}{
  "prediction": "Positive", 
  "confidence": 0.9422031841278076
}

GPU empfohlen

Standardmäßig wird eine GPU empfohlen.

Training aktiviert

Standardmäßig ist Training aktiviert.

Pipelines

Alle drei Pipelinetypen (Vollständiges Training, Training und Auswertung) werden von diesem Paket unterstützt. Für die meisten Anwendungsfälle müssen keine Parameter angegeben werden, das Modell verwendet erweiterte Techniken, um ein leistungsstarkes Modell zu finden. In nachfolgenden Trainings nach dem ersten verwendet das Modell inkrementelles Lernen (das heißt, am Ende eines Trainingslaufs wird die zuvor trainierte Version verwendet).

Dataset-Format

Drei Optionen sind verfügbar, um Ihr Dataset für dieses Modell zu strukturieren: JSON, CSV und AI Center -JSON-Format. Das Modell liest alle CSV- und JSON-Dateien im angegebenen Verzeichnis. Für jedes Format erwartet das Modell standardmäßig zwei Spalten oder zwei Eigenschaften, dataset.input_column_name und dataset.target_column_name standardmäßig festgelegt. Die Namen dieser beiden Spalten und/oder Verzeichnisse können mithilfe von Umgebungsvariablen konfiguriert werden.

CSV-Dateiformat

Jede CSV-Datei kann eine beliebige Anzahl von Spalten haben, aber nur zwei werden vom Modell verwendet. Diese Spalten werden durch dataset.input_column_name angegeben und dataset.target_column_name Parameter.

Überprüfen Sie die folgenden Beispiel- und Umgebungsvariablen für ein Beispiel eines CSV-Dateiformats.

text, label
I like this movie, 7
I hated the acting, 9text, label
I like this movie, 7
I hated the acting, 9

Die Umgebungsvariablen für das vorherige Beispiel lauten wie folgt:

dataset.input_format: auto
dataset.input_column_name: text
dataset.output_column_name: label

JSON-Dateiformat

Mehrere Datenpunkte können Teil derselben JSON-Datei sein.

Überprüfen Sie die folgenden Beispiel- und Umgebungsvariablen für ein Beispiel eines JSON-Dateiformats.

[
  {
    "text": "I like this movie",
    "label": "7"
  },
  {
    "text": "I hated the acting",
    "label": "9"
  }
][
  {
    "text": "I like this movie",
    "label": "7"
  },
  {
    "text": "I hated the acting",
    "label": "9"
  }
]

Die Umgebungsvariablen für das vorherige Beispiel lauten wie folgt:

dataset.input_format: auto
dataset.input_column_name: text
dataset.output_column_name: label

ai_center-Dateiformat

Dies ist der Standardwert der Umgebungsvariablen, der festgelegt werden kann, und dieses Modell liest alle Dateien in einem bereitgestellten Verzeichnis mit der Erweiterung .json .

Überprüfen Sie die folgenden Beispiel- und Umgebungsvariablen für ein Beispiel eines ai_center-Dateiformats.

{
    "annotations": {
        "intent": {
            "to_name": "text",
            "choices": [
                "TransactionIssue",
                "LoanIssue"
            ]
        },
        "sentiment": {
            "to_name": "text",
            "choices": [
                "Very Positive"
            ]
        },
        "ner": {
            "to_name": "text",
            "labels": [
                {
                    "start_index": 37,
                    "end_index": 47,
                    "entity": "Stakeholder",
                    "value": " Citi Bank"
                },
                {
                    "start_index": 51,
                    "end_index": 61,
                    "entity": "Date",
                    "value": "07/19/2018"
                },
                {
                    "start_index": 114,
                    "end_index": 118,
                    "entity": "Amount",
                    "value": "$500"
                },
                {
                    "start_index": 288,
                    "end_index": 293,
                    "entity": "Stakeholder",
                    "value": " Citi"
                }
            ]
        }
    },
    "data": {
        "cc": "",
        "to": "xyz@abc.com",
        "date": "1/29/2020 12:39:01 PM",
        "from": "abc@xyz.com",
        "text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."{
    "annotations": {
        "intent": {
            "to_name": "text",
            "choices": [
                "TransactionIssue",
                "LoanIssue"
            ]
        },
        "sentiment": {
            "to_name": "text",
            "choices": [
                "Very Positive"
            ]
        },
        "ner": {
            "to_name": "text",
            "labels": [
                {
                    "start_index": 37,
                    "end_index": 47,
                    "entity": "Stakeholder",
                    "value": " Citi Bank"
                },
                {
                    "start_index": 51,
                    "end_index": 61,
                    "entity": "Date",
                    "value": "07/19/2018"
                },
                {
                    "start_index": 114,
                    "end_index": 118,
                    "entity": "Amount",
                    "value": "$500"
                },
                {
                    "start_index": 288,
                    "end_index": 293,
                    "entity": "Stakeholder",
                    "value": " Citi"
                }
            ]
        }
    },
    "data": {
        "cc": "",
        "to": "xyz@abc.com",
        "date": "1/29/2020 12:39:01 PM",
        "from": "abc@xyz.com",
        "text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."

Um das vorherige JSON-Beispiel zu nutzen, müssen die Umgebungsvariablen wie folgt festgelegt werden:

dataset.input_format: ai_center
dataset.input_column_name: data.text
dataset.output_column_name: annotations.intent.choices

Training auf GPU oder CPU

Sie können für das Training entweder den GPU oder den CPU verwenden. Wir empfehlen die Verwendung des GPUs, da er schneller ist.

Umgebungsvariablen

dataset.input_column_name
- Der Name der Eingabespalte, die den Text enthält.
- Der Standardwert ist data.text.
- Stellen Sie sicher, dass diese Variable gemäß Ihrer JSON- oder CSV-Eingabedatei konfiguriert ist.
dataset.target_column_name
- Der Name der Zielspalte, die den Text enthält.
- Der Standardwert ist annotations.intent.choices.
- Stellen Sie sicher, dass diese Variable gemäß Ihrer JSON- oder CSV-Eingabedatei konfiguriert ist.
dataset.input_format
- Das Eingabeformat der Trainingsdaten.
- Der Standardwert ist ai_center.
- Unterstützte Werte sind: ai_center oder auto .
- Wenn ai_center ausgewählt ist, werden nur JSON -Dateien unterstützt. Stellen Sie sicher, dass Sie auch den Wert von dataset.target_column_name in annotations.sentiment.choices ändern, wenn ai_center ausgewählt ist.
- Wenn auto ausgewählt ist, werden sowohl CoNLL - als auch JSON -Dateien unterstützt.
model.epochs
- Die Anzahl der Epochen.
- Standardwert: 100 .

Artefakte

Konfusionsmatrix

Klassifizierungsbericht

precision    recall  f1-score   support
         positive     0.94      0.94      0.94     10408
         negative     0.93      0.93      0.93      9592
    accuracy                              0.94     20000
   macro avg          0.94      0.94      0.94     20000
weighted avg          0.94      0.94      0.94     20000precision    recall  f1-score   support
         positive     0.94      0.94      0.94     10408
         negative     0.93      0.93      0.93      9592
    accuracy                              0.94     20000
   macro avg          0.94      0.94      0.94     20000
weighted avg          0.94      0.94      0.94     20000

Daten

CSV-Auswertungsdatei

Dies ist eine CSV-Datei mit Vorhersagen für den Testsatz, der für die Auswertung verwendet wird.

text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98

Auf dieser Seite

Sprachen
Modelldetails
Eingabetyp
Eingabebeschreibung
Ausgabebeschreibung
GPU empfohlen
Training aktiviert
Pipelines
Dataset-Format
Training auf GPU oder CPU
Umgebungsvariablen
Artefakte
Daten

War diese Seite hilfreich?

Vorherige (previous)Leichte Textklassifizierung

WeiterOpen-Source-Pakete