- Versionshinweise
- Bevor Sie beginnen
- Erste Schritte
- Installieren der Automation Suite
- Migration und Upgrade
- Projekte
- Datasets
- ML-Pakete
- Pipelines
- ML-Skills
- ML-Protokolle
- Document Understanding im AI Center
- Lizenzierung
- Anleitungen zu …
- Grundlegende Anleitung zur Fehlerbehebung
Mehrsprachige Textklassifizierung
Sofort einsetzbare Pakete > UiPath Sprachanalyse > MultiLingualTextClassification
Dies ist ein generisches, erneut trainierbares Modell für die Textklassifizierung. Dieses ML-Paket muss trainiert werden, und wenn es zuerst ohne Training bereitgestellt wird, schlägt die Bereitstellung mit einem Fehler fehl, der angibt, dass das Modell nicht trainiert wurde. Es basiert auf BERT, einer selbstüberwachenden Methode zum Vortraining von Systemen zur Verarbeitung natürlicher Sprache. Eine GPU wird insbesondere während des Trainings empfohlen. Eine GPU verbessert die Geschwindigkeit um das 5- bis 10-fache.
Dieses mehrsprachige Modell unterstützt die unten aufgeführten Sprachen. Diese Sprachen wurden ausgewählt, da sie die Top 100 Sprachen mit den umfangreichsten Wikipedia-Enzyklopädien sind:
- Afrikaans
- Albanisch
- Arabisch
- Aragonesisch
- Armenisch
- Asturisch
- Aserbaidschanisch
- Baschkirisch
- Baskisch
- Bayerisch
- Weißrussisch
- Bengali
- Bishnupriya Manipuri
- Bosnisch
- Bretonisch
- Bulgarisch
- Birmanisch
- Katalanisch
- Cebuano
- Tschetschenien
- Chinesisch (vereinfacht)
- Chinesisch (traditionell)
- Tschuwaschisch
- Kroatisch
- Tschechisch
- Dänisch
- Niederländisch
- Englisch
- Estnisch
- Finnisch
- Französisch
- Galizisch
- Georgisch
- Deutsch
- Griechisch
- Gujarati
- Haitianisch
- Hebräisch
- Hindi
- Ungarisch
- Isländisch
- Ido
- Indonesisch
- Irisch
- Italienisch
- Japanisch
- Javanisch
- Kannada
- Kasachisch
- Kirgisisch
- Koreanisch
- Latein
- Lettisch
- Litauisch
- Langobardisch
- Niedersächsisch
- Luxemburgisch
- Mazedonisch
- Madagassisch
- Malaiisch
- Malaiisch
- Marathi
- Minangkabau
- Nepali
- Newari
- Norwegisch (Bokmål)
- Norwegisch (Nynorsk)
- Okzitanisch
- Persisch (Farsi)
- Piemontesisch
- Polnisch
- Portugiesisch
- Punjabi
- Rumänisch
- Russisch
- Scots
- Serbisch
- Serbokroatisch
- Sizilianisch
- Slowakisch
- Slowenisch
- Süd-Aserbaidschanisch
- Spanisch
- Sundanesisch
- Swahili
- Schwedisch
- Tagalog
- Tadschikisch
- Tamil
- Tatarisch
- Telugu
- Thai
- Türkisch
- Ukrainisch
- Urdu
- Usbekisch
- Vietnamesisch
- Volapük
- Waray-Waray
- Walisisch
- Westfriesisch
- West-Punjabi
- Yoruba
JSON mit dem vorhergesagten Klassennamen, der der Klassenvorhersage zugeordnet ist (zwischen 0–1).
Beispiel:
{
"prediction": "Positive",
"confidence": 0.9422031841278076
}
{
"prediction": "Positive",
"confidence": 0.9422031841278076
}
Alle drei Pipelinetypen (Vollständiges Training, Training und Auswertung) werden von diesem Paket unterstützt. Für die meisten Anwendungsfälle müssen keine Parameter angegeben werden, das Modell verwendet erweiterte Techniken, um ein leistungsstarkes Modell zu finden. In nachfolgenden Trainings nach dem ersten verwendet das Modell inkrementelles Lernen (das heißt, am Ende eines Trainingslaufs wird die zuvor trainierte Version verwendet).
Drei Optionen sind verfügbar, um Ihr Dataset für dieses Modell zu strukturieren: JSON, CSV und AI Center -JSON-Format. Das Modell liest alle CSV- und JSON-Dateien im angegebenen Verzeichnis. Für jedes Format erwartet das Modell standardmäßig zwei Spalten oder zwei Eigenschaften, dataset.input_column_name und dataset.target_column_name standardmäßig festgelegt. Die Namen dieser beiden Spalten und/oder Verzeichnisse können mithilfe von Umgebungsvariablen konfiguriert werden.
CSV-Dateiformat
Jede CSV-Datei kann eine beliebige Anzahl von Spalten haben, aber nur zwei werden vom Modell verwendet. Diese Spalten werden durch dataset.input_column_name angegeben und dataset.target_column_name Parameter.
Überprüfen Sie die folgenden Beispiel- und Umgebungsvariablen für ein Beispiel eines CSV-Dateiformats.
text, label
I like this movie, 7
I hated the acting, 9
text, label
I like this movie, 7
I hated the acting, 9
Die Umgebungsvariablen für das vorherige Beispiel lauten wie folgt:
- dataset.input_format:
auto
- dataset.input_column_name:
text
- dataset.output_column_name:
label
JSON-Dateiformat
Mehrere Datenpunkte können Teil derselben JSON-Datei sein.
Überprüfen Sie die folgenden Beispiel- und Umgebungsvariablen für ein Beispiel eines JSON-Dateiformats.
[
{
"text": "I like this movie",
"label": "7"
},
{
"text": "I hated the acting",
"label": "9"
}
]
[
{
"text": "I like this movie",
"label": "7"
},
{
"text": "I hated the acting",
"label": "9"
}
]
Die Umgebungsvariablen für das vorherige Beispiel lauten wie folgt:
- dataset.input_format:
auto
- dataset.input_column_name:
text
- dataset.output_column_name:
label
ai_center-Dateiformat
.json
.
Überprüfen Sie die folgenden Beispiel- und Umgebungsvariablen für ein Beispiel eines ai_center-Dateiformats.
{
"annotations": {
"intent": {
"to_name": "text",
"choices": [
"TransactionIssue",
"LoanIssue"
]
},
"sentiment": {
"to_name": "text",
"choices": [
"Very Positive"
]
},
"ner": {
"to_name": "text",
"labels": [
{
"start_index": 37,
"end_index": 47,
"entity": "Stakeholder",
"value": " Citi Bank"
},
{
"start_index": 51,
"end_index": 61,
"entity": "Date",
"value": "07/19/2018"
},
{
"start_index": 114,
"end_index": 118,
"entity": "Amount",
"value": "$500"
},
{
"start_index": 288,
"end_index": 293,
"entity": "Stakeholder",
"value": " Citi"
}
]
}
},
"data": {
"cc": "",
"to": "xyz@abc.com",
"date": "1/29/2020 12:39:01 PM",
"from": "abc@xyz.com",
"text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."
{
"annotations": {
"intent": {
"to_name": "text",
"choices": [
"TransactionIssue",
"LoanIssue"
]
},
"sentiment": {
"to_name": "text",
"choices": [
"Very Positive"
]
},
"ner": {
"to_name": "text",
"labels": [
{
"start_index": 37,
"end_index": 47,
"entity": "Stakeholder",
"value": " Citi Bank"
},
{
"start_index": 51,
"end_index": 61,
"entity": "Date",
"value": "07/19/2018"
},
{
"start_index": 114,
"end_index": 118,
"entity": "Amount",
"value": "$500"
},
{
"start_index": 288,
"end_index": 293,
"entity": "Stakeholder",
"value": " Citi"
}
]
}
},
"data": {
"cc": "",
"to": "xyz@abc.com",
"date": "1/29/2020 12:39:01 PM",
"from": "abc@xyz.com",
"text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."
Um das vorherige JSON-Beispiel zu nutzen, müssen die Umgebungsvariablen wie folgt festgelegt werden:
- dataset.input_format:
ai_center
- dataset.input_column_name:
data.text
- dataset.output_column_name:
annotations.intent.choices
Sie können für das Training entweder den GPU oder den CPU verwenden. Wir empfehlen die Verwendung des GPUs, da er schneller ist.
- dataset.input_column_name
- Der Name der Eingabespalte, die den Text enthält.
- Der Standardwert ist
data.text
. - Stellen Sie sicher, dass diese Variable gemäß Ihrer JSON- oder CSV-Eingabedatei konfiguriert ist.
- dataset.target_column_name
- Der Name der Zielspalte, die den Text enthält.
- Der Standardwert ist
annotations.intent.choices
. - Stellen Sie sicher, dass diese Variable gemäß Ihrer JSON- oder CSV-Eingabedatei konfiguriert ist.
- dataset.input_format
- Das Eingabeformat der Trainingsdaten.
- Der Standardwert ist
ai_center
. - Unterstützte Werte sind:
ai_center
oderauto
. - Wenn
ai_center
ausgewählt ist, werden nurJSON
-Dateien unterstützt. Stellen Sie sicher, dass Sie auch den Wert von dataset.target_column_name inannotations.sentiment.choices
ändern, wennai_center
ausgewählt ist. - Wenn
auto
ausgewählt ist, werden sowohlCoNLL
- als auchJSON
-Dateien unterstützt.
- model.epochs
- Die Anzahl der Epochen.
- Standardwert:
100
.
Konfusionsmatrix
Klassifizierungsbericht
precision recall f1-score support
positive 0.94 0.94 0.94 10408
negative 0.93 0.93 0.93 9592
accuracy 0.94 20000
macro avg 0.94 0.94 0.94 20000
weighted avg 0.94 0.94 0.94 20000
precision recall f1-score support
positive 0.94 0.94 0.94 10408
negative 0.93 0.93 0.93 9592
accuracy 0.94 20000
macro avg 0.94 0.94 0.94 20000
weighted avg 0.94 0.94 0.94 20000
CSV-Auswertungsdatei
Dies ist eine CSV-Datei mit Vorhersagen für den Testsatz, der für die Auswertung verwendet wird.
text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98
text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98