- Versionshinweise
- Erste Schritte
- Benachrichtigungen
- Projekte
- Datasets
- Data Labeling
- ML-Pakete
- Sofort einsetzbare Pakete
- Pipelines
- ML-Skills
- ML-Protokolle
- Document UnderstandingTM im AI Center
- AI Center-API
- Lizenzierung
- Vorlagen für AI Solutions
- Anleitungen zu …
- Grundlegende Anleitung zur Fehlerbehebung
Mehrstufige Textklassifizierung
Die Textklassifizierung mit mehreren Bezeichnungen befindet sich derzeit in der öffentlichen Vorschau.
UiPath® legt großen Wert auf die Stabilität und Qualität seiner Produkte, aber die Vorschaufunktionen können aufgrund des Feedbacks unserer Kunden jederzeit geändert werden. Die Verwendung von Vorschaufunktionen wird für Produktionsbereitstellungen nicht empfohlen.
Sofort einsetzbare Pakete: Textklassifizierung mit mehreren Bezeichnungen
Dies ist ein generisches, erneut trainierbares Modell zum Taggen eines Texts mit mehreren Beschriftungen. Dieses ML-Paket muss trainiert werden, und wenn es zuerst ohne Training bereitgestellt wird, schlägt die Bereitstellung mit einem Fehler fehl, der angibt, dass das Modell nicht trainiert wurde. Es basiert auf BERT, einer selbstüberwachenden Methode zum Vortraining von Systemen zur Verarbeitung natürlicher Sprache. Eine GPU wird empfohlen, insbesondere während des Trainings. Eine GPU verbessert die Geschwindigkeit um das 5- bis 10-fache.
Dieses mehrsprachige Modell unterstützt die unten aufgeführten Sprachen. Diese Sprachen wurden ausgewählt, da sie die Top 100 Sprachen mit den umfangreichsten Wikipedia-Enzyklopädien sind:
- Afrikaans
- Albanisch
- Arabisch
- Aragonesisch
- Armenisch
- Asturisch
- Aserbaidschanisch
- Baschkirisch
- Baskisch
- Bayerisch
- Weißrussisch
- Bengali
- Bishnupriya Manipuri
- Bosnisch
- Bretonisch
- Bulgarisch
- Birmanisch
- Katalanisch
- Cebuano
- Tschetschenien
- Chinesisch (vereinfacht)
- Chinesisch (traditionell)
- Tschuwaschisch
- Kroatisch
- Tschechisch
- Dänisch
- Niederländisch
- Englisch
- Estnisch
- Finnisch
- Französisch
- Galizisch
- Georgisch
- Deutsch
- Griechisch
- Gujarati
- Haitianisch
- Hebräisch
- Hindi
- Ungarisch
- Isländisch
- Ido
- Indonesisch
- Irisch
- Italienisch
- Japanisch
- Javanisch
- Kannada
- Kasachisch
- Kirgisisch
- Koreanisch
- Latein
- Lettisch
- Litauisch
- Langobardisch
- Niedersächsisch
- Luxemburgisch
- Mazedonisch
- Madagassisch
- Malaiisch
- Malaiisch
- Marathi
- Minangkabau
- Nepali
- Newari
- Norwegisch (Bokmål)
- Norwegisch (Nynorsk)
- Okzitanisch
- Persisch (Farsi)
- Piemontesisch
- Polnisch
- Portugiesisch
- Punjabi
- Rumänisch
- Russisch
- Scots
- Serbisch
- Serbokroatisch
- Sizilianisch
- Slowakisch
- Slowenisch
- Süd-Aserbaidschanisch
- Spanisch
- Sundanesisch
- Swahili
- Schwedisch
- Tagalog
- Tadschikisch
- Tamil
- Tatarisch
- Telugu
- Türkisch
- Ukrainisch
- Urdu
- Usbekisch
- Vietnamesisch
- Volapük
- Waray-Waray
- Walisisch
- Westfriesisch
- West-Punjabi
- Yoruba
Text, der als String klassifiziert werden soll: „Ich liebe diesen Schauspieler, aber ich hasse seine Filme.“
JSON mit zwei Listen. Die erste Liste enthält vorhergesagte Beschriftungen, und die zweite Liste enthält die zugehörige Konfidenz der vorhergesagten Beschriftung (zwischen 0 und 1).
Beispiel:
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
Dieses Paket unterstützt alle drei Arten von Pipelines (Vollständiges Training, Training und Evaluierung). Für die meisten Anwendungsfälle müssen keine Parameter angegeben werden. Das Modell verwendet erweiterte Techniken, um ein performantes Modell zu finden. In den folgenden Trainings nach dem ersten verwendet das Modell inkrementelles Lernen (d. h., die zuvor trainierte Version wird am Ende eines Trainingslaufs verwendet).
text
und label
. Die Namen dieser beiden Spalten und/oder Eigenschaften können mithilfe von Umgebungsvariablen konfiguriert werden.
CSV-Dateiformat
text
) und dataset.target_column_name (wenn unverändert ist der Standardwert labels
).
Beispielsweise kann eine einzelne CSV-Datei folgendermaßen aussehen:
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
Sie können für das Training entweder den GPU oder den CPU verwenden. Wir empfehlen die Verwendung des GPUs, da er schneller ist.
- dataset.text_column_name – Standardwert
text
- model.epochs – Standardwert
100
- dataset.target_column_name – Standardwert
label
Konfusionsmatrix
Um alle Beschriftungen besser abzudecken, ist die Verwirrungsmatrix im Fall der Multilabel-Textklassifizierung eine JSON-Datei. Wir stellen eine Verwirrungsmatrix für jede Bezeichnung bereit ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
Klassifizierungsbericht
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
Auswertung
Dies ist eine CSV-Datei mit Vorhersagen für den Testsatz, der für die Auswertung verwendet wird.
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]