- Erste Schritte
- Benachrichtigungen
- Projekte
- Datasets
- Data Labeling
- ML-Pakete
- Sofort einsetzbare Pakete
- Pipelines
- ML-Skills
- ML-Protokolle
- Document UnderstandingTM im AI Center
- AI Center-API
- Lizenzierung
- Vorlagen für AI Solutions
- Anleitungen zu …
- Grundlegende Anleitung zur Fehlerbehebung
AI Center – Benutzerhandbuch
Dieses ML-Paket wird bald als veraltet betrachtet. Weitere Informationen finden Sie auf der Seite Zeitleiste der veralteten Elemente in der Übersicht .
Die Textklassifizierung mit mehreren Bezeichnungen befindet sich derzeit in der öffentlichen Vorschau.
UiPath® legt großen Wert auf die Stabilität und Qualität seiner Produkte, aber die Vorschaufunktionen können aufgrund des Feedbacks unserer Kunden jederzeit geändert werden. Die Verwendung von Vorschaufunktionen wird für Produktionsbereitstellungen nicht empfohlen.
Sofort einsetzbare Pakete: Textklassifizierung mit mehreren Bezeichnungen
Dies ist ein generisches, erneut trainierbares Modell zum Taggen eines Texts mit mehreren Beschriftungen. Dieses ML-Paket muss trainiert werden, und wenn es zuerst ohne Training bereitgestellt wird, schlägt die Bereitstellung mit einem Fehler fehl, der angibt, dass das Modell nicht trainiert wurde. Es basiert auf BERT, einer selbstüberwachenden Methode zum Vortraining von Systemen zur Verarbeitung natürlicher Sprache. Eine GPU wird empfohlen, insbesondere während des Trainings. Eine GPU verbessert die Geschwindigkeit um das 5- bis 10-fache.
Sprachen
Dieses mehrsprachige Modell unterstützt die Sprachen aus der folgenden Liste. Diese Sprachen wurden ausgewählt, da sie die Top 100 Sprachen mit den umfangreichsten Wikipedia-Enzyklopädien sind:
- Afrikaans
- Albanisch
- Arabisch
- Aragonesisch
- Armenisch
- Asturisch
- Aserbaidschanisch
- Baschkirisch
- Baskisch
- Bayerisch
- Weißrussisch
- Bengali
- Bishnupriya Manipuri
- Bosnisch
- Bretonisch
- Bulgarisch
- Birmanisch
- Katalanisch
- Cebuano
- Tschetschenien
- Chinesisch (vereinfacht)
- Chinesisch (traditionell)
- Tschuwaschisch
- Kroatisch
- Tschechisch
- Dänisch
- Niederländisch
- Englisch
- Estnisch
- Finnisch
- Französisch
- Galizisch
- Georgisch
- Deutsch
- Griechisch
- Gujarati
- Haitianisch
- Hebräisch
- Hindi
- Ungarisch
- Isländisch
- Ido
- Indonesisch
- Irisch
- Italienisch
- Japanisch
- Javanisch
- Kannada
- Kasachisch
- Kirgisisch
- Koreanisch
- Latein
- Lettisch
- Litauisch
- Langobardisch
- Niedersächsisch
- Luxemburgisch
- Mazedonisch
- Madagassisch
- Malaiisch
- Malaiisch
- Marathi
- Minangkabau
- Nepali
- Newari
- Norwegisch (Bokmål)
- Norwegisch (Nynorsk)
- Okzitanisch
- Persisch (Farsi)
- Piemontesisch
- Polnisch
- Portugiesisch
- Punjabi
- Rumänisch
- Russisch
- Scots
- Serbisch
- Serbokroatisch
- Sizilianisch
- Slowakisch
- Slowenisch
- Süd-Aserbaidschanisch
- Spanisch
- Sundanesisch
- Swahili
- Schwedisch
- Tagalog
- Tadschikisch
- Tamil
- Tatarisch
- Telugu
- Türkisch
- Ukrainisch
- Urdu
- Usbekisch
- Vietnamesisch
- Volapük
- Waray-Waray
- Walisisch
- Westfriesisch
- West-Punjabi
- Yoruba
Modelldetails
Eingabetyp
JSON
Eingabebeschreibung
Text, der als String klassifiziert werden soll: „Ich liebe diesen Schauspieler, aber ich hasse seine Filme.“
Ausgabebeschreibung
JSON mit zwei Listen. Die erste Liste enthält vorhergesagte Beschriftungen, und die zweite Liste enthält die zugehörige Konfidenz der vorhergesagten Beschriftung (zwischen 0 und 1).
Beispiel:
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
GPU empfohlen
Standardmäßig wird eine GPU empfohlen.
Training aktiviert
Das Training ist aktiviert.
Pipelines
Dieses Paket unterstützt alle drei Arten von Pipelines (Vollständiges Training, Training und Evaluierung). Für die meisten Anwendungsfälle müssen keine Parameter angegeben werden. Das Modell verwendet erweiterte Techniken, um ein performantes Modell zu finden. In den folgenden Trainings nach dem ersten verwendet das Modell inkrementelles Lernen (d. h., die zuvor trainierte Version wird am Ende eines Trainingslaufs verwendet).
Dataset-Format
Das Modell liest alle CSV-Dateien im angegebenen Verzeichnis. In jeder CSV-Datei erwartet das Modell zwei Spalten oder zwei Eigenschaften, standardmäßig text und label . Die Namen dieser beiden Spalten und/oder Eigenschaften können mithilfe von Umgebungsvariablen konfiguriert werden.
CSV-Dateiformat
Jede CSV-Datei kann eine beliebige Anzahl von Spalten haben, aber nur zwei werden vom Modell verwendet. Diese Spalten werden durch die Parameter dataset.text_column_name . angegeben (Wenn nicht geändert, ist der Standardwert text ) und dataset.target_column_name (Wenn nicht geändert, ist der Standardwert labels ).
Beispielsweise kann eine einzelne CSV-Datei folgendermaßen aussehen:
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
Training auf GPU oder CPU
Sie können für das Training entweder den GPU oder den CPU verwenden. Wir empfehlen die Verwendung des GPUs, da er schneller ist.
Umgebungsvariablen
- dataset.text_column_name – Standardwert
text - model.epochs – Standardwert
100 - dataset.target_column_name – Standardwert
label
Artefakte
Konfusionsmatrix
Um alle Beschriftungen besser abzudecken, ist die Verwirrungsmatrix im Fall der Multilabel-Textklassifizierung eine JSON-Datei. Wir stellen eine Verwirrungsmatrix für jede Bezeichnung bereit ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
Klassifizierungsbericht
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
Auswertung
Dies ist eine CSV-Datei mit Vorhersagen für den Testsatz, der für die Auswertung verwendet wird.
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]