- Versionshinweise
- Erste Schritte
- Benachrichtigungen
- Projekte
- Datasets
- Data Labeling
- ML-Pakete
- Sofort einsetzbare Pakete
- Pipelines
- ML-Skills
- ML-Protokolle
- Document UnderstandingTM im AI Center
- AI Center-API
- Lizenzierung
- Vorlagen für AI Solutions
- Anleitungen zu …
- Grundlegende Anleitung zur Fehlerbehebung
Leichte Textklassifizierung
Sofort einsetzbare Pakete > UiPath Sprachanalyse > LightTextClassification
Dies ist ein generisches, erneut trainierbares Modell für die Textklassifizierung. Es unterstützt alle Sprachen, die auf lateinischen Zeichen basieren, z. B. Englisch, Französisch, Spanisch und andere. Dieses ML-Paket muss trainiert werden, und wenn es zuerst ohne Training bereitgestellt wird, schlägt die Bereitstellung mit einem Fehler fehl, der angibt, dass das Modell nicht trainiert wurde. Dieses Modell funktioniert mit Bag of Words. Dieses Modell bietet Erklärbarkeit basierend auf n-Grammen.
JSON mit Klasse und Konfidenz (zwischen 0-1).
{
"class": "7",
"confidence": 0.1259827300369445,
"ngrams": [
[
"like",
1.3752658445706787
],
[
"like this",
0.032029048484416685
]
]
}
{
"class": "7",
"confidence": 0.1259827300369445,
"ngrams": [
[
"like",
1.3752658445706787
],
[
"like this",
0.032029048484416685
]
]
}
Dieses Paket unterstützt alle drei Arten von Pipelines (Vollständiges Training, Training und Evaluierung). Das Modell verwendet erweiterte Techniken, um mithilfe der Hyperparametersuche ein performantes Modell zu finden. Standardmäßig ist die Hyperparametersuche (die Variable BOW.hyperparameter_search.enable ) aktiviert. Die Parameter des leistungsstärksten Modells sind im Auswertungsbericht verfügbar.
Drei Optionen sind verfügbar, um Ihr Dataset für dieses Modell zu strukturieren: JSON, CSV und AI Center -JSON-Format (dies ist auch das Exportformat des Beschriftungstools. Das Modell liest alle CSV- und JSON-Dateien im angegebenen Verzeichnis. Für jedes Format erwartet das Modell standardmäßig zwei Spalten oder zwei Eigenschaften, dataset.input_column_name und dataset.target_column_name standardmäßig festgelegt. Die Namen dieser beiden Spalten und/oder Verzeichnisse können mithilfe von Umgebungsvariablen konfiguriert werden.
CSV-Dateiformat
Jede CSV-Datei kann eine beliebige Anzahl von Spalten haben, aber nur zwei werden vom Modell verwendet. Diese Spalten werden durch dataset.input_column_name angegeben und dataset.target_column_name Parameter.
Überprüfen Sie die folgenden Beispiel- und Umgebungsvariablen für ein Beispiel eines CSV-Dateiformats.
text, label
I like this movie, 7
I hated the acting, 9
text, label
I like this movie, 7
I hated the acting, 9
Die Umgebungsvariablen für das vorherige Beispiel lauten wie folgt:
- dataset.input_format:
auto
- dataset.input_column_name:
text
- dataset.target_column_name:
label
JSON-Dateiformat
Mehrere Datenpunkte können Teil derselben JSON-Datei sein.
Überprüfen Sie die folgenden Beispiel- und Umgebungsvariablen für ein Beispiel eines JSON-Dateiformats.
[
{
"text": "I like this movie",
"label": "7"
},
{
"text": "I hated the acting",
"label": "9"
}
]
[
{
"text": "I like this movie",
"label": "7"
},
{
"text": "I hated the acting",
"label": "9"
}
]
Die Umgebungsvariablen für das vorherige Beispiel lauten wie folgt:
- dataset.input_format:
auto
- dataset.input_column_name:
text
- dataset.target_column_name:
label
ai_center-Dateiformat
.json
.
Überprüfen Sie die folgenden Beispiel- und Umgebungsvariablen für ein Beispiel eines ai_center-Dateiformats.
{
"annotations": {
"intent": {
"to_name": "text",
"choices": [
"TransactionIssue",
"LoanIssue"
]
},
"sentiment": {
"to_name": "text",
"choices": [
"Very Positive"
]
},
"ner": {
"to_name": "text",
"labels": [
{
"start_index": 37,
"end_index": 47,
"entity": "Stakeholder",
"value": " Citi Bank"
},
{
"start_index": 51,
"end_index": 61,
"entity": "Date",
"value": "07/19/2018"
},
{
"start_index": 114,
"end_index": 118,
"entity": "Amount",
"value": "$500"
},
{
"start_index": 288,
"end_index": 293,
"entity": "Stakeholder",
"value": " Citi"
}
]
}
},
"data": {
"cc": "",
"to": "xyz@abc.com",
"date": "1/29/2020 12:39:01 PM",
"from": "abc@xyz.com",
"text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."
{
"annotations": {
"intent": {
"to_name": "text",
"choices": [
"TransactionIssue",
"LoanIssue"
]
},
"sentiment": {
"to_name": "text",
"choices": [
"Very Positive"
]
},
"ner": {
"to_name": "text",
"labels": [
{
"start_index": 37,
"end_index": 47,
"entity": "Stakeholder",
"value": " Citi Bank"
},
{
"start_index": 51,
"end_index": 61,
"entity": "Date",
"value": "07/19/2018"
},
{
"start_index": 114,
"end_index": 118,
"entity": "Amount",
"value": "$500"
},
{
"start_index": 288,
"end_index": 293,
"entity": "Stakeholder",
"value": " Citi"
}
]
}
},
"data": {
"cc": "",
"to": "xyz@abc.com",
"date": "1/29/2020 12:39:01 PM",
"from": "abc@xyz.com",
"text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."
Um das vorherige JSON-Beispiel zu nutzen, müssen die Umgebungsvariablen wie folgt festgelegt werden:
- dataset.input_format:
ai_center
- dataset.input_column_name:
data.text
- dataset.target_column_name:
annotations.intent.choices
- dataset.input_column_name
- Der Name der Eingabespalte, die den Text enthält.
- Der Standardwert ist
data.text
. - Stellen Sie sicher, dass diese Variable gemäß Ihrer JSON- oder CSV-Eingabedatei konfiguriert ist.
- dataset.target_column_name
- Der Name der Zielspalte, die den Text enthält.
- Der Standardwert ist
annotations.intent.choices
. - Stellen Sie sicher, dass diese Variable gemäß Ihrer JSON- oder CSV-Eingabedatei konfiguriert ist.
- dataset.input_format
- Das Eingabeformat der Trainingsdaten.
- Der Standardwert ist
ai_center
. - Unterstützte Werte sind:
ai_center
oderauto
. - Wenn
ai_center
ausgewählt ist, werden nurJSON
-Dateien unterstützt. Stellen Sie sicher, dass Sie auch den Wert von dataset.target_column_name inannotations.sentiment.choices
ändern, wennai_center
ausgewählt ist. - Wenn
auto
ausgewählt ist, werden sowohlCoNLL
- als auchJSON
-Dateien unterstützt.
- BOW.hyperparameter_search.enable
- Der Standardwert für diesen Parameter ist
True
. Wenn diese Option aktiviert bleibt, wird das leistungsstärkste Modell im angegebenen Zeitrahmen und die Compute-Ressourcen gefunden. - Dadurch wird auch eine
HyperparameterSearch_report
-PDF-Datei generiert, um Variationen von Parametern zu präsentieren, die ausprobiert wurden.
- Der Standardwert für diesen Parameter ist
- BOW.hyperparameter_search.timeout
- Die maximale Ausführungszeit der Hyperparametersuche in Sekunden.
- Der Standardwert ist
1800
.
- BOW.explain_inference
- Wenn dies auf
True
festgelegt ist, werden während der Inferenzzeit, wenn das Modell als ML-Fähigkeit bereitgestellt wird, einige der wichtigsten N-Gramme zusammen mit der Vorhersage zurückgegeben. - Der Standardwert ist
False
.
- Wenn dies auf
Optionale Variablen
True
festlegen, werden die optimalen Werte dieser Variablen gesucht. Für die folgenden optionalen Parameter, die vom Modell verwendet werden sollen, legen Sie die Suchvariable BOW.hyperparameter_search.enable auf False
fest:
- BOW.lr_kwargs.class_weight
- Unterstützte Werte sind:
balanced
oderNone
.
- Unterstützte Werte sind:
- BOW.ngram_range
- Bereich der Sequenzlänge der aufeinanderfolgenden Wortsequenz, die als Funktionen für das Modell betrachtet werden kann.
- Stellen Sie sicher, dass Sie dieses Format einhalten:
(1, x)
, wobeix
die maximale Sequenzlänge ist, die Sie zulassen möchten.
- BOW.min_df
- Wird verwendet, um die minimale Anzahl von Vorkommen des N-Grammes im Dataset festzulegen, die als Feature betrachtet werden soll.
- Empfohlene Werte liegen zwischen
0
und10
.
- dataset.text_pp_remove_stop_words
- Wird verwendet, um zu konfigurieren, ob Stoppwörter in die Suche eingeschlossen werden sollen (z. B. Wörter wie
the
,or
). - Unterstützte Werte sind:
True
oderFalse
.
- Wird verwendet, um zu konfigurieren, ob Stoppwörter in die Suche eingeschlossen werden sollen (z. B. Wörter wie