Communications Mining
Neuestes
False
Bannerhintergrundbild
Communications Mining-Benutzerhandbuch
Letzte Aktualisierung 18. Apr. 2024

Häufige Fragen zum Modelltraining

Die Informationen auf dieser Seite sind in zwei Abschnitte unterteilt:
  • Allgemeines Modelltraining
  • Beschriftungstraining

Allgemeines Modelltraining

Was ist das Ziel des Trainings eines Modells?

Das Ziel des Trainings eines Modells besteht darin, einen Satz von Trainingsdaten zu erstellen, die möglichst repräsentativ für das Dataset als Ganzes sind, sodass die Plattform die relevanten Beschriftungen und Entitäten für jede Nachricht genau und sicher vorhersagen kann. Die Beschriftungen und Entitäten innerhalb eines Datasets sollten untrennbar mit den übergeordneten Zielen des Anwendungsfalls verbunden sein und einen signifikanten geschäftlichen Wert bieten.

Warum kann ich in Discover nichts sehen, wenn ich gerade Daten in die Plattform hochgeladen habe?

Sobald Daten auf die Plattform hochgeladen werden, startet die Plattform einen Prozess namens „Unüberwachtes Lernen“, bei dem sie Nachrichten in Cluster mit ähnlicher semantischer Absicht gruppiert. Dieser Prozess kann je nach Größe des Datasets einige Stunden dauern und Cluster werden angezeigt, sobald der Vorgang abgeschlossen ist.

Wie viele historische Daten benötige ich, um ein Modell zu trainieren?

Um ein Modell trainieren zu können, benötigen Sie eine Mindestmenge an vorhandenen historischen Daten. Diese werden als Trainingsdaten verwendet, um die Plattform mit den erforderlichen Informationen bereitzustellen, damit Sie jedes der relevanten Konzepte für Ihre Analyse und/oder Automatisierung zuverlässig vorhersagen können.

Für jeden Anwendungsfall werden historische Daten von mindestens 12 Monaten empfohlen, um jegliche Saisonalität oder Unregelmäßigkeit in den Daten ordnungsgemäß zu erfassen (z. B Monatsendeprozesse und Hauptgeschäftszeiten).

Muss ich mein Modell jedes Mal speichern, wenn ich eine Änderung vornehme?

Nein, Sie müssen Ihr Modell nicht speichern, nachdem Änderungen vorgenommen wurden. Jedes Mal, wenn Sie die Plattform mit Ihren Daten trainieren (d. h Beschriften von Nachrichten) wird eine neue Modellversion für Ihr Dataset erstellt. Leistungsstatistiken für ältere Modellversionen können unter Validierung angezeigt werden.

Wie erkenne ich die Leistung des Modells?

Überprüfen Sie die Seite Validierung in der Plattform, auf der verschiedene Leistungskennzahlen gemeldet und eine ganzheitliche Bewertung des Modellzustands bereitgestellt werden. Diese Seite wird nach jedem Trainingsereignis aktualisiert und kann verwendet werden, um Bereiche zu identifizieren, in denen das Modell möglicherweise weitere Trainingsbeispiele oder einige Beschriftungskorrekturen benötigt, um Konsistenz zu gewährleisten.

Ausführliche Erklärungen zur Modellleistung und deren Verbesserung finden Sie auf der Seite Validierung.

Warum sind nur 30 Cluster verfügbar und können wir sie einzeln festlegen?

Die Cluster sind eine hilfreiche Möglichkeit, um Ihre Taxonomie schnell aufzubauen. Die Benutzer werden aber die meiste Zeit mit Explore und nicht mit Discover trainieren.

Wenn Benutzer zu viel Zeit mit der Beschriftung über Cluster aufwenden, besteht die Gefahr, dass das Modell überangepasst wird, um bei der Vorhersage nach Nachrichten zu suchen, die nur zu diesen Clustern passen. Je vielfältiger die Beispiele für jede Bezeichnung sind, desto besser kann das Modell die verschiedenen Möglichkeiten finden, die gleiche Absicht oder das gleiche Konzept auszudrücken. Dies ist einer der Hauptgrunde, warum wir jeweils nur 30 Cluster anzeigen.

Sobald genügend Trainings abgeschlossen sind oder der Plattform eine beträchtliche Datenmenge hinzugefügt wurde (siehe hier), führt Discover jedoch ein erneutes Training durch. Beim erneuten Training berücksichtigt es das vorhandene Trainings bis dato und versucht, neue Cluster zu präsentieren, die von der aktuellen Taxonomie nicht gut abgedeckt werden.

Weitere Informationen zu Discover finden Sie hier.

Wie viele Nachrichten befinden sich in jedem Cluster?

Insgesamt gibt es 30 Cluster, die jeweils 12 Nachrichten enthalten. Auf der Plattform können Sie die Anzahl der Nachrichten filtern, die auf der Seite in Schritten zwischen 6 und 12 pro Seite angezeigt werden. Wir empfehlen, jeweils 6 zu beschriften, um sicherzustellen, dass Sie das Risiko einer teilweisen Beschriftung von Nachrichten reduzieren.

Was bedeuten Präzision und Rückruf?

Genauigkeit und Rückruf sind Metriken, die zur Messung der Leistung eines Machine Learning-Modells verwendet werden. Eine detaillierte Beschreibung der einzelnen Elemente finden Sie im Abschnitt Verwenden der Validierung in unseren Anleitungen.

Kann ich zu einer früheren Version meines Modells zurückkehren?

Sie können auf die Validierungsübersicht früherer Modelle zugreifen, indem Sie mit dem Mauszeiger auf „Modellversion“ in der oberen linken Ecke der Seite Validierung zeigen. Dies kann hilfreich sein, um den Fortschritt beim Trainieren Ihres Modells nachzuverfolgen und zu vergleichen.

Wenn Sie Ihr Modell auf eine frühere fixierte Version zurücksetzen müssen, finden Sie hier weitere Informationen.

Beschriftungstraining

Kann ich den Namen einer Beschriftung später ändern?

Ja, das ist ganz einfach. Sie können zu den Einstellungen für jede Beschriftung gehen und sie jederzeit umbenennen. Wie das geht, sehen Sie hier.

Wie erfahre ich die Anzahl der Nachrichten, die ich beschriftet habe?

Informationen zu Ihrem Dataset, einschließlich der Anzahl der beschrifteten Nachrichten, werden auf der Seite Datasets-Einstellungen angezeigt. Um zu sehen, wie Sie darauf zugreifen, klicken Sie hier.

Eine meiner Bezeichnungen funktioniert schlecht. Was kann ich tun, um sie zu verbessern?

Wenn Sie auf der Seite Validierung sehen, dass die Leistung Ihres Labels schlecht ist, gibt es verschiedene Möglichkeiten, seine Leistung zu verbessern. Weitere Informationen finden Sie hier .

Was bedeutet das rote Ziffernblatt neben meiner Bezeichnung oder Entität? Wie werde ich es los?

Die kleinen roten Zifferblätter neben jeder Bezeichnung/Entität geben an, ob weitere Beispiele für die Plattform erforderlich sind, um die Leistung der Bezeichnung/Entität genau zu schätzen. Die Zifferblätter beginnen zu verschwinden, sobald Sie mehr Trainingsbeispiele angeben, und sie verschwinden vollständig, sobald Sie 25 Beispiele erreicht haben.

Danach kann die Plattform die Leistung einer bestimmten Bezeichnung/Entität effektiv auswerten und kann eine Leistungswarnung zurückgeben, wenn die Bezeichnung/Entität nicht fehlerfrei ist.

Sollte ich es vermeiden, leere/nicht informative Nachrichten zu beschriften?

Die Plattform kann von leeren und nicht informativen Nachrichten lernen, sofern sie korrekt beschriftet sind. Es ist jedoch anzumerken, dass nicht aussagekräftige Bezeichnungen wahrscheinlich eine beträchtliche Anzahl von Trainingsbeispielen benötigen und frei nach Konzepten gruppiert werden müssen, um die beste Leistung zu gewährleisten.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
UiPath Logo weiß
Vertrauen und Sicherheit
© 2005-2024 UiPath. All rights reserved.