communications-mining
latest
false
Wichtig :
Dieser Inhalt wurde maschinell übersetzt.
Communications Mining-Benutzerhandbuch
Last updated 7. Nov. 2024

Häufige Fragen zum Modelltraining

Die Informationen auf dieser Seite sind in zwei Abschnitte unterteilt:
  • Allgemeines Modelltraining
  • Beschriftungstraining

Allgemeines Modelltraining

Was ist das Ziel des Trainings eines Modells?

Das Ziel des Trainings eines Modells besteht darin, einen Satz von Trainingsdaten zu erstellen, die möglichst repräsentativ für das Dataset als Ganzes sind, damit die Plattform die relevanten Beschriftungen und allgemeinen Felder für jede Nachricht genau und sicher vorhersagen kann. Die Beschriftungen und allgemeinen Felder innerhalb eines Datasets müssen untrennbar mit den übergeordneten Zielen des Anwendungsfalls verbunden sein und einen signifikanten geschäftlichen Wert bieten.

Warum kann ich in Discover nichts sehen, wenn ich gerade Daten in die Plattform hochgeladen habe?

Sobald Daten auf die Plattform hochgeladen werden, startet die Plattform einen Prozess namens „Unüberwachtes Lernen“, bei dem sie Nachrichten in Cluster mit ähnlicher semantischer Absicht gruppiert. Dieser Prozess kann je nach Größe des Datasets einige Stunden dauern und Cluster werden angezeigt, sobald der Vorgang abgeschlossen ist.

Wie viele historische Daten benötige ich, um ein Modell zu trainieren?

Um ein Modell trainieren zu können, benötigen Sie eine Mindestmenge an vorhandenen historischen Daten. Diese werden als Trainingsdaten verwendet, um die Plattform mit den erforderlichen Informationen bereitzustellen, damit Sie jedes der relevanten Konzepte für Ihre Analyse und/oder Automatisierung zuverlässig vorhersagen können.

Für jeden Anwendungsfall werden historische Daten von mindestens 12 Monaten empfohlen, um jegliche Saisonalität oder Unregelmäßigkeit in den Daten ordnungsgemäß zu erfassen (z. B Monatsendeprozesse und Hauptgeschäftszeiten).

Muss ich mein Modell jedes Mal speichern, wenn ich eine Änderung vornehme?

Nein, Sie müssen Ihr Modell nicht speichern, nachdem Änderungen vorgenommen wurden. Jedes Mal, wenn Sie die Plattform mit Ihren Daten trainieren (d. h Hinzufügen von Anmerkungen zu Nachrichten), wird eine neue Modellversion für Ihr Dataset erstellt. Leistungsstatistiken für ältere Modellversionen können unter Validierung angezeigt werden.

Wie erkenne ich die Leistung des Modells?

Überprüfen Sie die Seite Validierung in der Plattform, auf der verschiedene Leistungskennzahlen gemeldet und eine ganzheitliche Bewertung des Modellzustands bereitgestellt werden. Diese Seite wird nach jedem Trainingsereignis aktualisiert und kann verwendet werden, um Bereiche zu identifizieren, in denen das Modell möglicherweise weitere Trainingsbeispiele oder einige Beschriftungskorrekturen benötigt, um Konsistenz zu gewährleisten.

Ausführliche Erklärungen zur Modellleistung und deren Verbesserung finden Sie auf der Seite Validierung.

Warum sind nur 30 Cluster verfügbar und können wir sie einzeln festlegen?

Die Cluster sind eine hilfreiche Möglichkeit, um Ihre Taxonomie schnell aufzubauen. Die Benutzer werden aber die meiste Zeit mit Explore und nicht mit Discover trainieren.

Wenn Benutzer zu viel Zeit mit dem Kommentieren über Cluster verbringen, besteht die Gefahr, dass das Modell überangepasst wird, um bei der Vorhersage nach Meldungen zu suchen, die nur zu diesen Clustern passen. Je vielfältiger die Beispiele für jede Bezeichnung sind, desto besser kann das Modell die verschiedenen Möglichkeiten finden, die gleiche Absicht oder das gleiche Konzept auszudrücken. Dies ist einer der Hauptgrunde, warum wir jeweils nur 30 Cluster anzeigen.

Sobald genügend Trainings abgeschlossen sind oder der Plattform eine beträchtliche Datenmenge hinzugefügt wurde (siehe hier), führt Discover jedoch ein erneutes Training durch. Beim erneuten Training berücksichtigt es das vorhandene Trainings bis dato und versucht, neue Cluster zu präsentieren, die von der aktuellen Taxonomie nicht gut abgedeckt werden.

Weitere Informationen zu Discover finden Sie hier.

Wie viele Nachrichten befinden sich in jedem Cluster?

Insgesamt gibt es 30 Cluster, die jeweils 12 Nachrichten enthalten. Auf der Plattform können Sie die Anzahl der Nachrichten filtern, die auf der Seite in Schritten zwischen 6 und 12 pro Seite angezeigt werden. Wir empfehlen, sechs Nachrichten gleichzeitig zu kommentieren, um sicherzustellen, dass Sie das Risiko reduzieren, Nachrichten teilweise zu kommentieren.

Was bedeuten Präzision und Rückruf?

Genauigkeit und Rückruf sind Metriken, die zur Messung der Leistung eines Machine Learning-Modells verwendet werden. Eine detaillierte Beschreibung der einzelnen Elemente finden Sie im Abschnitt Verwenden der Validierung in unseren Anleitungen.

Kann ich zu einer früheren Version meines Modells zurückkehren?

Sie können auf die Validierungsübersicht früherer Modelle zugreifen, indem Sie mit dem Mauszeiger auf „Modellversion“ in der oberen linken Ecke der Seite Validierung zeigen. Dies kann hilfreich sein, um den Fortschritt beim Trainieren Ihres Modells nachzuverfolgen und zu vergleichen.

Wenn Sie Ihr Modell auf eine frühere fixierte Version zurücksetzen müssen, finden Sie hier weitere Informationen.

Beschriftungstraining

Kann ich den Namen einer Beschriftung später ändern?

Ja, das ist ganz einfach. Sie können zu den Einstellungen für jede Beschriftung gehen und sie jederzeit umbenennen. Wie das geht, sehen Sie hier.

Wie erfahre ich die Anzahl der Nachrichten, die ich kommentiert habe?

Informationen zu Ihrem Dataset, einschließlich der Anzahl der kommentierten Nachrichten, werden auf der Seite Datasets-Einstellungen angezeigt. Um zu sehen, wie Sie darauf zugreifen, klicken Sie hier.

Eine meiner Bezeichnungen funktioniert schlecht. Was kann ich tun, um sie zu verbessern?

Wenn Sie auf der Seite Validierung sehen, dass die Leistung Ihres Labels schlecht ist, gibt es verschiedene Möglichkeiten, seine Leistung zu verbessern. Weitere Informationen finden Sie hier .

Was bedeutet das rote Ziffernblatt neben meiner Beschriftung oder dem allgemeinen Feld? Wie werde ich es los?

Die kleinen roten Zifferblätter neben jedem Bezeichnungs-/allgemeinen Feld geben an, ob weitere Beispiele für die Plattform erforderlich sind, um die Leistung des Bezeichnungs-/allgemeinen Felds genau zu schätzen. Die Zifferblätter beginnen zu verschwinden, sobald Sie mehr Trainingsbeispiele angeben, und sie verschwinden vollständig, sobald Sie 25 Beispiele erreicht haben.

Danach kann die Plattform die Leistung eines bestimmten Bezeichnung/allgemeinen Felds effektiv auswerten und kann eine Leistungswarnung zurückgeben, wenn die Bezeichnung/das allgemeine Feld nicht fehlerfrei ist.

Sollte ich es vermeiden, leere/nicht informative Nachrichten mit Anmerkungen zu versehen?

Die Plattform kann von leeren Nachrichten und nicht informativen Nachrichten lernen, sofern sie korrekt mit Anmerkungen versehen sind. Es ist jedoch anzumerken, dass nicht aussagekräftige Bezeichnungen wahrscheinlich eine beträchtliche Anzahl von Trainingsbeispielen benötigen und frei nach Konzepten gruppiert werden müssen, um die beste Leistung zu gewährleisten.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten