UiPath Documentation
process-mining
2021.10
true
Wichtig :
Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Process Mining-Benutzerhandbuch

Data Volume

Einleitung

Die Datenmenge steht immer in einem direkten Kompromiss mit der Leistung. Process Mining ist von Natur aus besessen von Details, um die Prozessdiagramme zu erstellen.

All diese eindeutigen Zeitstempel wirken sich jedoch auf die Leistung aus. Im Allgemeinen gibt es theoretische Grenzen, denen sich alle Process Mining-Tools und alle In-Memory-Tools nähern.

Benutzertypen

Wir unterscheiden zwischen der Leistung der Daten, die für eine Anwendung und den Connector verwendet werden. Obwohl sie dieselbe Plattform verwenden, gibt es einige Unterschiede, d. h., was für die Benutzer akzeptabel ist (Entwickler vs. Endbenutzer) und welche Art von Aktionen durchgeführt werden.

Große Datenmengen können sich sowohl auf den Connector als auch auf die Anwendung auswirken, aber alle können im Connector gelöst werden.

Data Volume

Die Leistung, die Endbenutzer erleben werden, hängt direkt mit dem Datenvolumen zusammen. Das Datenvolumen wird durch die Anzahl der Zeilen in den größten Tabellen bestimmt. Im Allgemeinen bestimmt nur die Anzahl der Zeilen die Leistung der Endbenutzer. Die Anzahl der Spalten ist nur ein Faktor, wenn die Daten aus der Datenbank geladen werden.

Ideal wären Prozesse mit etwa 5.000.000 (5 Mio.) Fällen und bis zu etwa 50.000.000 (50 Mio.) Ereignissen pro Prozess. Bei mehr Fällen und Ereignissen dauert das Analysieren der Daten und das Anzeigen der Visualisierung länger.

Die UiPath Process Mining Plattform funktioniert weiterhin, jedoch kann die Reaktionsgeschwindigkeit sinken, wenn große Datenmengen eingefügt werden. Es wird empfohlen, die Datenmenge zuvor zu überprüfen. Wenn sie die oben genannten Zahlen überschreitet, wird empfohlen, das Dataset zu optimieren oder einzuschränken.

Detaillierungsgrad

Eine höhere Detailebene erfordert eine längere Reaktionszeit, was sich auf die Leistung auswirkt.

Der genaue Kompromiss zwischen Datenmenge, Detaillierungsgrad und Wartezeit muss mit den Endbenutzern besprochen werden. Manchmal können historische Daten sehr wichtig sein, aber oft werden nur die letzten Jahre benötigt.

Ein weiterer Faktor sind die eindeutigen Werte, die Sie in Ihren Spalten haben. UiPath Process Mining verwendet eine proprietäre Methode, um die Größe der *.mvn -Dateien auf ein Minimum zu reduzieren. Dies funktioniert gut für Werte, die ähnlich sind. Viele eindeutige Werte für ein Attribut wirken sich auch auf die Leistung aus, z. B Ereignisdetail.

Solutions (Lösungen)

Es gibt zwei Hauptlösungsrichtungen für den Umgang mit großen Datenmengen:

  • Optimierung;
  • Datenminimierung.

Die Optimierung umfasst die Anpassungen, die Superadmins vornehmen können, um das Rendern der Dashboards zu beschleunigen. Dies kann erreicht werden, indem die Anwendungseinstellungen an das jeweilige Dataset angepasst werden (weitere Informationen finden Sie unter Anwendungsdesign).

In diesem Abschnitt werden die verschiedenen Techniken zur Datenminimierung beschrieben, die Sie anwenden können, um die für den Endbenutzer sichtbaren Daten zu reduzieren, die auf die jeweilige Geschäftsfrage zugeschnitten sind.

Die hier beschriebenen Techniken können nebeneinander existieren oder sogar kombiniert werden, um die Vorteile mehrerer Techniken zu nutzen. Darüber hinaus können Sie eine Anwendung ohne Datenminimierung neben minimierten Anwendungen beibehalten, da die Detailgenauigkeit manchmal für bestimmte Analysen erforderlich sein kann, bei denen eine geringere Leistung akzeptabel ist.

Datenbereich

Die Begrenzung der Anzahl der Datensätze, die im Tour-Dataset angezeigt werden, verbessert nicht nur die Leistung der Anwendung, sondern auch die Verständlichkeit des Prozesses und damit die Akzeptanz durch das Unternehmen.

Das Scope der Daten kann im Connector erfolgen.

Eine der Optionen für die Bereichsbestimmung besteht darin, den zu untersuchenden Zeitrahmen einzuschränken, indem Datumsangaben oder Zeiträume herausgefiltert werden. Sie können beispielsweise den Zeitrahmen von 10 Jahren auf ein Jahr begrenzen. Oder von 1 Jahr bis zu einem Monat. Siehe Abbildung unten.

Eine begrenzte Anzahl von Aktivitäten wird empfohlen, insbesondere zu Beginn von Process Mining. Von dort aus können Sie sich aufbauen, wenn das Know-how zunimmt.

Nachfolgend finden Sie eine Richtlinie für das Spektrum der Aktivitäten:

Bereich (Anzahl der Aktivitäten)Beschreibung
5-20Bevorzugter Bereich beim Start von Process Mining. Einfacher Prozess zur Bereitstellung von Insights-Informationen.
20-50Expertenbereich. Erweitern mit klaren Varianten.
50-100Am nützlichsten, wenn klare Varianten vorhanden sind. Dies bedeutet etwas verwandte Prozesse, aber in erster Linie für sich allein.
100+Es wird empfohlen, in Teilprozesse aufzuteilen.
Hinweis:

Das Herausfiltern von Aktivitäten vereinfacht Ihren Prozess und macht ihn verständlicher. Beachten Sie, dass dabei auch Informationen oder Details verloren gehen können.

Nachfolgend finden Sie einige Vorschläge zum Filtern von Daten:

  • Nicht verwandte Aktivitäten: Aktivitäten, die sich nicht direkt auf den Prozess auswirken, können herausgefiltert werden.
  • Sekundäre Aktivitäten: Einige Aktivitäten, z. B. eine Änderungsaktivität, können überall im Prozess stattfinden. Diese sprengen eine Reihe von Varianten erheblich.
  • Minimal auftretende Ereignisse: Ereignisse, die in Ihrem Dataset nur wenige Male auftreten, können herausgefiltert werden.
  • Kleinerer Prozess: Analysieren Sie nur einen Unterprozess.
  • Gruppieren von Aktivitäten: Einige Aktivitäten in Ihrem Dataset ähneln möglicherweise eher kleinen Aufgaben, die zusammen eine Aktivität darstellen, die für das Unternehmen sinnvoller ist. Das Gruppieren erfordert eine gewisse Logik im Connector und kann zu überlappenden Aktivitäten führen.
  • Verwenden Sie innerhalb der Leistung des Connectors nach Möglichkeit den Connector , um Aktivitäten herauszufiltern. Auf diese Weise können Änderungen einfach rückgängig gemacht oder Aktivitäten wieder hinzugefügt werden. Vermeiden Sie das Herausfiltern von Aktivitäten bei der Datenextraktion oder dem Laden von Daten.

Ausreißer entfernen

Wenn es einen Fall mit vielen Ereignissen gibt (Ausreißer), wirkt sich dies auf einige Ausdrücke aus, die Aggregate auf Ereignisebene berechnen. Der Filter für Dashboard-Elemente von/zu wird davon beeinflusst und kann zeitaufwändig sein, wenn Sie diese Ausreißer haben. Es wird empfohlen, diese Fälle im Connector herauszufiltern, um sie aus dem Dataset zu entfernen.

Hinweis:

Dies wirkt sich auf die Metriken aus. Sie sollten Ausreißer nur in Übereinstimmung mit dem Geschäftsanwender entfernen.

Fokus auf Ausreißer

In anderen Fällen können die Ausreißer der Schlüsselbereich sein, auf den man sich konzentrieren sollte. Wenn Ihr Prozess gut läuft oder Sie Six Sigma-Methoden anwenden, möchten Sie sich auf die Dinge konzentrieren, die schief gehen. Anstatt alle Fälle anzuzeigen, die fehlerfrei verlaufen, zeigen Sie nur die Fälle an, die fehlschlagen.

Siehe Abbildung unten.

Verringern der Größe des Datasets

Im Connector können Sie Attribute mit vielen Details entfernen. Zum Beispiel lange Zeichenfolgen im Attribut Ereignisdetail .

Wenn die Entwicklung abgeschlossen ist, können viele nicht verwendete Attribute in Ihrem Dataset verbleiben. Es wird empfohlen, nur die Verfügbarkeit der Attribute, die im Ausgabe-Dataset des Connectors verwendet werden, auf die Öffentliche festzulegen. Legen Sie die Verfügbarkeit anderer Attribute auf privat fest.

Voraggregation

Die Voraggregation ist eine Technik, die von vielen BI-Tools verwendet wird, um Einblicke in große Datenmengen zu gewinnen. Dabei werden Daten über bestimmte Attribute aggregiert, um die Anzahl der Datensätze in einem Dataset zu reduzieren. In BI würde dies normalerweise den Wert jedes Lieferanten summieren, sodass nur ein Datensatz für jeden Lieferanten vorhanden ist.

Siehe Abbildung unten.

Process Mining erfordert mehr Konfiguration, aber ein Ausgangspunkt besteht darin, nur Prozessvarianten zu aggregieren. Für jede Variante hätten Sie einen Falldatensatz und eine zugehörige Anzahl von Ereignissen. Dadurch kann das Datenvolumen erheblich reduziert werden.

Um korrekte Ergebnisse anzuzeigen, müssten Sie auch anzeigen, wie viele Datensätze jede Variante darstellt. Für die Ereignisenden könnten Sie eine durchschnittliche Dauer jedes Ereignisses verwenden. Die Aggregation nur mithilfe von Varianten ist möglicherweise zu hoch, daher ist es ratsam, die gängigsten Filter zu überprüfen, z. B. eine Kombination von Varianten, Falltyp und Monat des Fallendes (um Trends im Zeitverlauf anzuzeigen).

Das Hinzufügen von Attributen wirkt sich jedoch quadratisch auf die Anzahl der Datensätze aus, sodass dies eine sorgfältige Abwägung zwischen Leistung und Anwendungsfall erfordert.

Die Voraggregation eignet sich am besten, um einen Überblick über Ihren Prozess zu erhalten und allgemeine Trends zu erkennen.

Stichproben

Die Stichprobenziehung ist eine Technik, bei der Sie einen Prozentsatz der Fälle und ihrer Ereignisse nehmen, die in einem bestimmten Zeitraum auftreten. Sie können beispielsweise festlegen, dass nur 10 % aller Fälle und deren Ereignisse angezeigt werden. Auf diese Weise haben Sie immer noch Ausnahmen oder Ausreißer, da jeder Fall mit einer ähnlichen Wahrscheinlichkeit im Dataset angezeigt wird.

Siehe Abbildung unten.

Kaskadierte Abtastung

Die kaskadierte Stichprobe ist eine Technik, bei der der Stichprobenprozentsatz im Laufe der Zeit um einen bestimmten Prozentsatz sinkt. Ein Beispiel dafür zeigt 100 % der Daten der letzten Woche, 90 % der Daten vor zwei Wochen, 80 % der Daten vor drei Wochen usw.

Datenfreigabe

Data Sharding ist eine Technik der Data Scoping-Lösung, mit der Unternehmen die Daten in mehrere Datasets aufteilen können, anstatt nur einen Teil abzuschneiden. Dieses Setup erfordert eine zusätzliche Konfiguration, da die Anwendung mithilfe von Modulen aufgeteilt werden muss und mehrere kleinere Datasets aus dem Connector exportiert werden müssen.

Beim Daten-Sharding wird das ursprüngliche Dataset in mehrere Shards unterteilt. Je kleiner jeder Shard ist, desto schneller ist er. Wenn sich ein Benutzer bei der Anwendung anmeldet, wird nur der entsprechende Daten-Shard geladen.

Eine typische Einheit für das Sharding wäre „Unternehmenscode“ oder „Abteilung“. Bei beispielsweise 50 Unternehmenscodes enthält jeder Shard einen Unternehmenscode und ist im Wesentlichen etwa 50-mal schneller als das ursprüngliche Dataset.

In der folgenden Abbildung finden Sie eine Übersicht über das Sharding.

War diese Seite hilfreich?

Verbinden

Benötigen Sie Hilfe? Support

Möchten Sie lernen? UiPath Academy

Haben Sie Fragen? UiPath-Forum

Auf dem neuesten Stand bleiben