Process Mining
2021.10
False
Bannerhintergrundbild
Process Mining
Letzte Aktualisierung 2. Apr. 2024

Data Volume

Einleitung

Die Datenmenge steht immer in einem direkten Kompromiss mit der Leistung. Process Mining ist von Natur aus besessen von Details, um die Prozessdiagramme zu erstellen.

All diese eindeutigen Zeitstempel wirken sich jedoch auf die Leistung aus. Im Allgemeinen gibt es theoretische Grenzen, denen sich alle Process Mining-Tools und alle In-Memory-Tools nähern.

Benutzertypen

Wir unterscheiden klar zwischen der Leistung der Daten, die für eine Anwendung und den Connectorverwendet werden. Obwohl sie dieselbe Plattform verwenden, gibt es einige Unterschiede, z. B. was für die Benutzer (Entwickler oder Endbenutzer) akzeptabel ist und welche Art von Aktionen ausgeführt wird.

Große Datenmengen können sich sowohl auf den Connector als auch auf die Anwendungauswirken, aber alle können im Connectorgelöst werden.

Data Volume

Die Leistung, die Endbenutzer erleben werden, hängt direkt mit dem Datenvolumen zusammen. Das Datenvolumen wird durch die Anzahl der Zeilen in den größten Tabellen bestimmt. Im Allgemeinen bestimmt nur die Anzahl der Zeilen die Leistung der Endbenutzer. Die Anzahl der Spalten ist nur ein Faktor, wenn die Daten aus der Datenbank geladen werden.

Ideal wären Prozesse mit etwa 5.000.000 (5 Mio.) Fällen und bis zu etwa 50.000.000 (50 Mio.) Ereignissen pro Prozess. Bei mehr Fällen und Ereignissen dauert das Analysieren der Daten und das Anzeigen der Visualisierung länger.

Die UiPath Process Mining- Plattform funktioniert weiterhin, aber wenn große Datenmengen eingefügt werden, kann die Reaktionsgeschwindigkeit sinken. Es wird empfohlen, die Datenmenge zuvor zu überprüfen. Wenn sie die oben genannten Zahlen überschreitet, wird empfohlen, das Dataset zu optimieren oder einzuschränken.

Detaillierungsgrad

Eine höhere Detailebene erfordert eine längere Reaktionszeit, was sich auf die Leistung auswirkt.

Der genaue Kompromiss zwischen Datenmenge, Detaillierungsgrad und Wartezeit muss mit den Endbenutzern besprochen werden. Manchmal können historische Daten sehr wichtig sein, aber oft werden nur die letzten Jahre benötigt.

Ein weiterer Faktor sind die eindeutigen Werte in Ihren Spalten. UiPath Process Mining verwendet eine proprietäre Methode, um die Größe der *.mvn -Dateien auf ein Minimum zu reduzieren. Dies funktioniert gut bei ähnlichen Werten. Viele eindeutige Werte für ein Attribut wirken sich auch auf die Leistung aus, z. B. Ereignisdetails.

Lösungen

Es gibt zwei Hauptlösungsrichtungen für den Umgang mit großen Datenmengen:

  • Optimierung;
  • Datenminimierung.

Die Optimierung umfasst die Anpassungen, die Superadmins vornehmen können, um das Rendern der Dashboards zu beschleunigen. Dies kann erreicht werden, indem die Anwendungseinstellungen an das jeweilige Dataset angepasst werden (weitere Informationen finden Sie unter Anwendungsdesign).

In diesem Abschnitt werden die verschiedenen Techniken zur Datenminimierung beschrieben, die Sie anwenden können, um die für den Endbenutzer sichtbaren Daten zu reduzieren, die auf die jeweilige Geschäftsfrage zugeschnitten sind.

Die hier beschriebenen Techniken können nebeneinander existieren oder sogar kombiniert werden, um die Vorteile mehrerer Techniken zu nutzen. Darüber hinaus können Sie eine Anwendung ohne Datenminimierung neben minimierten Anwendungen beibehalten, da die Detailgenauigkeit manchmal für bestimmte Analysen erforderlich sein kann, bei denen eine geringere Leistung akzeptabel ist.

Datenbereich

Die Begrenzung der Anzahl der Datensätze, die im Tour-Dataset angezeigt werden, verbessert nicht nur die Leistung der Anwendung, sondern auch die Verständlichkeit des Prozesses und damit die Akzeptanz durch das Unternehmen.

Der Bereich der Daten kann im Connector festgelegtwerden.

Eine der Optionen für die Bereichsbestimmung besteht darin, den zu untersuchenden Zeitrahmen einzuschränken, indem Datumsangaben oder Zeiträume herausgefiltert werden. Sie können beispielsweise den Zeitrahmen von 10 Jahren auf ein Jahr begrenzen. Oder von 1 Jahr bis zu einem Monat. Siehe Abbildung unten.



Eine begrenzte Anzahl von Aktivitäten wird empfohlen, insbesondere zu Beginn von Process Mining. Von dort aus können Sie sich aufbauen, wenn das Know-how zunimmt.

Nachfolgend finden Sie eine Richtlinie für das Spektrum der Aktivitäten:

Bereich (Anzahl der Aktivitäten)

Beschreibung

5-20

Bevorzugter Bereich, wenn Sie mit Process Mining beginnen.

Einfacher Prozess, um Insight-Informationen bereitzustellen.

20-50

Expertenbereich. Erweitern mit klaren Varianten.

50-100

Am nützlichsten, wenn klare Varianten vorhanden sind. Dies bedeutet etwas verwandte Prozesse, aber in erster Linie für sich allein.

100+

Es wird empfohlen, in Teilprozesse aufzuteilen.

Hinweis: Das Herausfiltern von Aktivitäten vereinfacht Ihren Prozess und macht ihn verständlicher. Beachten Sie, dass Sie möglicherweise auch Informationen oder Details verlieren.

Nachfolgend finden Sie einige Vorschläge zum Filtern von Daten:

  • Nicht verwandte Aktivitäten: Aktivitäten, die sich nicht direkt auf den Prozess auswirken, können herausgefiltert werden.
  • Sekundäre Aktivitäten: Einige Aktivitäten, z. B. eine Änderungsaktivität, können überall im Prozess stattfinden. Diese sprengen eine Reihe von Varianten erheblich.
  • Minimal auftretende Ereignisse: Ereignisse, die in Ihrem Dataset nur wenige Male auftreten, können herausgefiltert werden.
  • Kleinerer Prozess: Analysieren Sie nur einen Unterprozess.
  • Gruppieren von Aktivitäten: Einige Aktivitäten in Ihrem Dataset ähneln möglicherweise eher kleinen Aufgaben, die zusammen eine Aktivität darstellen, die für das Unternehmen sinnvoller ist. Das Gruppieren erfordert eine gewisse Logik im Connector und kann zu überlappenden Aktivitäten führen.
  • Verwenden Sie nach Möglichkeit innerhalb der Leistung des Connectorsden Connector , um Aktivitäten herauszufiltern. Auf diese Weise können alle Änderungen einfach rückgängig gemacht oder Aktivitäten wieder hinzugefügt werden. Vermeiden Sie das Herausfiltern von Aktivitäten bei der Datenextraktion oder beim Laden von Daten.

Ausreißer entfernen

Wenn es einen Fall mit vielen Ereignissen (Ausreißer) gibt, wirkt sich dies auf einige Ausdrücke aus, die Aggregate auf Ereignisebene berechnen. Der Von/Bis-Dashboard-Elementfilter ist davon betroffen und kann zeitaufwändig sein, um zu berechnen, ob Sie diese Ausreißer haben. Es wird empfohlen, diese Fälle im Connector herauszufiltern, um sie aus dem Dataset zu entfernen.

Hinweis: Dies wirkt sich auf Metriken aus. Sie sollten Ausreißer nur in Übereinstimmung mit dem Geschäftsbenutzer entfernen.

Fokus auf Ausreißer

In anderen Fällen können die Ausreißer der Schlüsselbereich sein, auf den man sich konzentrieren sollte. Wenn Ihr Prozess gut läuft oder Sie Six Sigma-Methoden anwenden, möchten Sie sich auf die Dinge konzentrieren, die schief gehen. Anstatt alle Fälle anzuzeigen, die fehlerfrei verlaufen, zeigen Sie nur die Fälle an, die fehlschlagen.

Siehe Abbildung unten.



Verringern der Größe des Datasets

Im Connector können Sie Attribute mit vielen Details entfernen. Zum Beispiel lange Zeichenfolgen im Attribut „Ereignisdetails“ .

Wenn die Entwicklung abgeschlossen ist, können viele nicht verwendete Attribute in Ihrem Dataset landen. Es wird empfohlen, nur die Verfügbarkeit der Attribute, die im Ausgabe-Dataset des Connectors verwendet werden, für die Öffentlichkeit festzulegen. Legen Sie die Verfügbarkeit anderer Attribute auf privat fest.

Voraggregation

Die Voraggregation ist eine Technik, die von vielen BI-Tools verwendet wird, um Einblicke in große Datenmengen zu gewinnen. Dabei werden Daten über bestimmte Attribute aggregiert, um die Anzahl der Datensätze in einem Dataset zu reduzieren. In BI würde dies normalerweise den Wert jedes Lieferanten summieren, sodass nur ein Datensatz für jeden Lieferanten vorhanden ist.

Siehe Abbildung unten.



Process Mining erfordert mehr Konfiguration, aber ein Ausgangspunkt besteht darin, nur Prozessvarianten zu aggregieren. Für jede Variante hätten Sie einen Falldatensatz und eine zugehörige Anzahl von Ereignissen. Dadurch kann das Datenvolumen erheblich reduziert werden.

Um korrekte Ergebnisse anzuzeigen, müssten Sie auch anzeigen, wie viele Datensätze jede Variante darstellt. Für die Ereignisenden könnten Sie eine durchschnittliche Dauer jedes Ereignisses verwenden. Die Aggregation nur mithilfe von Varianten ist möglicherweise zu hoch, daher ist es ratsam, die gängigsten Filter zu überprüfen, z. B. eine Kombination von Varianten, Falltyp und Monat des Fallendes (um Trends im Zeitverlauf anzuzeigen).

Das Hinzufügen von Attributen wirkt sich jedoch quadratisch auf die Anzahl der Datensätze aus, sodass dies eine sorgfältige Abwägung zwischen Leistung und Anwendungsfall erfordert.

Die Voraggregation eignet sich am besten, um einen Überblick über Ihren Prozess zu erhalten und allgemeine Trends zu erkennen.

Stichproben

Die Stichprobenziehung ist eine Technik, bei der Sie einen Prozentsatz der Fälle und ihrer Ereignisse nehmen, die in einem bestimmten Zeitraum auftreten. Sie können beispielsweise festlegen, dass nur 10 % aller Fälle und deren Ereignisse angezeigt werden. Auf diese Weise haben Sie immer noch Ausnahmen oder Ausreißer, da jeder Fall mit einer ähnlichen Wahrscheinlichkeit im Dataset angezeigt wird.

Siehe Abbildung unten.



Kaskadierte Abtastung

Die kaskadierte Stichprobe ist eine Technik, bei der der Stichprobenprozentsatz im Laufe der Zeit um einen bestimmten Prozentsatz sinkt. Ein Beispiel dafür zeigt 100 % der Daten der letzten Woche, 90 % der Daten vor zwei Wochen, 80 % der Daten vor drei Wochen usw.

Datenfreigabe

Data Sharding ist eine Technik der Data Scoping-Lösung, mit der Unternehmen die Daten in mehrere Datasets aufteilen können, anstatt nur einen Teil abzuschneiden. Dieses Setup erfordert eine zusätzliche Konfiguration, da die Anwendung mithilfe von Modulen aufgeteilt werden muss und mehrere kleinere Datasets aus dem Connector exportiert werden müssen.

Beim Daten-Sharding wird das ursprüngliche Dataset in mehrere Shards unterteilt. Je kleiner jeder Shard ist, desto schneller ist er. Wenn sich ein Benutzer bei der Anwendung anmeldet, wird nur der entsprechende Daten-Shard geladen.

Eine typische Einheit für das Sharding ist „Company code“ oder „Department“. Bei 50 Buchungskreisen enthält jeder Shard beispielsweise einen Buchungskreis und ist im Wesentlichen etwa 50-mal schneller als das ursprüngliche Dataset.

In der folgenden Abbildung finden Sie eine Übersicht über das Sharding.



War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
UiPath Logo weiß
Vertrauen und Sicherheit
© 2005-2024 UiPath. All rights reserved.