Process Mining – Bearbeiten von Transformationen

process-mining

2022.10

false

Process Mining

Wichtig :

Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Editing transformations

Dbt-Projekte

Datentransformationen werden verwendet, um Eingabedaten in Daten umzuwandeln, die für Process Mining geeignet sind. Die Transformationen in Process Mining werden als dbt- Projekte geschrieben.

Auf diesen Seiten wird dbt eingeführt. Ausführliche Informationen finden Sie in der offiziellen dbt-Dokumentation.

pm-utils package

Process Mining- App-Vorlagen enthalten ein dbt- Paket namens pm_utils. Dieses pm-utils -Paket enthält Dienstprogrammfunktionen und Makros für Process Mining- dbt- Projekte. Weitere Informationen zu pm_utils finden Sie unter ProcessMining-pm-utils.

Aktualisieren der PM-utils-Version, die für Ihre App-Vorlage verwendet wird

UiPath® verbessert das pm-utils -Paket ständig durch neue Funktionen.

Wenn eine neue Version des pm-utils -Pakets veröffentlicht wird, wird Ihnen empfohlen, die in Ihren Transformationen verwendete Version zu aktualisieren, um sicherzustellen, dass Sie die neuesten Funktionen und Makros des pm-utils -Pakets nutzen.

Sie finden die Versionsnummer der neuesten Version des Pakets pm-utils im Bereich Versionen der ProcessMining -pm-utils.

Führen Sie die folgenden Schritte aus, um die pm-utils -Version in Ihren Transformationen zu aktualisieren.

Laden Sie den Quellcode (ZIP) aus der Version von pm-utils herunter.
Extrahieren Sie die zip -Datei, und benennen Sie den Ordner in pm_utils um.
Exportieren Sie Transformationen aus dem Inline- Datentransformations -Editor und extrahieren Sie die Dateien.
Ersetzen Sie den Ordner pm_utils aus den exportierten Transformationen durch den neuen Ordner pm_utils .
Zippen Sie die Inhalte der Transformationen erneut und importieren Sie sie in den Datentransformations- Editor.

Ordnerstruktur

Die Transformationen einer Prozess-App bestehen aus einem dbt- Projekt. Nachfolgend finden Sie eine Beschreibung des Inhalts eines dbt- Projektordners.

Ordner/Datei	Enthält
`dbt_packages\`	das `pm_utils` -Paket und seine Makros.
`logs\`	Protokolle, die beim Ausführen von dbterstellt werden.
`macros\`	benutzerdefinierte Makros.
`models\`	`.sql` -Dateien, die die Transformationen definieren.
`models\schema\`	`.yml` -Dateien, die Tests für die Daten definieren.
`seed`	`.csv` -Dateien mit Konfigurationseinstellungen.
`dbt_project.yml`	die Einstellungen des dbt-Projekts.

Siehe Abbildung unten.

Datentransformationen

Die Datenumwandlungen sind in .sql -Dateien im Verzeichnis models\ definiert. Die Datenumwandlungen sind in einem Standardsatz von Unterverzeichnissen organisiert:

1_input,
2_objects,
3_events,
4_event_logs,
5_business_logic.

Sehen Sie sich Struktur von Transformationen an.

Die .sql -Dateien sind in Jinja SQL geschrieben, sodass Sie Jinja-Anweisungen in einfache SQL-Abfragen einfügen können. Wenn dbt alle .sql -Dateien ausführt, führt jede .sql -Datei zu einer neuen Ansicht oder Tabelle in der Datenbank.

Normalerweise haben die .sql -Dateien die folgende Struktur:

With-Anweisungen: Eine oder mehrere with-Anweisungen zum Einschließen der erforderlichen Untertabellen.
- {{ ref(‘My_table) }} verweist auf eine Tabelle, die durch eine andere SQL-Datei definiert ist Datei.
- {{ source(var("schema_sources"), 'My_table') }} verweist auf eine Eingabetabelle.
Hauptabfrage: Die Abfrage, die die neue Tabelle definiert.
Letzte Abfrage: Normalerweise wird eine Abfrage wie Select * from table am Ende verwendet. Dadurch ist es einfach, während des Debuggens Unterauswahlen zu treffen.

Weitere Tipps zum effektiven Schreiben von Transformationen finden Sie unter Tipps zum Schreiben von SQL

Hinzufügen von Quelltabellen

Um dem dbt -Projekt eine neue Quelltabelle hinzuzufügen, muss sie in models\schema\sources.yml aufgeführt sein. Auf diese Weise können andere Modelle darauf verweisen, indem sie {{ source(var("schema_sources"), 'My_table_raw') }} verwenden. Ein Beispiel finden Sie in der Abbildung unten.

Wichtig: Jede neue Quelltabelle muss in sources.yml aufgeführt sein.

Hinweis:

Das Suffix _raw wird beim Laden von Daten zu den Tabellennamen der Quelltabellen hinzugefügt. Beispielsweise sollte eine Tabelle mit dem Namen my_table als my_table_rawbezeichnet werden.

Ausführlichere Informationen finden Sie in der offiziellen dbt-Dokumentation zu Sources.

Datenausgabe

Die Datenumwandlungen müssen das Datenmodell ausgeben, das von der entsprechenden App benötigt wird. jede erwartete Tabelle und jedes Feld muss vorhanden sein.

Praktisch bedeutet dies, dass die Tabellen in models\5_business_logic nicht gelöscht werden sollten. Außerdem sollten die Ausgabefelder in den entsprechenden Abfragen nicht entfernt werden.

Wenn Sie Ihrer Prozess-App neue Felder hinzufügen möchten, können Sie die benutzerdefinierten Felder verwenden, die für die Prozess-App verfügbar sind. Ordnen Sie die Felder in den Transformationen den benutzerdefinierten Feldern zu, damit sie in der Ausgabe verfügbar sind. Stellen Sie sicher, dass die benutzerdefinierten Felder in der Ausgabe wie im Datenmodell der Prozess-App beschrieben benannt sind.

Tipp:

Sie können die dbt docs-Befehle verwenden, um eine Dokumentationsseite für Ihr dbt-Projekt zu generieren und in Ihrem Standardbrowser zu öffnen. Die Dokumentationsseite enthält auch ein Herkunftsdiagramm, das ein Entitätsbeziehungsdiagramm mit einer grafischen Darstellung der Verknüpfungen zwischen den einzelnen Datentabellen in Ihrem Projekt bietet.

Ausführliche Informationen finden Sie in der offiziellen dbt-Dokumentation auf dbt docs.

Makros

Makros machen es einfach, gängige SQL-Konstruktionen wiederzuverwenden. Ausführliche Informationen finden Sie in der offiziellen dbt-Dokumentation zuJinja-Makros.

pm_utils

Das pm-utils -Paket enthält eine Reihe von Makros, die typischerweise in Process Mining-Transformationen verwendet werden. Weitere Informationen zu den pm_utils -Makros finden Sie unter ProcessMining-pm-utils.

Die folgende Abbildung zeigt ein Beispiel für Minja-Code, der das Makro pm_utils.optional() aufruft.

Samen

Seeds sind csv -Dateien, die verwendet werden, um Ihren Transformationen Datentabellen hinzuzufügen. Ausführliche Informationen finden Sie in der offiziellen dbt-Dokumentation zu Chinsisch-Samen.

In Process Miningwird dies normalerweise verwendet, um die Konfiguration von Zuordnungen in Ihren Transformationen zu vereinfachen.

Nach dem Bearbeiten von Seed-Dateien werden diese Dateien nicht sofort automatisch in der Datenbank aktualisiert. Um dbt anzuweisen, den Inhalt der neuen Seed-Datei in die Datenbank zu laden, führen Sie entweder

dbt seed – wodurch nur die Seed-Dateitabellen aktualisiert werden, oder
dbt build – führt auch alle Modelle und Tests aus.

Hinweis: Wenn die Seed-Datei anfangs keine Datensätze hatte, wurden die Datentypen in der Datenbank möglicherweise nicht korrekt festgelegt. Um dies zu beheben, rufen run dbt seed --full-refresh auf. Dadurch wird auch der Spaltensatz in der Datenbank aktualisiert.

Activity configuration

Die activity_configuration.csv -Datei wird verwendet, um zusätzliche Felder im Zusammenhang mit Aktivitäten festzulegen. activity_order wird als Bindungsunterbrechung verwendet, wenn zwei Ereignisse im selben Zeitstempel auftreten. Die folgende Abbildung zeigt ein Beispiel für eine activity_configuration.csv -Datei.

Tests

Der Ordner models\schema\ enthält einen Satz von .yml -Dateien, die Tests definieren. Diese validieren die Struktur und den Inhalt der erwarteten Daten. Ausführliche Informationen finden Sie in der offiziellen dbt-Dokumentation zu Tests.

Wenn die Transformationen in Process Miningausgeführt werden, werden bei jeder Datenaufnahme nur die Tests in sources.yml ausgeführt. Dies geschieht, um zu überprüfen, ob die Eingabedaten richtig formatiert sind.

Hinweis: Stellen Sie beim Bearbeiten von Transformationen sicher, dass die Tests entsprechend aktualisiert werden. Die Tests können bei Bedarf entfernt werden.

Auf dieser Seite

Dbt-Projekte
pm-utils package
Aktualisieren der PM-utils-Version, die für Ihre App-Vorlage verwendet wird
Ordnerstruktur
Datentransformationen
Hinzufügen von Quelltabellen
Datenausgabe
Makros
pm_utils
Samen
Activity configuration
Tests

War diese Seite hilfreich?

Vorherige (previous)Setting up a local test environment

WeiterSQL-Unterschiede zwischen Snowflake und SQL Server