- Notes de publication
- Avant de commencer
- Démarrage
- Gestion de l’accès
- Travailler avec des applications de processus
- Créer des applications de processus
- Chargement des données
- Charger des données
- Retrieving the SQL Server database parameters
- Configuration d'un compte SQL Server pour le chargement de données à l'aide d'un extracteur
- Loading data using Theobald Xtract Universal
- Configuration système requise
- Configurer DataBridgeAgent
- Configuring CData Sync
- Ajouter un connecteur personnalisé à DataBridgeAgent
- Utiliser DataBridgeAgent avec le connecteur SAP pour l'accélérateur de découverte Purchase-to-Pay
- Utiliser DataBridgeAgent avec le connecteur SAP pour l'accélérateur de découverte Order-to-Cash
- Personnaliser les applications de processus
- Transformations de données
- Modèle d’application TemplateOne
- Modèle d’application Purchase to Pay
- Modèle d’application Order to Cash
- Basic troubleshooting guide
Process Mining
Editing transformations
Les transformations de données sont utilisées pour transformer les données d'entrée en données adaptées à Process Mining. Les transformations dans Process Mining sont écrites en tant que projets dbt .
Cette page donne une introduction à dbt. Pour plus d'informations, consultez la documentation officielle de dbt.
pm_utils
. Ce package pm-utils
contient des fonctions utilitaires et des macros pour les projets dbt Process Mining. Pour plus d'informations sur les pm_utils
, consultez ProcessMining-pm-utils.
pm-utils
en ajoutant de nouvelles fonctions.
pm-utils
est publiée, il est conseillé de mettre à jour la version utilisée dans vos transformations, pour vous assurer que vous utilisez les dernières fonctions et macros du paquet pm-utils
.
pm-utils
dans le panneau Versions ( Releases ) du ProcessMining-pm-utils.
pm-utils
dans vos transformations.
-
Téléchargez le code source (zip) à partir de la version
pm-utils
. -
Extrayez le fichier
zip
et renommez le dossier en pm_utils. -
Exportez les transformations à partir de l'éditeur de transformations de données intégré et extrayez les fichiers.
-
Remplacez le dossier pm_utils des transformations exportées par le nouveau dossier pm_utils .
-
Compressez à nouveau le contenu des transformations et importez-les dans l' éditeur de transformations de données .
Les transformations d'une application de processus consistent en un projet dbt . Vous trouverez ci-dessous une description du contenu d'un dossier de projet dbt .
Dossier/Fichier |
Contient |
---|---|
|
le package
pm_utils et ses macros.
|
|
journaux créés lors de l’exécution de dbt. |
|
macros personnalisées. |
|
.sql qui définissent les transformations.
|
|
.yml qui définissent les tests sur les données.
|
|
.csv avec les paramètres de configuration.
|
|
les paramètres du projet dbt. |
Voir illustration ci-dessous.
.sql
dans le répertoire models\
. Les transformations de données sont organisées dans un ensemble standard de sous-répertoires :
1_input
,2_entities
,3_events
,4_event_logs
,5_business_logic
.
.sql
sont écrits en Jinja SQL, ce qui vous permet d'insérer des instructions Jinja dans des requêtes SQL simples. Lorsque dbt exécute tous les .sql
fichiers, chaque fichier .sql
génère une nouvelle vue ou une nouvelle table dans la base de données.
.sql
ont la structure suivante :
-
Instruction With: une ou plusieurs instructions with pour inclure les sous-tables requises.
{{ ref(‘My_table) }}
fait référence à une table définie par un autre fichier .sql fichier.{{ source(var("schema_sources"), 'My_table') }}
fait référence à une table d'entrée.
- Requête principale: la requête qui définit la nouvelle table.
-
Requête finale: une requête telle que
Select * from table
est généralement utilisée à la fin. Cela facilite la réalisation de sous-sélections lors du débogage.
Pour plus de conseils sur l'écriture efficace des transformations, consultez Conseils pour l'écriture de SQL
models\schema\sources.yml
. De cette façon, d'autres modèles peuvent s'y référer en utilisant {{ source(var("schema_sources"), 'My_table_raw') }}
. Voir l’illustration ci-dessous pour un exemple.
sources.yml
.
Le suffixe _raw est ajouté aux noms de table des tables source lors du chargement des données. Par exemple, une table appelée ma_table doit être appelée ma_table_raw.
Pour plus d'informations, consultez la documentation officielle de dbt sur Sources.
Les transformations de données doivent générer le modèle de données requis par l'application correspondante ; chaque table et chaque champ attendus doivent être présents.
models\5_business_logic
ne doivent pas être supprimées. De plus, les champs de sortie des requêtes correspondantes ne doivent pas être supprimés.
Si vous souhaitez ajouter de nouveaux champs à votre application de processus, vous pouvez utiliser les champs personnalisés disponibles pour l'application de processus. Mappez les champs des transformations aux champs personnalisés pour les rendre disponibles dans la sortie. Assurez-vous que les champs personnalisés sont nommés dans la sortie comme décrit dans le modèle de données de l'application de processus.
dbt docs
pour générer un site de documentation pour votre projet dbt et l'ouvrir dans votre navigateur par défaut. Le site de documentation contient également un graphique de lignage qui fournit un diagramme entité-relation avec une représentation graphique du lien entre chaque table de données de votre projet.
dbt docs
.
Les macros facilitent la réutilisation des constructions SQL courantes. Pour plus d'informations, consultez la documentation officielle de dbt sur les macros Jinja.
pm-utils
contient un ensemble de macros qui sont généralement utilisées dans les transformations Process Mining. Pour plus d'informations sur les macros pm_utils
, consultez ProcessMining-pm-utils.
pm_utils.optional()
.
csv
utilisés pour ajouter des tables de données à vos transformations. Pour des informations détaillées, consultez la documentation officielle de dbt sur les labels jinja.
Dans Process Mining, cela est généralement utilisé pour faciliter la configuration des mappages dans vos transformations.
Après la modification des fichiers de départ, ces fichiers ne sont pas automatiquement mis à jour immédiatement dans la base de données. Pour indiquer à dbt de charger le nouveau contenu du fichier d'origine dans la base de données, exécutez soit
dbt seed
- qui ne mettra à jour que les tables des fichiers d'origine, ou-
dbt build
- qui exécutera également tous les modèles et tests.Remarque : si le fichier d'origine ne contenait aucun enregistrement de données au départ, les types de données dans la base de données n'avaient peut-être pas été définis correctement. Pour résoudre ce problème, appelezrun dbt seed --full-refresh
. Cela mettra également à jour l'ensemble de colonnes dans la base de données.
models\schema\
contient un ensemble de fichiers .yml
qui définissent les tests. Ceux-ci valident la structure et le contenu des données attendues. Pour plus d'informations, consultez la documentation officielle de dbt sur les tests.
sources.yml
sont exécutés à chaque ingestion de données. Cela permet de vérifier si les données d'entrée sont correctement formatées.