Process Mining
2021.10
False
Image de fond de la bannière
Process Mining
Dernière mise à jour 2 avr. 2024

Data Volume

Introduction

La quantité de données sera toujours directement liée aux performances. Le Process Mining est intrinsèquement obsédé par les détails pour construire les graphiques de processus.

Cependant, le fait d’avoir tous ces horodatages uniques a un impact sur les performances. En général, il existe des limites théoriques que tous les outils de Process Mining et tous les outils en mémoire approchent.

Types d'utilisateurs

Nous faisons une distinction claire entre les performances des données utilisées pour une Application et le Connecteur. Bien qu'ils utilisent la même plate-forme, il existe quelques différences, par exemple ce qui est acceptable pour les utilisateurs (développeurs contre utilisateurs finaux) et le type d'actions effectuées.

De grandes quantités de données peuvent avoir un impact sur le connecteur et l' application, mais toutes peuvent être résolues dans le connecteur.

Data Volume

Les performances que les utilisateurs finaux connaîtront sont directement liées au volume de données. Le volume de données est déterminé par le nombre de lignes dans les plus grandes tables. En général, seul le nombre de lignes détermine les performances des utilisateurs finaux. Le nombre de colonnes n'est un facteur que lorsque les données sont chargées à partir de la base de données.

Des processus avec environ 5 000 000 (5 millions) de cas et jusqu'à environ 50 000 000 (50 millions) d'événements par processus seraient idéaux. Avec plus de cas et d'événements, l'analyse des données et l'affichage de la visualisation prendront plus de temps.

La plate-forme UiPath Process Mining continuera à fonctionner, cependant, lorsque de grandes quantités de données sont insérées, la vitesse de réaction peut diminuer. Il est recommandé de vérifier la quantité de données au préalable. S'il dépasse les nombres ci-dessus, il est conseillé d'envisager d'optimiser ou de limiter l'ensemble de données.

Niveau de détail

Un niveau de détail plus élevé nécessitera un temps de réponse plus long, ce qui aura un impact sur les performances.

Le compromis exact entre la quantité de données, le niveau de détail et le temps d'attente doit être discuté avec les utilisateurs finaux. Parfois, les données historiques peuvent être très importantes, mais souvent, seules les dernières années sont nécessaires.

Les valeurs uniques que vous avez dans vos colonnes sont un autre facteur. UiPath Process Mining utilise une méthode propriétaire pour réduire au minimum la taille des fichiers *.mvn . Cela fonctionne bien pour les valeurs similaires. Un grand nombre de valeurs uniques pour un attribut auront également un impact sur les performances, par exemple détail de l'événement.

Solutions

Il existe deux solutions principales pour traiter de gros volumes de données :

  • Optimisation
  • minimisation des données.

L'optimisation implique les ajustements que les superadministrateurs peuvent effectuer pour accélérer le rendu des tableaux de bord, ce qui peut être réalisé en adaptant les paramètres de l'application à l'ensemble de données spécifique (voir Conception de l'application pour plus d'informations).

Cette section décrit la minimisation des données, qui sont les différentes techniques que vous pouvez utiliser pour réduire les données visibles par l'utilisateur final, adaptées à la question métier spécifique.

Les techniques décrites ici peuvent coexister ou même être combinées pour tirer parti des avantages de plusieurs techniques. En outre, vous pouvez conserver une application sans minimisation des données à côté des applications minimisées, car le niveau de détail peut parfois être requis pour des analyses spécifiques où des performances plus lentes sont acceptables.

Étendue des données

La limitation du nombre d'enregistrements qui apparaîtront dans l'ensemble de données de tournée améliorera non seulement les performances de l'application, mais améliorera également la compréhensibilité du processus et, à son tour, améliorera l'acceptation par l'entreprise.

La définition de la portée des données peut être effectuée dans le Connecteur.

L’une des options de définition de la portée consiste à limiter la période de recherche en filtrant les dates ou les périodes. Par exemple, vous pouvez limiter la période de 10 ans à un an. Ou de 1 an à un mois. Voir l'illustration ci-dessous.



Un nombre limité d’activités est conseillé, en particulier au début de tout effort de Process Mining. À partir de là, vous pouvez vous développer au fur et à mesure que l’expertise commence à monter en puissance.

Vous trouverez ci-dessous une ligne directrice pour la gamme d’activités :

Plage (nombre d’activités)

Description

5-20

Plage préférée lors du démarrage du Process Mining.

Processus simple pour donner des informations perspicaces.

20-50

Gamme Expert. Extension avec des variantes claires.

50-100

Plus utile s'il existe des variantes claires. Cela signifie des processus quelque peu liés, mais principalement isolés.

100+

Il est conseillé de diviser en sous-processus.

Remarque : le filtrage des activités simplifiera votre processus et le rendra plus compréhensible. Sachez que vous pouvez également perdre des informations ou des détails.

Voici quelques suggestions pour filtrer les données :

  • Activités non liées : les activités qui n'ont pas d'impact direct sur le processus peuvent être filtrées.
  • Activités secondaires : certaines activités, c'est-à-dire une activité de changement, peuvent avoir lieu n'importe où dans le processus. Celles-ci explosent considérablement un certain nombre de variantes.
  • Événements à occurrence minimale : les événements qui ne se produisent que quelques fois dans votre ensemble de données peuvent être filtrés.
  • Plus petit processus : analyse uniquement un sous-processus.
  • Regrouper les activités : certaines activités de votre ensemble de données peuvent ressembler davantage à de petites tâches, qui représentent ensemble une activité qui a plus de sens pour l’entreprise. Les regrouper nécessitera une certaine logique dans le connecteur et peut entraîner un chevauchement des activités.
  • Si possible, dans le cadre des performances du Connecteur, utilisez le Connecteur pour filtrer les activités. De cette façon, toutes les modifications peuvent être facilement annulées ou des activités peuvent être rajoutées. Évitez de filtrer les activités lors de l'extraction ou du chargement des données.

Supprimer les valeurs aberrantes

S'il existe un cas avec beaucoup d'événements (valeur aberrante), cela aura un impact sur certaines expressions qui calculent les agrégats au niveau de l'événement. Le filtre des éléments de tableau de bord de/vers est affecté par cela et peut prendre beaucoup de temps à calculer si vous avez ces valeurs aberrantes. Il est recommandé de filtrer ces cas dans le connecteur pour les retirer de l'ensemble de données.

Remarque : cela a un impact sur les métriques. Vous ne devez supprimer les valeurs aberrantes qu’en fonction de l’utilisateur professionnel.

Se concentrer sur les valeurs aberrantes

Dans d’autres cas, les valeurs aberrantes peuvent être le domaine clé sur lequel se concentrer. Si votre processus se déroule bien ou si vous adoptez les méthodologies Six Sigma, vous voulez vous concentrer sur les problèmes. Au lieu d'afficher tous les incidents qui vont bien, vous n'affichez que les incidents qui vont mal.

Voir illustration ci-dessous.



Réduction de la taille de l'ensemble de données

Dans le Connecteur, vous pouvez supprimer les attributs qui ont beaucoup de détails. Par exemple, de longues chaînes dans l'attribut Détail de l'événement .

Une fois le développement terminé, de nombreux attributs inutilisés peuvent se retrouver dans votre ensemble de données. Il est recommandé de définir uniquement la disponibilité des attributs utilisés dans l'ensemble de données de sortie du connecteur pour le public. Définissez la disponibilité des autres attributs sur privé.

Pré-agrégation

La pré-agrégation est une technique utilisée par de nombreux outils de BI pour obtenir des informations sur de gros volumes de données. Cela implique d'agréger des données sur des attributs spécifiques pour réduire le nombre d'enregistrements dans un ensemble de données. Dans la BI, cela consiste généralement à additionner la valeur de chaque fournisseur, vous n'avez donc qu'un seul enregistrement pour chaque fournisseur.

Voir illustration ci-dessous.



Le Process Mining nécessite plus de configuration, mais le point de départ consiste à ne regrouper que sur les variantes de processus. Pour chaque variante, vous auriez un enregistrement de cas et un nombre d'événements associé. Cela peut réduire considérablement les volumes de données.

Pour afficher des résultats corrects, vous devez également afficher le nombre d'enregistrements représentés par chaque variante. Pour la fin de l'événement, vous pouvez utiliser une durée médiane de chaque événement. L'agrégation uniquement à l'aide de variantes peut être trop élevée. Il serait donc judicieux de vérifier les filtres les plus couramment utilisés, par exemple une combinaison de variantes, de type de cas et de mois de fin de cas (pour afficher les tendances au fil du temps).

Cependant, l'ajout d'attributs a un effet quadratique sur le nombre d'enregistrements. Cela nécessite donc un équilibre judicieux entre les performances et le cas d'utilisation.

La pré-agrégation est particulièrement utile pour obtenir un aperçu de votre processus et repérer les tendances générales.

Échantillonnage

L’échantillonnage est une technique dans laquelle vous prenez un pourcentage des cas et de leurs événements se produisant au cours d’une période spécifique. Vous pouvez, par exemple, définir que seuls 10 % de tous les incidents et leurs événements soient affichés. De cette façon, vous avez toujours des exceptions ou des valeurs aberrantes, car chaque cas a une chance similaire d’apparaître dans l’ensemble de données.

Voir illustration ci-dessous.



Échantillonnage en cascade

L’échantillonnage en cascade est une technique selon laquelle le pourcentage d’échantillonnage diminue avec le temps d’un certain pourcentage. Un exemple montre 100 % des données de la semaine dernière, 90 % des données d’il y a deux semaines, 80 % des données d’il y a trois semaines, et ainsi de suite.

Partage des données

Le data sharding est une technique de la solution de définition de la portée des données, qui permet aux organisations de diviser les données en plusieurs ensembles de données, plutôt que de simplement en découper une partie. Cette configuration nécessite une configuration supplémentaire, car l'application doit être fractionnée à l'aide de modules et plusieurs ensembles de données plus petits doivent être exportés à partir du connecteur.

Avec le partitionnement des données, l'ensemble de données d'origine est divisé en plusieurs partitions. Plus chaque partition est petite, plus elle sera rapide. Lorsqu'un utilisateur se connecte à l'application, seule la partition de données applicable est chargée.

Une unité typique de partitionnement serait « Company code » ou « Department ». Par exemple, dans le cas de 50 sociétés, chaque partition contiendra une société et sera environ 50 fois plus rapide que l'ensemble de données d'origine.

Consultez l’illustration ci-dessous pour obtenir un aperçu du partitionnement.



Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Logo Uipath blanc
Confiance et sécurité
© 2005-2024 UiPath. All rights reserved.