Process Mining
2021.10
False
Imagen de fondo del banner
Process Mining
Última actualización 21 de sep. de 2023

Data Volume

Introducción

La cantidad de datos siempre estará en un compromiso directo con el rendimiento. La minería de procesos está intrínsecamente obsesionada con los detalles para construir los gráficos de proceso.

Sin embargo, tener todas estas marcas de tiempo únicas afecta al rendimiento. En general, existen límites teóricos a los que se acercan todas las herramientas de minería de procesos y todas las herramientas en memoria.

Tipos de usuarios

Hacemos una distinción clara entre el rendimiento de los datos utilizados para una aplicación y el conector. Aunque hacen uso de la misma plataforma, existen algunas diferencias, es decir, qué es aceptable para los usuarios (desarrolladores frente a usuarios finales) y el tipo de acciones realizadas.

Grandes cantidades de datos pueden tener un impacto tanto en el Conector como en la Aplicación, pero todo se puede resolver en el Conector.

Data Volume

El rendimiento que los usuarios finales experimentarán está directamente relacionado con el volumen de datos. El volumen de datos está determinado por el número de filas de las tablas más grandes. En general, solo el número de filas determina el rendimiento de la experiencia de los usuarios finales. El número de columnas es solo un factor cuando los datos se cargan desde la base de datos.

Lo ideal serían procesos con aproximadamente 5 000 000 (5 M) de casos y hasta aproximadamente 50 000 000 (50 M) de eventos por proceso. Con más casos y eventos, analizar los datos y mostrar la visualización llevará más tiempo.

La plataforma UiPath Process Mining continuará funcionando; sin embargo, cuando se insertan grandes cantidades de datos, la velocidad de reacción puede disminuir. Se recomienda verificar la cantidad de datos de antemano. Si supera los números anteriores, se recomienda optimizar o limitar el conjunto de datos.

Nivel de detalle

Un mayor nivel de detalle requerirá un mayor tiempo de respuesta, lo que afecta al rendimiento.

La compensación exacta entre la cantidad de datos, el nivel de detalle y el tiempo de espera debe discutirse con los usuarios finales. A veces, los datos históricos pueden ser muy importantes, pero a menudo solo se necesitan los últimos años.

Otro factor son los valores únicos que tiene en sus columnas. UiPath Process Mining utiliza un método patentado para reducir el tamaño de *.mvn archivos al mínimo. Esto funciona bien para valores que son similares. Muchos valores únicos para un atributo también afectarán al rendimiento, por ejemplo, detalle del evento.

Soluciones

Hay dos direcciones principales de solución para tratar con grandes volúmenes de datos:

  • optimización;
  • minimización de datos.

La optimización implica los ajustes que los superadministradores pueden hacer para que los paneles se representen más rápido, lo que se puede lograr adaptando la configuración de la aplicación al conjunto de datos específico (consulte Diseño de aplicaciones para obtener más información).

Esta sección describe la minimización de datos, que son las diferentes técnicas que puede emplear para reducir los datos visibles para el usuario final, adaptadas a la pregunta empresarial específica.

Las técnicas descritas aquí pueden coexistir o incluso combinarse para aprovechar los beneficios de múltiples técnicas. Además, puede mantener una aplicación sin minimización de datos junto con aplicaciones minimizadas porque el nivel de detalle a veces puede ser necesario para análisis específicos donde es aceptable un rendimiento más lento.

Alcance de datos

Limitar el número de registros que se mostrarán en el conjunto de datos del recorrido no solo mejorará el rendimiento de la aplicación, sino que también mejorará la comprensión del proceso y, a su vez, mejorará la aceptación por parte de la empresa.

El ámbito de los datos se puede realizar en el Conector.

Una de las opciones para el ámbito es limitar el intervalo de tiempo que se debe buscar filtrando fechas o períodos. Por ejemplo, podría limitar el período de tiempo de 10 a un año. O de 1 año a un mes. Consulta la siguiente ilustración.



Se recomienda una cantidad limitada de actividades, especialmente al inicio de cualquier esfuerzo de minería de proceso. A partir de ahí, podrá seguir aumentando la experiencia.

A continuación se muestran una guía para la gama de actividades:

Rango (n. ° de actividades)

Descripción

5-20

Rango preferido al comenzar con la minería de procesos.

Proceso simple para proporcionar información detallada.

20-50

Rango experto. Expandiendo con claras variantes.

50-100

Más útil si hay variantes claras. Esto se refiere a procesos algo relacionados, pero principalmente solos.

+100

Se recomienda dividir en subprocesos.

Nota: filtrar actividades simplificará el proceso y lo hará más comprensible. Tenga en cuenta que también puede perder información o detalles.

A continuación se muestran algunas sugerencias para filtrar datos:

  • Actividades no relacionadas: las actividades que no afectan directamente al proceso podrían filtrarse.
  • Actividades secundarias: algunas actividades, por ejemplo, una actividad de cambio, pueden ocurrir en cualquier parte del proceso. Estos hacen explotar significativamente una serie de variantes.
  • Eventos de ocurrencia mínima: los eventos que ocurren solo unas pocas veces en tu conjunto de datos podrían filtrarse.
  • Proceso más pequeño: solo analiza un subproceso.
  • Agrupar actividades: algunas actividades de tu conjunto de datos pueden parecerse más a pequeñas tareas, que juntas representan una actividad que tiene más sentido para la empresa. Agruparlos requerirá cierta lógica en el conector y puede resultar en actividades que se superponen.
  • Si es posible, dentro del rendimiento del Conector, utilícelo para filtrar actividades. De esta manera, cualquier cambio se puede revertir fácilmente o se pueden volver a agregar actividades. Evite filtrar actividades en la extracción o carga de datos.

Eliminar valores atípicos

Si hay un caso con muchos eventos (valor atípico), afectará a algunas expresiones que calculan agregados a nivel de evento. Esto afecta al filtro de elementos del panel Desde / hasta y puede llevar mucho tiempo calcularlos. Se recomienda filtrar estos casos en el Conector para eliminarlos del conjunto de datos.

Nota: Esto afecta a las métricas. Solo debe eliminar los valores extremos de acuerdo con el usuario comercial.

Centrarse en valores extremos

En otros casos, los valores extremos pueden ser el área clave en la que centrarse. Si su proceso va bien o adopta las metodologías Six Sigma, debe centrarse en las cosas que van mal. En lugar de mostrar todos los casos que van bien, solo se muestran los casos que van mal.

Consulta la siguiente ilustración.



Reducir el tamaño del conjunto de datos

En el Conector, puede eliminar atributos que tengan muchos detalles. Por ejemplo, cadenas largas en el atributo Detalles del evento .

Cuando termine de desarrollar, muchos atributos no utilizados pueden terminar en su conjunto de datos. Se recomienda establecer solo la disponibilidad de los atributos que se usan en el conjunto de datos de salida del Conector para el público. Establecer la disponibilidad de otros atributos como privada.

Preagregación

La agregación previa es una técnica que emplean muchas herramientas de BI para obtener información sobre grandes volúmenes de datos. Implica agregar datos sobre atributos específicos para reducir el número de registros en un conjunto de datos. En BI, esto normalmente sería sumar el valor de cada proveedor, por lo que solo hay un registro para cada proveedor.

Consulta la siguiente ilustración.



La minería de procesos requiere más configuración, pero un punto de partida es agregar solo variantes de proceso. Para cada variante tendría un registro de caso y un número relacionado de eventos. Esto puede reducir significativamente los volúmenes de datos.

Para mostrar los resultados correctos, también tendría que mostrar cuántos registros representa cada variante, para los fines del evento se podría usar una duración media de cada evento. Agregar solo usando variantes puede ser demasiado alto, por lo que sería aconsejable comprobar los filtros utilizados más habitualmente, p. Ej., Una combinación de variantes, el tipo de caso y el mes de finalización del caso (para mostrar las tendencias en el tiempo).

Sin embargo, agregar atributos tiene un efecto cuadrático en el número de registros, por lo que esto requiere un equilibrio cuidado entre el rendimiento y el caso de uso.

La agregación previa es más aplicable para obtener una visión general del proceso y detectar tendencias generales.

Muestra

El muestrario es una técnica en la que se toma un porcentaje de los casos y sus eventos que ocurren en un período específico. Por ejemplo, puede configurar que solo se muestre el 10% de todos los casos y sus eventos. De esta manera, seguirá teniendo excepciones o valores extremos, ya que cada caso tiene una probabilidad similar de aparecer en el conjunto de datos.

Consulta la siguiente ilustración.



Muestreo en cascada

El muestrario en cascada es una técnica en la que el porcentaje de muestra cae con el tiempo en un cierto porcentaje. Un ejemplo de esto muestra el 100% de los datos de la semana pasada, el 90% de los de hace dos semanas, el 80% de los de tres semanas, y así sucesivamente.

Fraginación de datos

La fragmentación de datos es una técnica de la solución de delimitación de datos que permite a las organizaciones dividir los datos en múltiples conjuntos de datos, en lugar de simplemente cortar una parte. Esta configuración requiere configuración adicional, ya que la aplicación debe dividirse mediante el uso de módulos y es necesario exportar varios conjuntos de datos más pequeños desde el conector.

Con la fragmentación de datos, el conjunto de datos original se divide en varios fragmentos. Cuanto más pequeño sea cada fragmento, más rápido será. Cuando un usuario inicia sesión en la aplicación, solo se cargará el fragmento de datos aplicable.

Una unidad típica para la fragmentación sería "Código de empresa" o "Departamento". Por ejemplo, en el caso de 50 códigos de empresa, cada fragmento contendrá un código de empresa y será aproximadamente 50 veces más rápido que el conjunto de datos original.

Consulta la siguiente ilustración para obtener una descripción general de la fragmentación.



Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.