Process Mining
2021.10
False
横幅背景图像
Process Mining
上次更新日期 2024年4月2日

Data Volume

简介

数据量将始终与性能直接权衡。 流程挖掘天生就痴迷于构建流程图的细节。

但是,拥有所有这些唯一时间戳会影响性能。 通常,所有流程挖掘工具和所有内存工具都存在理论限制。

用户类型

我们明确区分了用于 应用程序连接器的数据的性能。 尽管它们使用相同的平台,但仍存在一些差异,即用户可接受的内容(开发人员与最终用户)以及执行的操作类型。

大量数据可能会对 连接器应用程序产生影响,但所有数据都可以在 连接器中解决。

Data Volume

最终用户将体验到的性能与数据量直接相关。 数据量取决于最大表格中的行数。 通常,只有行数决定最终用户的性能体验。 列数只是从数据库加载数据时的一个因素。

每个流程包含大约 5000000 (5M) 个用例和最多约 50000000 (50M) 个事件的流程是理想的选择。 随着用例和事件的增加,解析数据和显示可视化效果的时间将更长。

UiPath Process Mining 平台将继续工作,但是,当插入大量数据时,反应速度可能会下降。 建议事先检查数据量。 如果超过上述数字,建议考虑优化或限制数据集。

详细级别

详细程度越高,响应时间就越长,这会影响性能。

需要与最终用户讨论数据量、详细程度和等待时间之间的确切权衡。 有时历史数据可能非常重要,但通常只需要过去几年的数据。

另一个因素是列中的唯一值。 UiPath Process Mining 使用专有方法将*.mvn文件的大小最小化。 这适用于相似的值。 属性的许多唯一值也会影响性能,例如 事件详细信息。

解决方案

处理大数据量有两个主要的解决方案方向:

  • 优化;
  • 数据最小化。

优化涉及超级管理员可以进行的调整,以使仪表板更快地呈现,这可以通过为特定数据集定制应用程序设置来实现(有关更多信息,请参阅应用程序设计)。

本节介绍数据最小化,这些技术是针对特定业务问题量身定制的,可用于减少最终用户可见的数据。

此处描述的技术可以并存,甚至可以组合使用以利用多种技术的优势。 此外,您可以将未进行数据最小化的应用程序与最小化的应用程序一起保留,因为在可以接受较低性能的情况下,有时可能需要特定的详细级别。

数据作用域

限制将显示在游览数据集中的记录数量不仅可以提高应用程序的性能,还可以提高流程的可理解性,从而提高企业的接受度。

可以在“ 连接器”中完成数据的作用域限定。

作用域限定选项之一是通过筛选出日期或期间来限制要查看的时间范围。 例如,您可以将时间范围从 10 年限制为一年。 或从 1 年到 1 个月。 请参见下图。



建议进行有限数量的活动,尤其是在开始任何流程挖掘工作时。 随着专业知识的增加,您可以从那里开始构建。

以下是活动范围的指南:

范围(活动数量)

描述

5-20

开始使用流程挖掘时的首选范围。

提供见解信息的简单流程。

20-50

专家范围。 使用明确的变体进行扩展。

50-100

如果存在明确的变体,则最有用。 这意味着有些相关的流程,但主要是独立的流程。

100+

建议拆分为子流程。

注意: 筛选出活动将简化您的流程并使其更易于理解。 请注意,您也可能会丢失信息或详细信息。

以下是有关筛选数据的一些建议:

  • 不相关的活动:可以筛选出不直接影响流程的活动。
  • 次要活动:某些活动(即变更活动)可以在流程中的任何位置发生。 这些显着增加了许多变体。
  • 最少发生的事件:可以筛选出在数据集中仅发生几次的事件。
  • 较小的流程:仅分析子流程。
  • 对活动进行分组:数据集中的某些活动可能更像是小任务,它们共同表示对业务更有意义的活动。 对它们进行分组需要在连接器中使用一些逻辑,并且可能会导致活动重叠。
  • 如果可能,请在 连接器的性能范围内使用 连接器 筛选出活动。 通过这种方式,您可以轻松还原任何更改,也可以重新添加活动。 避免在数据提取或数据加载中筛选出活动。

删除异常值

如果某个用例包含大量事件(异常值),则会影响一些在事件级别计算聚合的表达式。 “自/至”仪表板项目筛选器会受此影响,如果存在这些异常值,则计算该筛选器可能会非常耗时。 建议在 连接器 中筛选出这些用例,以将其从数据集中删除。

注意: 这会影响指标。 您应该仅根据业务用户删除异常值。

关注异常值

在其他情况下,异常值可能是需要关注的关键领域。 如果您的流程进展顺利,或者您采用了六西格码方法,则您需要专注于出现问题的地方。 您不会显示所有正确的案例,而是仅显示错误的案例。

请参见下图。



减小数据集的大小

在连接器中,您可以删除包含大量详细信息的属性。 例如,“ 事件详细信息 ”属性中的长字符串。

完成开发后,许多未使用的属性最终可能会出现在您的数据集中。 建议仅将 连接器 的输出数据集中使用的属性的可用性设置为公开。 将其他属性的可用性设置为私有。

预聚合

预聚合是许多 BI 工具用来深入了解大数据量的一种技术。 它涉及聚合特定属性的数据,以减少数据集中的记录数量。 在 BI 中,这通常是对每个供应商的价值求和,因此每个供应商只有一个记录。

请参见下图。



流程挖掘需要更多配置,但起点是仅聚合流程变体。 对于每个变体,您将拥有一个案例记录和相关数量的事件。 这可以显着减少数据量。

要显示正确的结果,您还必须显示每个变体代表的记录数,对于事件结束,您可以使用每个事件的中间持续时间。 仅使用变体进行聚合可能会太高,因此最好检查最常用的筛选条件,例如变体、案例类型和案例结束月份的组合(以显示一段时间内的趋势)。

但是,添加属性会对记录数产生二次影响,因此需要在性能和用例之间谨慎平衡。

预聚合最适用于概览流程和发现一般趋势。

抽样

抽样是一种技术,您可以在特定时间段内获取一定百分比的案例及其事件。 例如,您可以设置仅显示所有案例及其事件的 10%。 这样,您仍然会遇到异常或异常值,因为每个案例在数据集中出现的机会相似。

请参见下图。



级联采样

级联采样是一种采样百分比随时间下降一定百分比的技术。 例如,显示上周的 100%、两周前的 90%、三周前的 80% 等。

数据分片

数据分片是数据作用域解决方案的一项技术,它允许组织将数据拆分为多个数据集,而不仅仅是分割一个部分。 此设置确实需要其他配置,因为需要使用模块拆分应用程序,并且需要从连接器导出多个较小的数据集。

通过数据分片,原始数据集分为多个分片。 每个分片越小,速度就越快。 当用户登录应用程序时,将仅加载适用的数据分片。

分片的典型单位是 “公司代码”“部门”。 例如,在有 50 个公司代码的情况下,每个分片将包含一个公司代码,并且速度基本上比原始数据集快 50 倍。

有关分片的概述,请参见下图。



此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.