- 发行说明
- 入门指南
- 安装
- 配置
- 集成
- 身份验证
- Working with Apps and Discovery Accelerators
- AppOne 菜单和仪表板
- AppOne 设置
- TemplateOne 1.0.0 菜单和仪表板
- TemplateOne 1.0.0 设置
- TemplateOne 菜单和仪表板
- TemplateOne 2021.4.0 设置
- Purchase to Pay Discovery Accelerator 菜单和仪表板
- 购买到付款 Discovery Accelerator 设置
- Order to cash Discovery Accelerator 菜单和仪表板
- “订单到现金” Discovery Accelerator 设置
- Basic Connector for AppOne
- SAP Connectors
- 适用于 AppOne 的 SAP 订单到现金连接器
- 适用于 AppOne 的 SAP 采购到付款连接器
- SAP Connector for Purchase to Pay Discovery Accelerator
- SAP Connector for Order-to-Cash Discovery Accelerator
- Superadmin
- 仪表板和图表
- 表格和表格项目
- 应用程序完整性
- How to ....
- 使用 SQL 连接器
- Introduction to SQL connectors
- Setting up a SQL connector
- CData Sync extractions
- Running a SQL connector
- Editing transformations
- 释放 SQL 连接器
- Scheduling data extraction
- Structure of transformations
- Using SQL connectors for released apps
- Generating a cache with scripts
- Setting up a local test environment
- Separate development and production environments
- 实用资源
Data Volume
数据量将始终与性能直接权衡。 流程挖掘天生就痴迷于构建流程图的细节。
但是,拥有所有这些唯一时间戳会影响性能。 通常,所有流程挖掘工具和所有内存工具都存在理论限制。
我们明确区分了用于 应用程序 和 连接器的数据的性能。 尽管它们使用相同的平台,但仍存在一些差异,即用户可接受的内容(开发人员与最终用户)以及执行的操作类型。
大量数据可能会对 连接器 和 应用程序产生影响,但所有数据都可以在 连接器中解决。
最终用户将体验到的性能与数据量直接相关。 数据量取决于最大表格中的行数。 通常,只有行数决定最终用户的性能体验。 列数只是从数据库加载数据时的一个因素。
每个流程包含大约 5000000 (5M) 个用例和最多约 50000000 (50M) 个事件的流程是理想的选择。 随着用例和事件的增加,解析数据和显示可视化效果的时间将更长。
UiPath Process Mining 平台将继续工作,但是,当插入大量数据时,反应速度可能会下降。 建议事先检查数据量。 如果超过上述数字,建议考虑优化或限制数据集。
处理大数据量有两个主要的解决方案方向:
- 优化;
- 数据最小化。
优化涉及超级管理员可以进行的调整,以使仪表板更快地呈现,这可以通过为特定数据集定制应用程序设置来实现(有关更多信息,请参阅应用程序设计)。
本节介绍数据最小化,这些技术是针对特定业务问题量身定制的,可用于减少最终用户可见的数据。
此处描述的技术可以并存,甚至可以组合使用以利用多种技术的优势。 此外,您可以将未进行数据最小化的应用程序与最小化的应用程序一起保留,因为在可以接受较低性能的情况下,有时可能需要特定的详细级别。
限制将显示在游览数据集中的记录数量不仅可以提高应用程序的性能,还可以提高流程的可理解性,从而提高企业的接受度。
可以在“ 连接器”中完成数据的作用域限定。
作用域限定选项之一是通过筛选出日期或期间来限制要查看的时间范围。 例如,您可以将时间范围从 10 年限制为一年。 或从 1 年到 1 个月。 请参见下图。
建议进行有限数量的活动,尤其是在开始任何流程挖掘工作时。 随着专业知识的增加,您可以从那里开始构建。
以下是活动范围的指南:
范围(活动数量) |
描述 |
---|---|
5-20 |
开始使用流程挖掘时的首选范围。 提供见解信息的简单流程。 |
20-50 |
专家范围。 使用明确的变体进行扩展。 |
50-100 |
如果存在明确的变体,则最有用。 这意味着有些相关的流程,但主要是独立的流程。 |
100+ |
建议拆分为子流程。 |
以下是有关筛选数据的一些建议:
- 不相关的活动:可以筛选出不直接影响流程的活动。
- 次要活动:某些活动(即变更活动)可以在流程中的任何位置发生。 这些显着增加了许多变体。
- 最少发生的事件:可以筛选出在数据集中仅发生几次的事件。
- 较小的流程:仅分析子流程。
- 对活动进行分组:数据集中的某些活动可能更像是小任务,它们共同表示对业务更有意义的活动。 对它们进行分组需要在连接器中使用一些逻辑,并且可能会导致活动重叠。
- 如果可能,请在 连接器的性能范围内使用 连接器 筛选出活动。 通过这种方式,您可以轻松还原任何更改,也可以重新添加活动。 避免在数据提取或数据加载中筛选出活动。
如果某个用例包含大量事件(异常值),则会影响一些在事件级别计算聚合的表达式。 “自/至”仪表板项目筛选器会受此影响,如果存在这些异常值,则计算该筛选器可能会非常耗时。 建议在 连接器 中筛选出这些用例,以将其从数据集中删除。
在其他情况下,异常值可能是需要关注的关键领域。 如果您的流程进展顺利,或者您采用了六西格码方法,则您需要专注于出现问题的地方。 您不会显示所有正确的案例,而是仅显示错误的案例。
请参见下图。
在连接器中,您可以删除包含大量详细信息的属性。 例如,“ 事件详细信息 ”属性中的长字符串。
完成开发后,许多未使用的属性最终可能会出现在您的数据集中。 建议仅将 连接器 的输出数据集中使用的属性的可用性设置为公开。 将其他属性的可用性设置为私有。
预聚合是许多 BI 工具用来深入了解大数据量的一种技术。 它涉及聚合特定属性的数据,以减少数据集中的记录数量。 在 BI 中,这通常是对每个供应商的价值求和,因此每个供应商只有一个记录。
请参见下图。
流程挖掘需要更多配置,但起点是仅聚合流程变体。 对于每个变体,您将拥有一个案例记录和相关数量的事件。 这可以显着减少数据量。
要显示正确的结果,您还必须显示每个变体代表的记录数,对于事件结束,您可以使用每个事件的中间持续时间。 仅使用变体进行聚合可能会太高,因此最好检查最常用的筛选条件,例如变体、案例类型和案例结束月份的组合(以显示一段时间内的趋势)。
但是,添加属性会对记录数产生二次影响,因此需要在性能和用例之间谨慎平衡。
预聚合最适用于概览流程和发现一般趋势。
抽样是一种技术,您可以在特定时间段内获取一定百分比的案例及其事件。 例如,您可以设置仅显示所有案例及其事件的 10%。 这样,您仍然会遇到异常或异常值,因为每个案例在数据集中出现的机会相似。
请参见下图。