Process Mining - 使用 CData Sync 加载数据

process-mining

2022.10

false

Process Mining

重要 :

请注意，此内容已使用机器翻译进行了部分本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

使用 CData Sync 加载数据

注意：此页面中的信息基于 CData Sync 2022 - 22.0.8342.0。如果您使用其他版本的 CData Sync，则字段名称或函数可能会有所不同。

简介

CData Sync 是一种工具，用于将数据从源系统提取到 Process Mining中。可在 CData Sync 网站的“ 源 ” 页面上找到受支持的源系统。有关 CData Sync 的更多信息，请参阅 CData Sync 官方网站。

本页面介绍了如何使用 CData Sync 将源系统中的数据加载到内部部署 Process Mining (Automation Suite) 中的流程应用程序中。

先决条件

假设您已经：

有效的 CData 同步许可证。
已安装 CData Sync。请参阅安装 CData Sync。
设置具有正确权限的 SQL Server 访问权限。请参阅
设置 SQL Server 帐户以使用提取程序上传数据。

数据假名化

使用 CData Sync，可以在提取过程中对数据字段进行假名化。这样，可以在敏感数据字段到达 Process Mining 产品之前在源处对其进行散列处理。请按照以下步骤对数据进行假名化。

转到 CData 中作业的所需任务。
编辑查询。
将hashbytes()函数添加到需要匿名化的每个字段。例如

REPLICATE [SOURCE_TABLE] SELECT hashbytes('SHA2_256',[SOURCE_FIELD]) AS [DESTINATION_FIELD] FROM [SOURCE_TABLE];

这样，所有值都将使用 SHA2 256 散列进行散列。有关更多信息，请参阅 SHA-2。如果需要，可以通过在数据转换中为此编写 SQL 查询，将散列值转换为“Person 1”、“Person 2”、“Person 3”等值。

使用 CData Sync 加载数据

使用 CData Sync 设置数据加载需要执行多个步骤。

设置源连接；
创建 SQL Server 目标连接；
创建作业；
调用数据提取 API；
正在运行作业。

下面将详细介绍这些步骤。

创建源连接

注意：有关设置源连接的特定设置，请参阅应用程序模板的“ 配置 CData 同步 ” 页面。

注意：查看 CData Sync 文档，了解源系统的任何特定设置或要求。

请按照以下步骤创建源连接。

在 CData Sync 管理控制台中，为源系统创建新的源连接。

备注：
如果您的源系统不在列表中，则可以单击“+ 添加更多”以显示所有可用的源 CData Sync 连接器列表。选择源系统的连接器，然后单击“下载并安装”。
在“ 名称” 字段中输入源连接的描述性名称。
输入所需属性以设置与源系统的连接。
创建并测试连接。

为 .csv 文件或 .tsv 文件设置源连接

如果要为 .csv 或 .tsv 文件设置源连接，请确保：

从列表中选择 CSV 作为要与其创建连接的源系统。
将 URI 设置为存储 .csv 或 .tsv 文件的路径。
设置正确的 ConnectionType。当文件与 CData Sync 存储在同一台服务器上时，请使用 “本地 ”。
将 FMT 设置为数据文件中使用的适当值。

在“ 连接设置” 面板的“高级” 选项卡中定义以下设置，以确保将数据正确加载到 Process Mining中。

版块	参数	值
其他	Exclude File Extensions	`True`
其他	Include Files	如果要上传`.tsv`文件，请将`,TSV`添加到设置中
架构	Type Detection Scheme	`None`
数据格式	将空值推送为 Null	`True`

Retrieving the SQL Server database parameters

如要设置 SQL Server 目标连接，您需要 SQL Server 数据库的以下设置参数。

服务器
数据库
架构
角色

请参阅检索 SQL Server 数据库参数。

创建目标连接

如要设置 SQL Server 目标连接，您需要 SQL Server 数据库的以下设置参数。

服务器
数据库
架构
角色

请查看检索 SQL Server 数据库参数。

请按照以下步骤创建 SQL Server 目标连接。

Define a new connection of type SQL Server.
输入目标连接的描述性名称。例如，SQLServer_IM。
配置设置以使用检索到的 SQL Server 数据库设置凭据连接到 SQL Server 数据库
备注： 服务器 必须指定为 <Server>,<Port>。

注意： “用户”/“密码”必须是有权写入数据库的用户的 SQL 凭据。请查看设置 SQL Server 帐户以使用提取程序上传数据。密码不得包含分号; 。
创建并测试连接。

创建提取作业

重要提示：

输入数据必须符合用于创建流程应用程序的应用程序模板所需的格式。请参阅应用程序模板。

确保为表名称添加后缀_raw 。

请按照以下步骤创建提取作业。

单击菜单栏中的“ 作业 ”，然后转到“ 添加连接 ”面板的“源”选项卡。
单击“+创建作业...”以添加新作业。
在“作业名称”字段中输入作业的描述性名称。例如，ServiceNow_to_SQLServer。
从“源”列表中选择在“步骤 1：设置源连接”中创建的源连接。
从“目标”列表中选择在“步骤 3：创建目标连接”中创建的 SQL Server 连接。
确保选择“标准”选项作为“复制类型”，然后单击“+ 创建”。
单击“ +添加任务”。
- 选择列表中的所有源表格。
- 单击“添加”。
转到“ 作业设置” 面板中的“高级”选项卡。
- 找到“目标架构”条目，然后复制在“步骤 2：检索 SQL Server 数据库参数”中检索到的架构。
- 选择“删除表格”选项可防止将数据附加到表格中。
- 启用复选框“Enable Parallel Processing”，并在“工作池”字段中输入“8 ”以提高加载速度。
- 确保已设置“复制间隔”和“复制间隔单位”，以使生成的周期等于或大于提取周期。
单击“保存更改”。

调用数据提取 API

请按照以下步骤编辑作业后事件以调用数据提取 API。

转到“作业设置”面板中的“事件”选项卡。

编辑“作业后事件”部分并添加提取 API 调用，以确保如下所述替换服务器、组织、租户和 Process Mining 应用程序 ID。

注意：您可以从 Process Mining 门户的“ 所有流程应用程序 ”列表中复制 应用程序 ID 。确保在“ 列 ”列表中选择“ ID ”。

替换	您用于替换的项
`my-uipath-server.com`	服务器
`default`	组织
`defaulttenant`	租户
`98dfd1d5-9e42-4f0e-9a0a-8945629f01b3`	应用程序 ID

<api:set attr="http.url" value="https://my-uipath-server.com/default/defaulttenant/processMining_/api/v2/apps/98dfd1d5-9e42-4f0e-9a0a-8945629f01b3/transform/unauthenticated"/> 
<api:call op="httpPost" in="http"/><api:set attr="http.url" value="https://my-uipath-server.com/default/defaulttenant/processMining_/api/v2/apps/98dfd1d5-9e42-4f0e-9a0a-8945629f01b3/transform/unauthenticated"/> 
<api:call op="httpPost" in="http"/>

保存更改。
单击菜单栏中的“作业”，然后找到目标作业。
单击“运行所有查询”图标以检查作业是否正常运行。

记录的信息

您可以添加其他语句以获取有关 API 调用的日志记录信息。请执行以下步骤。

在之前在作业后事件中添加的行之间添加以下语句。
<api:set attr="http.verbosity" value="5"/>

<api:set attr="http.logfile" value="D:/mydir/cdata_log.txt"/>

请参见下图。
转到“ 作业设置” 面板中的“日志记录和历史记录”选项卡。
从“日志文件详细程度”列表框中选择“Verbose”。
运行作业并检查创建的日志文件。

运行 CData Sync 提取作业

请按照以下步骤运行提取作业。

单击菜单栏中的“作业”，并找到在步骤 4：创建提取作业中创建的提取作业。
单击“ 运行所有查询” 图标。请参见下图。
等待作业完成。根据数据量，这可能需要几分钟。
转到Process Mining 门户并检查流程应用程序的“上次提取数据”，以查看数据加载是否已成功完成。注意：仅在处理完所有数据后，系统才会更新日期。根据数据量，该过程可能需要几分钟到一个小时。

计划作业

如果要定期运行提取作业，可以使用 CData 同步计划程序定义计划。

请按照以下步骤计划提取作业。

打开在步骤 4：创建提取作业中创建的 CData Sync 提取作业。
转到“作业设置”面板中的“计划”选项卡。

有关如何计划作业的更多信息，请参阅官方 CData 同步文档。

在此页面上

简介
先决条件
数据假名化
使用 CData Sync 加载数据
创建源连接
Retrieving the SQL Server database parameters
创建目标连接
创建提取作业
调用数据提取 API
运行 CData Sync 提取作业

此页面有帮助吗？

前一个设置 SQL Server 帐户以使用提取程序上传数据

下一个安装 CData Sync