- 发行说明
- 在开始之前
- 管理访问权限
- 入门指南
- 集成
- 使用流程应用程序
- 创建应用程序
- 正在加载数据
- Transforming data
- 自定义流程应用程序
- 发布流程应用程序
- 应用程序模板
- 通知
- 其他资源

Process Mining
管理输入数据
您可以直接从数据转换中配置输入表,以确保输入数据满足流程应用程序的要求。“管理输入数据”设置选项允许您轻松配置现有输入表或从新上传的文件创建新的输入表。
请按照以下步骤管理输入数据设置。
-
在“输入”部分中,找到“表格”文件夹。
-
找到要管理文件的表格,然后选择上下文菜单图标以打开所选表格的“编辑表格”面板。
系统将显示“表格”页面,其中显示流程应用程序已存在的源表格。
您上传一个或多个文件时,系统会在“源表格”部分自动为每个上传的文件添加一张新表格,并在“目标表格”部分创建相应的输入表格。默认情况下,上传文件的文件名用作表格的名称。系统将显示一条警告消息,指示需要先配置表,然后才能为表上传数据。
系统会自动检测目标输入表的设置,您只需进行检查。
请按照以下步骤编辑输入表的设置。
-
找到要配置的表格,然后选择“编辑表格”图标,以打开所选表格的“编辑表格”面板。
-
根据需要编辑设置,然后选择“保存” 。
下表描述了表格设置。
设置 |
描述 |
表格名称 |
数据转换中的输入表的名称。 |
必需 |
用于将表格定义为必填表格的选项。 如果是
TRUE ,则稍后在发布或导入流程应用程序时需要该表。如果未上传表格,则会引发错误。如果FALSE ,则在发布或导入应用程序时,该表被视为“可选” 。如果未上传表格,则系统将创建一个空表格,以便后续 SQL 查询不会失败。
|
编码 |
文件中使用的编码。 |
分隔符 |
分隔不同字段的分隔符。 |
行尾 |
用于表示行尾和新行尾的字符。 |
引号字符 |
Case 字段中使用的引号字符需要用引号括起来。 |
加载类型 |
表格的加载类型。 备注:
如果选择“增量”作为“加载类型” ,则必须指定其他设置才能为表配置增量加载。 |
对于完全加载,无论数据自上次加载以来是已更改还是保持不变,都将从源中提取所有数据并将其加载到目标系统中。增量加载仅提取自上次加载以来已更改(添加或更新)的数据。与完整加载相比,增量加载通常更快,而且占用的资源更少,尤其是在处理大量数据(其中只有一小部分可能会经常更改)时。
要为表启用增量数据加载,您必须将表的加载类型设置为增量。增量加载需要唯一标识符以确保正确加载数据,并需要一个字段(例如时间戳或版本)来跟踪源数据的更改。
下表描述了增量加载所需的其他设置。
设置 |
描述 |
主键 | 唯一标识数据源中每条记录的一个或多个主键字段。 |
时间戳字段 |
用于跟踪上次更新或添加每条记录的时间的字段。 |
时间戳格式 |
“时间戳”字段中使用的时间戳值的格式。 |
用于加载数据的提取方法可能需要额外或特定的配置才能进行增量提取。
有关如何为 CData Sync 设置增量提取的更多信息,请查看 使用 CData Sync 加载数据 。
有关如何设置 数据上传器 以进行增量提取的更多信息,请查看 使用数据上传器加载数据 。
完成输入表配置后,您可以映射和配置表的输入字段。
-
在“表格” 页面中选择“下一步” 。系统将显示“字段”页面。
对于每个表格,系统会自动检测源文件中的字段并将其映射到目标表中的相应字段。
系统会自动检测目标输入字段的设置,您只需进行检查。
请按照以下步骤编辑输入字段的设置。
-
找到要配置的字段,然后选择“编辑字段” 图标以打开所选字段的“编辑字段”面板。
-
根据需要编辑设置,然后选择“保存” 。
下表描述了表格设置。
设置 |
描述 |
名称 |
字段的名称。 备注:
名称是必填字段。 |
类型 |
字段的数据类型。
备注:
根据字段类型,您必须指定解析设置才能配置字段。 |
必需 |
用于将字段定义为必填字段的选项。 如果选中,则在发布或导入流程应用程序时,该字段为必填。如果缺少该字段,则会引发错误。如果未选择,则该字段视为可选字段。当缺少该字段时,系统将为该字段添加 NULL 值,以确保后续 SQL 查询不会失败。 |
唯一 |
用于定义字段值的选项,其中每条记录具有不同或唯一的值。 |
不为 NULL |
用于定义每条记录的字段必须具有值的选项。该字段不能留空或使用 NULL 值填充。 |
尽管现有的流程应用程序保持完整功能,但您可以调整流程应用程序以利用 Process Mining 中的“管理输入数据”屏幕。使用“管理输入数据”屏幕,您可以轻松添加新的输入表和输入字段。因此,建议调整输入数据结构可能会发生变化的流程应用程序。如果您预计输入数据的结构不会发生很多变化,则可能需要考虑不调整应用程序。
如果要开始使用“管理输入数据”屏幕加载现有流程应用程序的表格和字段,则需要手动执行此页面中描述的步骤。
sources
部分中定义的表的 SQL 文件。这些模型通常位于文件夹1_input
中。
对每个输入查询执行以下步骤。
-
确保输入 SQL 文件仅包含重命名和类型转换。将其他逻辑 (筛选、派生列等) 移至后续 SQL 文件。
下图显示了一个仅包含重命名和类型转换的Event_log_input.sql
文件示例。 -
转到“管理输入数据” ,并调整每个字段的字段属性。有关详细信息,请参阅映射和配置输入字段。
-
使用 数据转换 中的“管理输入数据设置” 选项设置数据类型和重命名。
-
检查“字段”属性 面板中的“字段”属性 (“必填” 、“唯一” 、“非空” ),并确保它们设置正确。
-
-
检查所有 SQL 文件中对输入表
{{ ref('table_name') }}
引用,并更新这些引用以使用新表:将出现的所有{{ ref('table_name') }}
替换为{{ source('sources', 'source_table_name') }}
。例如:将指向 SQL 文件的{{ ref('Event_log_input') }}
替换为{{ source('sources', 'Event_log_raw') }}
,以直接指向源表。备注:这些引用可以出现在任何 SQL 文件中。
-
由于不再使用原始输入 SQL 文件,因此您现在可以安全地将其删除。
如果转换包含“管理输入数据设置”中尚不可用的格式设置,则类型转换应保留在dbt转换中。例如,SAP 日期不可用 (YYYYMMDD)。