Process Mining — Edição de transformações

process-mining

2022.10

false

Process Mining

Importante :

A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Editing transformations

Projetos dbt

As transformações de dados são usadas para transformar dados de entrada em dados adequados para o Process Mining. As transformações no Process Mining são escritas como projetos dbt .

Esta página fornece uma introdução ao dbt. Para obter informações mais detalhadas, consulte a documentação oficial do dbt.

pm-utils package

Os modelos de aplicativos do Process Mining vêm com um pacote dbt chamado pm_utils. Esse pacote pm-utils contém funções utilitárias e macros para projetos dbt do Process Mining. Para obter mais informações sobre o pm_utils , consulte ProcessMining-pm-utils.

Atualização da versão pm-utils usada para seu modelo de aplicativo

A UiPath® aprimora constantemente o pacote pm-utils , adicionando novas funções.

Quando uma nova versão do pacote pm-utils é lançada, é recomendável atualizar a versão usada em suas transformações para garantir que você esteja usando as funções e macros mais recentes do pacote pm-utils .

Você encontra o número da versão mais recente do pacote pm-utils no painel Versões do ProcessMining-pm-utils.

Siga estas etapas para atualizar a versão pm-utils em suas transformações.

Baixe o código-fonte (zip) da versão de pm-utils.
Extraia o arquivo zip e renomeie a pasta para pm_utils.
Exporte as transformações do editor de transformações de dados embutidos e extraia os arquivos.
Substitua a pasta pm_utils das transformações exportadas pela nova pasta pm_utils .
Compacte o conteúdo das transformações novamente e importe-as no editor Transformações de dados .

Estrutura da pasta

As transformações de um aplicativo de processo consistem em um projeto dbt . Abaixo está uma descrição do conteúdo de uma pasta de projeto dbt .

Pasta/Arquivo	Contém
`dbt_packages\`	o pacote `pm_utils` e suas macros.
`logs\`	logs criados ao executar dbt.
`macros\`	macros personalizadas.
`models\`	`.sql` arquivos que definem as transformações.
`models\schema\`	`.yml` arquivos que definem testes nos dados.
`seed`	`.csv` arquivos com definições de configuração.
`dbt_project.yml`	as configurações do projeto dbt.

Veja o exemplo abaixo.

Transformações de dados

As transformações de dados são definidas em arquivos .sql no diretório models\ . As transformações de dados são organizadas em um conjunto padrão de subdiretórios:

1_input,
2_objects,
3_events,
4_event_logs,
5_business_logic.

Confira Estrutura das transformações.

Os arquivos .sql são escritos em SQL Jinja, o que permite inserir instruções Jinja dentro de consultas SQL simples. Quando dbt executa todos os arquivos .sql , cada arquivo .sql resulta em uma nova exibição ou tabela no banco de dados.

Normalmente, os arquivos .sql têm a seguinte estrutura:

Instruções With: Uma ou mais instruções with para incluir as subtabelas necessárias.
- {{ ref(‘My_table) }} refere-se à tabela definida por outro .sql arquivo.
- {{ source(var("schema_sources"), 'My_table') }} refere-se a uma tabela de entrada.
Consulta principal: a consulta que define a nova tabela.
Consulta final: Normalmente, uma consulta como Select * from table é usada no final. Isso facilita fazer subseleções durante a depuração.

Para obter mais dicas sobre como escrever transformações de forma eficaz, consulte Dicas para escrever SQL

Adição de tabelas de origem

Para adicionar uma nova tabela de origem ao projeto dbt , ela deve estar listada em models\schema\sources.yml. Dessa forma, outros modelos podem se referir a ele usando {{ source(var("schema_sources"), 'My_table_raw') }}. Veja a ilustração abaixo para um exemplo.

Importante: Cada nova tabela de origem deve ser listada em sources.yml.

Observação:

O sufixo _raw é adicionado aos nomes das tabelas das tabelas de origem ao carregar dados. Por exemplo, uma tabela chamada my_table deve ser referida como my_table_raw.

Para obter informações mais detalhadas, consulte a documentação oficial do dbt em Sources.

Saída de dados

As transformações de dados devem gerar o modelo de dados exigido pelo aplicativo correspondente; cada tabela e campo esperados devem estar presentes.

Na prática, isso significa que as tabelas no models\5_business_logic não devem ser excluídas. Além disso, os campos de saída nas consultas correspondentes não devem ser removidos.

Se você deseja adicionar novos campos ao seu aplicativo de processo, pode usar os campos personalizados que estão disponíveis para o aplicativo de processo. Mapeie os campos nas transformações para os campos personalizados para disponibilizá-los na saída. Certifique-se de que os campos personalizados sejam nomeados na saída conforme descrito no modelo de dados do aplicativo de processo.

Dica:

Você pode usar os comandos dbt docs para gerar um site de documentação para seu projeto dbt e abri-lo em seu navegador padrão. O site de documentação também contém um gráfico de linhagem que fornece um diagrama de relacionamento de entidade com uma representação gráfica da ligação entre cada tabela de dados em seu projeto.

Para obter informações detalhadas, consulte a documentação oficial do dbt em dbt docs.

Macros

As macros facilitam a reutilização de construções SQL comuns. Para obter informações detalhadas, consulte a documentação oficial do dbt sobre macros Jinja.

pm_utils

O pacote pm-utils contém um conjunto de macros que normalmente são usadas em transformações do Process Mining. Para obter mais informações sobre as macros pm_utils , consulte ProcessMining-pm-utils.

A ilustração a seguir mostra um exemplo de código Jinja chamando a macro pm_utils.optional() .

sementes

Sementes são arquivos csv usados para adicionar tabelas de dados às suas transformações. Para obter informações detalhadas, consulte a documentação oficial do dbt sobre sementes ginja.

Em Process Mining, isso é normalmente usado para facilitar a configuração de mapeamentos em suas transformações.

Depois de editar os arquivos seed, esses arquivos não são atualizados automaticamente no banco de dados imediatamente. Para instruir o dbt a carregar o novo conteúdo do arquivo seed no banco de dados, execute

dbt seed - que atualizará apenas as tabelas do arquivo seed ou
dbt build - que também executará todos os modelos e testes.

Nota: Se o arquivo seed não tiver registros de dados inicialmente, os tipos de dados no banco de dados podem não ter sido configurados corretamente. Para corrigir isso, chame run dbt seed --full-refresh. Isso também atualizará o conjunto de colunas no banco de dados.

Activity configuration

O arquivo activity_configuration.csv é usado para definir campos adicionais relacionados às atividades. activity_order é usado como um desempate quando dois eventos estão acontecendo no mesmo carimbo de data/hora. A ilustração a seguir mostra um exemplo de arquivo activity_configuration.csv .

Testes

A pasta models\schema\ contém um conjunto de arquivos .yml que definem os testes. Estes validam a estrutura e o conteúdo dos dados esperados. Para obter informações detalhadas, consulte a documentação oficial do dbt sobre testes.

Quando as transformações são executadas no Process Mining, apenas os testes em sources.yml são executados em cada ingestão de dados. Isso é feito para verificar se os dados de entrada estão formatados corretamente.

Observação: ao editar transformações, certifique-se de atualizar os testes adequadamente. Os testes podem ser removidos, se desejado.

Nesta página

Projetos dbt
pm-utils package
Atualização da versão pm-utils usada para seu modelo de aplicativo
Estrutura da pasta
Transformações de dados
Adição de tabelas de origem
Saída de dados
Macros
pm_utils
sementes
Activity configuration
Testes

Esta página foi útil?

AnteriorSetting up a local test environment

AvançarDiferenças de SQL entre o Snowflake e o SQL Server