Guia do usuário do AI Center

ENTREGA:

Automation Cloud Automation Suite Standalone

Última atualização 11 de nov de 2024

Pipelines de treinamento

Um pipeline de treinamento é usado para treinar um novo modelo de aprendizado de máquina. Para usar esse pipeline, o pacote deve conter o código para treinar um modelo (a função train() no arquivo train.py) e o código para persistir um modelo recém-treinado (a função save() no arquivo train.py). Estes, juntamente com um conjunto de dados ou subpasta dentro de um conjunto de dados, produzem uma nova versão do pacote.

Criação de pipelines de treinamento

Crie um novo pipeline de treinamento, conforme descrito aqui. Certifique-se de fornecer as seguintes informações específicas do pipeline de treinamento:

No campo Tipo do pipeline, selecione Execução de treinamento.
No campo Escolher conjunto de dados de entrada, selecione um conjunto de dados ou uma pasta da qual você deseja importar dados para o treinamento. Todos os arquivos nesse conjunto de dados/pasta devem estar disponíveis localmente durante o tempo de execução do pipeline, sendo passados para o primeiro argumento para sua função train() (ou seja, o caminho para os dados montados será passado para a variável data_directory na definição train(self, data_directory)).
Na seção Inserir parâmetros, insira as variáveis de ambiente definidas e usadas por seu pipeline, se houver. As variáveis de ambiente que são definidas por padrão são:
- artifacts_directory, com valor padrão artifacts: isso define o caminho para um diretório que é persistente como dados auxiliares relacionados a esse pipeline. A maioria, se não todos os usuários, nunca terá a necessidade de substituir isso por meio da UI. Qualquer coisa pode ser salva durante a execução do pipeline, incluindo imagens, PDFs e subpastas. Especificamente, quaisquer dados que seu código grave no diretório especificado pelo caminho os.environ['artifacts_directory'] é carregado no final da execução do pipeline e será visível a partir da página Detalhes do pipeline.
- save_training_data, com valor padrão false: se for definido como true, a pasta escolhida em Choose input dataset é carregada no final da execução do pipeline como uma saída do pipeline no diretório data_directory.

Assista ao vídeo a seguir para saber como criar um pipeline de treinamento:

Resultados de uma execução do pipeline de treinamento

Observação: a execução do pipeline pode levar algum tempo. Verifique novamente depois de algum tempo para ver seu status.

Após o pipeline ser executado, uma nova versão secundária do pacote estará disponível e será exibida na página Pacotes de ML > [Nome do pacote]. Em nosso exemplo, é a versão do pacote 1.1.

Na página Pipelines, o status do pipeline foi alterado para Bem-sucedido. A página Detalhes do pipeline exibe os arquivos arbitrários e pastas relacionados à execução do pipeline. Em nosso exemplo, a execução criou um arquivo chamado my-training-artifact.txt.

Analogia conceitual para criar seus próprios pipelines de treinamento

Aqui está uma execução conceitualmente análoga de um pipeline de treinamento em algum pacote, por exemplo, a versão 1.0.

Importante: esse é um exemplo simplificado. Seu objetivo é ilustrar como os conjuntos de dados e pacotes interagem em um pipeline de treinamento. As etapas são meramente conceituais e não representam como a plataforma funciona.

Copie a versão 1.0 do pacote para ~/mlpackage.
Copie o conjunto de dados da entrada ou a subpasta do conjunto de dados selecionada a partir da UI para ~/mlpackage/data.
Execute o seguinte código python:
```
from train import Main 
m = Main() 
m.train(‘./data’) 
m.save()from train import Main 
m = Main() 
m.train(‘./data’) 
m.save()
```
Persiste o conteúdo de ~/mlpackagecomo a versão do pacote 1.1. Os artefatos persistem se estiverem gravados, e os dados dos instantâneos, se save_data estiver definido como true.

Saídas dos pipelines

O arquivo _results.json contém um resumo da execução do pipeline, expondo todas as entradas/saídas e tempos de execução para um pipeline de treinamento.

{
    "parameters": {
        "pipeline": "< Pipeline_name >",
        "inputs": {
            "package": "<Package_name>",
            "version": "<version_number>",
            "train_data": "<storage_directory>",
            "gpu": "True/False"
        },
        "env": {
            "key": "value",
            ...
        }
    },
    "run_summary": {
     "execution_time": <time>, #in seconds 
     "start_at": <timestamp>, #in seconds 
     "end_at": <timestamp>, #in seconds 
     "outputs": {
        "train_data": "<test_storage_directory>", 
        "artifacts_data": "<artifacts_storage_directory>", 
        "package": "<Package_name>",
        "version": "<new_version>"
            }
    }
}{
    "parameters": {
        "pipeline": "< Pipeline_name >",
        "inputs": {
            "package": "<Package_name>",
            "version": "<version_number>",
            "train_data": "<storage_directory>",
            "gpu": "True/False"
        },
        "env": {
            "key": "value",
            ...
        }
    },
    "run_summary": {
     "execution_time": <time>, #in seconds 
     "start_at": <timestamp>, #in seconds 
     "end_at": <timestamp>, #in seconds 
     "outputs": {
        "train_data": "<test_storage_directory>", 
        "artifacts_data": "<artifacts_storage_directory>", 
        "package": "<Package_name>",
        "version": "<new_version>"
            }
    }
}

O arquivo zip do pacote de ML é a nova versão do pacote gerado automaticamente pelo pipeline de treinamento.

A pasta Artefatos, visível apenas se não estiver vazia, é uma pasta que reagrupa todos os artefatos gerados pelo pipeline e salvos na pasta artifacts_directory.

A pasta Conjunto de dados, existente apenas se save_data estiver definido com o valor true, é uma cópia da pasta do conjunto de dados de entrada.

Governança do modelo

A governança em machine learning é algo com o qual muito poucas empresas estão equipadas para lidar. Ao permitir que cada modelo tire um instantâneo dos dados nos quais foi treinado, o AI Center permite que as empresas tenham a rastreabilidade dos dados.

De forma prática, é possível um instantâneo dos dados de entrada se você passar o parâmetro save_training_data = true, que tira um instantâneo dos dados passados como entrada. Posteriormente, um usuário pode sempre navegar até a página Detalhes do pipeline correspondente para ver exatamente quais dados foram usados no tempo do treinamento.

Nesta página