- Notas de Versão
- Requisitos
- Instalação
- Introdução
- Projetos
- Conjuntos de dados
- Pacotes de ML
- Pipelines
- Pipelines de treinamento
- Pipelines de avaliação
- Pipelines completos
- Gerenciamento de pipelines
- Fechamento do loop
- Habilidades de ML
- Logs de ML
- Document Understanding no AI Fabric
- Guia básico de solução de problemas
Pipelines de treinamento
train()
no arquivo train.py) e o código para persistir um modelo recém-treinado (a função save()
no arquivo train.py). Estes, juntamente com um conjunto de dados ou subpasta dentro de um conjunto de dados, produzem uma nova versão do pacote.
Crie um novo pipeline de treinamento, conforme descrito aqui. Certifique-se de fornecer as seguintes informações específicas do pipeline de treinamento:
- No campo Tipo do pipeline, selecione Execução de treinamento.
- No campo Escolher conjunto de dados de entrada, selecione um conjunto de dados ou uma pasta da qual você deseja importar dados para o treinamento. Todos os arquivos nesse conjunto de dados/pasta devem estar disponíveis localmente durante o tempo de execução do pipeline, sendo passados para o primeiro argumento para sua função
train()
(ou seja, o caminho para os dados montados será passado para a variável data_directory na definição train(self, data_directory)). - Na seção Inserir parâmetros, insira as variáveis de ambiente definidas e usadas por seu pipeline, se houver. As variáveis de ambiente que são definidas por padrão são:
artifacts_directory
, com valor padrão artifacts: isso define o caminho para um diretório que é persistente como dados auxiliares relacionados a esse pipeline. A maioria, se não todos os usuários, nunca terá a necessidade de substituir isso por meio da UI. Qualquer coisa pode ser salva durante a execução do pipeline, incluindo imagens, PDFs e subpastas. Especificamente, quaisquer dados que seu código grave no diretório especificado pelo caminhoos.environ['artifacts_directory']
é carregado no final da execução do pipeline e será visível a partir da página Detalhes do pipeline.save_training_data
, com valor padrão false: se for definido como true, a pasta escolhida emChoose input dataset
é carregada no final da execução do pipeline como uma saída do pipeline no diretóriodata_directory
.Assista ao vídeo a seguir para saber como criar um pipeline de treinamento:
Após o pipeline ser executado, uma nova versão secundária do pacote estará disponível e será exibida na página Pacotes de ML > [Nome do pacote]. Em nosso exemplo, é a versão do pacote 1.1.
my-training-artifact.txt
.
Aqui está uma execução conceitualmente análoga de um pipeline de treinamento em algum pacote, por exemplo, a versão 1.0.
_results.json
contém um resumo da execução do pipeline, expondo todas as entradas/saídas e tempos de execução para um pipeline de treinamento.
{
"parameters": {
"pipeline": "< Pipeline_name >",
"inputs": {
"package": "<Package_name>",
"version": "<version_number>",
"train_data": "<storage_directory>",
"gpu": "True/False"
},
"env": {
"key": "value",
...
}
},
"run_summary": {
"execution_time": <time>, #in seconds
"start_at": <timestamp>, #in seconds
"end_at": <timestamp>, #in seconds
"outputs": {
"train_data": "<test_storage_directory>",
"artifacts_data": "<artifacts_storage_directory>",
"package": "<Package_name>",
"version": "<new_version>"
}
}
}
{
"parameters": {
"pipeline": "< Pipeline_name >",
"inputs": {
"package": "<Package_name>",
"version": "<version_number>",
"train_data": "<storage_directory>",
"gpu": "True/False"
},
"env": {
"key": "value",
...
}
},
"run_summary": {
"execution_time": <time>, #in seconds
"start_at": <timestamp>, #in seconds
"end_at": <timestamp>, #in seconds
"outputs": {
"train_data": "<test_storage_directory>",
"artifacts_data": "<artifacts_storage_directory>",
"package": "<Package_name>",
"version": "<new_version>"
}
}
}
O arquivo zip do pacote de ML é a nova versão do pacote gerado automaticamente pelo pipeline de treinamento.
artifacts_directory
.
save_data
estiver definido com o valor true, é uma cópia da pasta do conjunto de dados de entrada.
A governança no aprendizado de máquina é algo com o qual muito poucas empresas estão equipadas para lidar. Ao permitir que cada modelo tire um instantâneo dos dados nos quais foi treinado, o AI Fabric permite que as empresas tenham a rastreabilidade dos dados.
save_training_data
= true
, que tira um instantâneo dos dados passados como entrada. Posteriormente, um usuário pode sempre navegar até a página Detalhes do pipeline correspondente para ver exatamente quais dados foram usados no tempo do treinamento.