document-understanding

2022.4

true

Guia do usuário do Document Understanding.

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 24 de out de 2024

O loop de ajuste fino automático (pré-visualização pública)

Ao treinar/retreinar um modelo de ML, a primeira coisa a ter em mente é que os melhores resultados são obtidos acumulando todos os dados em um único conjunto de dados grande e, idealmente, cuidadosamente selecionado. Treinar no conjunto de dados A e, em seguida, treinar novamente o modelo resultante no conjunto de dados B produzirá resultados muito piores do que treinar no conjunto de dados combinado A+B.

A segunda coisa a ter em mente é que nem todos os dados são iguais. Os dados rotulados em uma ferramenta dedicada como o Document Manager são, em geral, de melhor qualidade e resultarão em um modelo de melhor desempenho do que os dados rotulados em ferramentas com um foco diferente - como o Validation Station. Os dados do Validation Station podem ser de alta qualidade do ponto de vista do processo de negócios, mas menos do ponto de vista do treinamento do modelo, porque um modelo de ML precisa de dados em uma forma muito específica, sendo quase sempre diferente da forma necessária para processos de negócios. Por exemplo, em uma fatura de 10 páginas, o número da fatura pode aparecer em cada página, mas no Validation Station é suficiente indicá-lo na primeira página, enquanto no Document Manager você o rotularia em todas as páginas. Nesse caso, 90% dos rótulos corretos estão faltando nos dados do Validation Station. Por esta razão, os dados do Validation Station têm utilidade limitada, conforme descrito acima.

Para treinar efetivamente um modelo de ML, você precisa de um conjunto de dados único, completo, de alta qualidade e representativo. Uma abordagem cumulativa, portanto, é adicionar mais dados ao conjunto de dados de entrada e, portanto, treinar o modelo de ML com um conjunto de dados maior a cada vez. Uma maneira de fazer isso é usar o loop de ajuste fino automático.

Para entender melhor esse recurso, vamos ver onde o ajuste fino automático se encaixa no ciclo de vida do modelo de ML.

O ciclo de vida de um modelo de ML

No ciclo de vida de qualquer modelo de Machine Learning, existem duas fases principais:

A fase de compilação
a fase de manutenção

A fase de compilação

Nesta primeira fase, você usa o Document Manager para preparar o conjunto de dados de treinamento e o conjunto de dados de avaliação para obter o melhor desempenho possível.

Ao mesmo tempo, você cria a automação de RPA e a lógica comercial em torno do modelo de ML, sendo pelo menos tão importante quanto o próprio modelo para obter o retorno do investimento esperado.

A fase de manutenção

Nesta segunda fase, você tenta manter o nível de alto desempenho alcançado na fase de construção, evitando regressões.

O ajuste fino automático (e os dados do Validação do Station em geral) pertencem estritamente à fase de manutenção. O objetivo do ajuste fino automático é principalmente impedir que o modelo de ML regrida à medida que os dados que fluem pelo processo mudam.

Importante: os dados realimentados da validação manual usando o Validation Station não devem ser usados para construir um modelo do zero. A construção de um modelo deve ser feita preparando conjuntos de dados de treinamento e avaliação no Document Manager.

Os componentes de loop automático de ajuste fino

O loop de ajuste fino automático tem os seguintes componentes:

1. Fluxo de trabalho do robô: atividade Machine Learning Extractor Trainer
2. Document Manager: funcionalidade Agendar Exportação
3. AI Center: Pipeline de retreinamento automático programado
4. (Opcional) Atualização automática das Habilidades de ML

Pré-requisitos

Para poder implementar esta funcionalidade, dois requisitos devem ser atendidos de antemão:

Você precisa ter criado uma sessão do Document Manager no AI Center e ter configurado um certo número de campos, mais precisamente para rotular conjuntos de dados de treinamento e avaliação de alta qualidade. Você pode definir manualmente seus campos ou importar um esquema. Caso os campos não sejam configurados, a aba Agendar (Pré-visualização) não é habilitada e a seguinte mensagem é exibida na tela:
Você precisa ter treinado algumas versões do seu modelo de ML, testado, corrigido quaisquer problemas que possam ter ocorrido e implantado em sua automação de RPA+IA.

1. Fluxo de trabalho do robô: atividade Machine Learning Extractor Trainer

Adicione a atividade Machine Learning Extractor Trainer ao seu fluxo de trabalho em um Train Extractors Scope, configure corretamente o escopo, certificando-se de que o Framework Alias contenha o mesmo alias que o alias do Machine Learning Extractor no Data Extraction Scope.

Em seguida, selecione o Projeto e o Conjunto de dados associado à sessão do Document Manager que contém seus conjuntos de dados de treinamento e avaliação. Os menus suspensos são pré-preenchidos uma vez que você está conectado Orchestrator.

Observação: você pode definir um valor para a propriedade Pasta de saída se desejar exportar os dados localmente no fluxo de trabalho.

Você pode ver o nome do conjunto de dados na visualização Data Labeling no AI Center, ao lado do nome da sessão de Data Labeling:

Para o conjunto de dados selecionado, o que a atividade do Machine Learning Extractor Trainer faz é criar uma pasta chamada ajuste fino e gravar os documentos exportados em 3 pastas: documentos, metadados e previsões.

Esta é a pasta onde os dados serão importados automaticamente para o Document Manager, mesclados com os dados existentes anteriormente e exportados no formato correto para serem consumidos por um pipeline de Treinamento ou Completo.

2. Document Manager: funcionalidade Agendar Exportação

Em uma sessão do Document Manager, clique no botão Exportar, vá para a guia Agendar (Pré-visualização) e ative o controle deslizante Agendamento. Em seguida, selecione uma hora de início e uma recorrência. Quando estiver pronto, clique no botão Agendar.

A caixa de seleção Exportação compatível com versões anteriores permite aplicar o comportamento de exportação herdado, que é exportar cada página como um documento separado. Tente isso se o modelo treinado usando a exportação padrão estiver abaixo das expectativas. Deixe esta opção desmarcada para exportar os documentos em seu formulário original de várias páginas.

Observação:

A recorrência mínima é de 1 dia e a máxima é de 60 dias.

Como os pipelines de treinamento do AI Center são configurados principalmente para serem executados semanalmente, recomenda-se uma recorrência de 7 dias.

Quando você define o agendamento para exportação, os dados importados da pasta ajuste fino são exportados para a pasta export em autoexport time_stamp.

Para ser mais específico, a exportação agendada importa os dados que existem na pasta ajuste fino criada na Etapa 1 e, em seguida, exporta o conjunto de dados completo, incluindo os dados existentes anteriormente e os dados recém-importados do Validation Station, para a pasta de exportação. Assim, a cada exportação programada, o conjunto de dados exportado fica cada vez maior.

O arquivo latest.txt é atualizado ou criado se essa for a primeira exportação agendada. Aqui, você pode visualizar o nome da exportação mais recente feita pelo Document Manager. A exportação de esquema, no entanto, não atualiza o latest.txt. Esse arquivo é usado pelo pipeline de retreinamento automático no AI Center para determinar qual é a exportação mais recente para que ele sempre possa treinar utilizando os dados mais recentes. Portanto, você nunca deve removê-lo ou modificá-lo, caso contrário, seus pipelines de retreinamento automático falharão.

Observação: a operação de importação+exportação agendada pode levar de 1 a 2 horas, dependendo de quantos dados foram enviados da Etapa 1 durante a semana anterior. Recomendamos que você escolha um horário em que não usará o Document Manager devido ao fato de que, quando uma operação de exportação estiver em andamento, não serão permitidas outras exportações ou importações. No entanto, a rotulagem é sempre possível.

3. AI Center: Pipeline de retreinamento automático programado

Ao agendar um treinamento ou pipeline completo no AI Center, há alguns aspectos que precisam ser levados em consideração.

Primeiro, é altamente recomendável que você crie um conjunto de dados de avaliação e agende apenas pipelines completos. Os pipelines completos executam o treinamento e a avaliação juntos, e o pipeline de avaliação usa o conjunto de dados de avaliação para produzir uma pontuação. Essa pontuação será fundamental para decidir se a nova versão é melhor que a anterior e pode ser implantada para ser consumida por Robôs.

Além disso, para o pipeline completo, você precisa especificar dois conjuntos de dados: um conjunto de dados de entrada e um conjunto de dados de avaliação.

Não há alteração no conjunto de dados de avaliação no contexto da funcionalidade de loop de ajuste fino automático. Você ainda precisa selecionar um conjunto de dados como de costume, contendo as duas pastas: imagens e mais recentes, e os dois arquivos: schema.json e split.csv.

No entanto, o conjunto de dados de entrada não é mais um conjunto de dados, você precisa selecionar a pasta export no conjunto de dados do AI Center que está conectado à sessão do Data Labelling. Dessa forma, o treinamento é executado na exportação mais recente de sua sessão do Data Labelling, enquanto a avaliação é executada no mesmo conjunto de dados de avaliação que você especificou.

Importante: se você não selecionar a pasta de exportação, o retreinamento automático não funcionará.

Terceiro, você precisa definir a variável de ambiente de retreinamento automático como True.

Por fim, você precisa selecionar Recorrente e definir um dia e hora para deixar tempo suficiente para que a exportação do Document Manager seja concluída. Por exemplo, se a exportação do Document Manager for executada à 1h no sábado, o Pipeline poderá ser executado às 2 ou 3h no sábado. Se a exportação não for concluída quando o pipeline for executado, ele usará a exportação anterior e poderá treinar novamente nos mesmos dados treinados na semana anterior.

4. (Opcional) Atualização automática das Habilidades de ML

Se você deseja implantar automaticamente a versão mais recente do pacote de ML produzido pelos pipelines de treinamento agendados automaticamente, você pode habilitar a funcionalidade de atualização automática em Habilidade de ML.

Observação:

A Habilidade de ML é atualizada automaticamente, independentemente de a pontuação de precisão ter melhorado em relação ao treinamento anterior, portanto, use esse recurso com cuidado.

Em alguns casos, é possível que a pontuação geral melhore, mesmo que um campo específico possa regredir um pouco. No entanto, esse campo pode ser crítico para o processo de seu negócio, portanto, a atualização automática e o retreinamento automático, em geral, exigem um monitoramento cuidadoso para serem bem-sucedidos.