Guia do usuário do Document Understanding.

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 11 de nov de 2024

Pipelines de treinamento

Importante:

Tamanho mínimo do conjunto de dados

Para executar com êxito um pipeline de treinamento, recomendamos pelo menos 25 documentos e 10 amostras de cada campo rotulado em seu conjunto de dados. Caso contrário, o pipeline gera o seguinte erro: Dataset Creation Failed.

Treinamento em GPU vs CPU

Para conjuntos de dados maiores, você precisa treinar usando GPU. No entanto, usar uma GPU (AI Robot Pro) para treinamento é pelo menos 5 vezes mais lento do que usar uma CPU (AI Robot).

O treinamento na CPU só é compatível com conjuntos de dados de até 5.000 páginas para Pacotes de ML v21.10.x e até 1.000 páginas para outras versões de Pacotes de ML. O treinamento na CPU em vez da GPU também pode levar a um modelo menos preciso (entre 0-5%).

O treinamento em CPU foi limitado a 500 páginas para versões anteriores a 2021.10, subiu para 5.000 páginas em 2021.10 e, na versão 2022.4, voltará para 1.000 páginas no máximo.

Há duas maneiras de treinar um modelo de ML:

treinamento de um modelo do zero
retreinamento de um modelo pronto para uso

O treinamento de um modelo do zero pode ser feito usando o pacote de ML DocumentUnderstanding, que faz isso no conjunto de dados fornecido como entrada.

O retreinamento pode ser feito usando pacotes de ML prontos para uso, como faturas, recibos, pedidos de compra, contas de serviços públicos, faturas da Índia, faturas da Austrália etc., basicamente, qualquer outro pacote de ML de extração de dados, exceto DocumentUnderstanding. O treinamento usando um desses pacotes tem uma entrada adicional: um modelo base. Referimo-nos a isso como retreinamento, pois você não está começando do zero, e sim de um modelo base. Essa abordagem utiliza uma técnica chamada Transfer Learning, na qual o modelo aproveita as informações codificadas em outro modelo, aquele preexistente. O modelo retém parte do conhecimento pronto para uso, mas também aprende com os novos dados. No entanto, à medida que o tamanho do conjunto de dados de treinamento aumenta, o modelo base pré-treinado importa cada vez menos. É relevante principalmente para conjuntos de dados de treinamento de pequeno a médio porte (até 500-800 páginas).

Configure o pipeline de retreinamento da seguinte maneira:

No campo Tipo do pipeline, selecione Execução de treinamento.
No campo Escolha o pacote, selecione o pacote que você criou com base em um pacote de ML pré-configurado.
No campo Escolha a versão principal do pacote, selecione uma versão principal para o seu pacote.
No campo Escolha a versão secundária do pacote, selecione uma versão secundária para seu pacote. É altamente recomendável usar sempre a versão secundária 0 (zero).
No campo Escolha o conjunto de dados de entrada, selecione um conjunto de dados de treinamento representativo.
Na seção Inserir parâmetros, insira as variáveis de ambiente definidas e usadas por seu pipeline, se houver. Para a maioria dos casos de uso, nenhum parâmetro precisa ser especificado; o modelo está usando técnicas avançadas para encontrar uma configuração de desempenho. No entanto, aqui estão algumas variáveis de ambiente que você pode usar:
auto_retraining que permite completar o Loop de retreinamento automático; se a variável for definida como True, o conjunto de dados de entrada precisará ser a pasta de exportação associada à sessão de rotulagem na qual os dados são marcados; se a variável permanecer definida como False, o conjunto de dados de entrada precisará corresponder ao seguinte formato de conjunto de dados.
model.epochs que personaliza o número de épocas para o pipeline de treinamento (o valor padrão é 100).
Selecione se deseja treinar o pipeline na GPU ou na CPU. O controle deslizante Habilitar GPU está desabilitado por padrão, nesse caso o pipeline é treinado na CPU.
Selecione uma das opções quando o pipeline deve ser executado: Executar agora, Agendado ou Recorrente. Caso esteja usando a variável auto_retraining, selecione Recorrente.