- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 4506T - Pacote de ML
- 990 - Pacote de ML - Prévia
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de Incorporação - Pacote ML
- Certificado de Origem - Pacote ML
- Cheques - Pacote de ML
- Certificado de produto infantil - pacote ML
- CMS 1500 - Pacote ML
- Declaração de Conformidade da UE - Pacote ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- Invoices Australia - ML package
- Invoices China - ML package
- Invoices India - ML package
- Invoices Japan - ML package
- Envio de Faturas - Pacote ML
- Romaneio de carga - Pacote de ML
- Boletos - Pacote ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Aprendizagem profunda
- Licenciamento
Pipelines de treinamento
Tamanho mínimo do conjunto de dados
Dataset Creation
Failed
.
Treinamento em GPU vs CPU
- Para conjuntos de dados maiores, você precisa treinar usando GPU. Além disso, usar uma GPU para treinamento é pelo menos 10 vezes mais rápido do que usar uma CPU.
- O treinamento na CPU só é compatível com conjuntos de dados de até 5.000 páginas para Pacotes de ML v21.10.x e até 1.000 páginas para outras versões de Pacotes de ML.
- O treinamento em CPU foi limitado a 500 páginas para versões anteriores a 2021.10, subiu para 5.000 páginas em 2021.10 e, na versão 2022.4, voltou para 1.000 páginas no máximo.
Para obter mais informações sobre a estrutura do conjunto de dados, consulte a seção Formato do conjunto de dados.
Há duas maneiras de treinar um modelo de ML:
- treinamento de um modelo do zero
- retreinamento de um modelo pronto para uso
O treinamento de um modelo do zero pode ser feito usando o pacote de ML DocumentUnderstanding, que faz isso no conjunto de dados fornecido como entrada.
O retreinamento pode ser feito usando pacotes de ML prontos para uso, como faturas, recibos, pedidos de compra, contas de serviços públicos, faturas da Índia, faturas da Austrália etc., basicamente, qualquer outro pacote de ML de extração de dados, exceto DocumentUnderstanding. O treinamento usando um desses pacotes tem uma entrada adicional: um modelo base. Referimo-nos a isso como retreinamento, pois você não está começando do zero, e sim de um modelo base. Essa abordagem utiliza uma técnica chamada Transfer Learning, na qual o modelo aproveita as informações codificadas em outro modelo, aquele preexistente. O modelo retém parte do conhecimento pronto para uso, mas também aprende com os novos dados. No entanto, à medida que o tamanho do conjunto de dados de treinamento aumenta, o modelo base pré-treinado importa cada vez menos. É relevante principalmente para conjuntos de dados de treinamento de pequeno a médio porte (até 500-800 páginas).
Configure o pipeline de treinamento da seguinte maneira:
- No campo Tipo do pipeline, selecione Execução de treinamento.
- No campo Escolher pacote, selecione o pacote que você criou com base no Pacote de ML DocumentUnderstanding.
- No campo Escolha a versão principal do pacote, selecione uma versão principal para o seu pacote.
- No campo Escolha a versão secundária do pacote, selecione uma versão secundária para seu pacote. É altamente recomendável usar sempre a versão secundária 0 (zero).
- No campo Escolha o conjunto de dados de entrada, selecione um conjunto de dados conforme mostrado no vídeo abaixo nesta página. Para criar conjuntos de dados de treinamento de alta qualidade, você pode conferir este tutorial.
- Na seção Inserir parâmetros, insira as variáveis de ambiente definidas e usadas por seu pipeline, se houver. Para a maioria dos casos de uso, nenhum parâmetro precisa ser especificado; o modelo está usando técnicas avançadas para encontrar uma configuração de desempenho. No entanto, aqui estão algumas variáveis de ambiente que você pode usar:
auto_retraining
que permite completar o Loop de retreinamento automático; se a variável for definida como True, o conjunto de dados de entrada precisará ser a pasta de exportação associada à sessão de rotulagem na qual os dados são marcados. Se a variável permanecer definida como False, o conjunto de dados de entrada precisará corresponder ao formato de conjunto de dados.model.epochs
que personaliza o número de épocas para o pipeline de treinamento (o valor padrão é 100).Optional
.- Para Pacotes de ML v23.4 ou superior, o treinamento em conjuntos de dados menores que 400 páginas usa uma abordagem chamada Frozen Backbone para acelerar o treinamento e melhorar o desempenho. No entanto, você tem a opção de substituir esse comportamento e forçar um treinamento completo mesmo para conjuntos de dados menores, ou inversamente, forçar um treinamento Frozen Backbone mesmo para conjuntos de dados maiores (até um máximo de 3000 páginas). Você pode usar as seguintes variáveis de ambiente, com a condição de combiná-las quando em uso, seja usando a primeira ou a segunda, ou a primeira e a terceira variáveis juntas.
Optional
.model.override_finetune_freeze_backbone_mode=True
— Inclua esta variável de ambiente para substituir o comportamento padrão. Isso é necessário em ambas as situações abaixo.model.finetune_freeze_backbone_mode=True
— inclua essa variável de ambiente para forçar o modelo a usar o Frozen Backbone mesmo para conjuntos de dados maiores.model.finetune_freeze_backbone_mode=False
- Inclua esta variável de ambiente para forçar o modelo a usar o treinamento completo mesmo para conjuntos de dados menores.
- Selecione se deseja treinar o pipeline na GPU ou na CPU. O controle deslizante Habilitar GPU está desabilitado por padrão, nesse caso o pipeline é treinado na CPU.
- Selecione uma das opções para a execução do pipeline: Executar agora, Agendado ou Recorrente. Caso esteja usando a variável
auto_retraining
, selecione Recorrente. - Após configurar todos os campos, clique em Criar. O pipeline é criado.
Aqui está um exemplo de criação de um novo pipeline de treinamento com um conjunto de dados previamente exportado para o AI Center: