document-understanding

2020.10

false

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Obsoleto

Guia do usuário do Document Understanding.

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 4 de fev de 2025

Pipelines de treinamento e avaliação

Os Pacotes de ML do Document Understanding podem executar todos os três tipos de pipelines (pipeline completo, de treinamento e de avaliação).

Para a maioria dos casos de uso, não é necessário especificar parâmetros: o modelo usa técnicas avançadas para encontrar um modelo de bom desempenho.

Você pode obter informações sobre um Pipeline em dois locais: na visualização Detalhes, acessível no menu suspenso contextual no lado direito da tabela de Pipelines; ou na guia Logs de ML na barra lateral esquerda. A visualização Detalhes contém um painel Saídas e uma página de Logs. O painel Saídas sempre conterá um arquivo _results.json com um resumo dos detalhes do Pipeline, como versão do pacote, conjunto de dados, uso da GPU e tempo de execução.

Pipelines de treinamento e retreinamento

Há dois tipos de pipelines de treinamento:

Em um Pacote de ML do tipo Document Understanding
Em um Pacote de ML de um tipo diferente, como faturas, recibos, ordens de compra, contas de serviços, faturas da Índia ou faturas da Austrália.

O treinamento usando um pacote de "Document Understanding" apenas treina um modelo desde o início no conjunto de dados fornecido como entrada.

Para casos de uso com documentos (formulários) de baixa diversidade, você pode obter bons resultados com apenas 30 a 50 amostras.

Para casos de uso com diversos documentos em que você precisa apenas de campos regulares ("cabeçalho"), são necessários pelo menos 20 a 50 amostras por campo; portanto, se precisar extrair 10 campos regulares, precisará de pelo menos 200 a 500 amostras.

Quando você precisar extrair campos de coluna (por exemplo, itens de linha), serão necessárias 50 a 200 amostras por campo de coluna; mas para layouts altamente complexos e diversos, pode-se exigir até 1000.

Se você também precisar cobrir vários idiomas, precisará de pelo menos 200 a 300 amostras por idioma. Esses números não precisam ser somados, exceto para os idiomas. Portanto, para 10 campos de cabeçalho e 5 campos de coluna, 500 amostras podem ser suficientes, mas em alguns casos mais de 1.000 podem ser necessárias.

O treinamento usando um dos pacotes descritos na etapa 2 requer uma entrada adicional: um modelo básico. Também nos referimos a isso como retreinamento, pois você não está começando do zero, mas de um modelo básico. Essa abordagem usa uma técnica chamada Transfer Learning (transferência de aprendizado), na qual o modelo aproveita as informações codificadas em outro modelo preexistente. Quando você treina nos mesmos campos para otimizar apenas a precisão, pode obter bons resultados com apenas 100 a 500 documentos adicionais. Se você estiver adicionando novos campos ao modelo, precisará de 30 a 50 documentos por novo campo para obter bons resultados. Ao escolher qual versão do modelo Base usar, sugerimos que sempre use a 1.0, a versão pré-treinada e pré-configurada fornecida pela UiPath.

Observação:

Os campos de classificação não são treinados novamente, portanto, ao treinar novamente um modelo, você precisa ter certeza de que o conjunto de dados rotulado tem pelo menos 10 a 20 amostras de cada classe que deseja que o modelo reconheça, independentemente do desempenho do Modelo pré-treinado que você está usando como modelo base.

Ajuste fino usando dados da Estação de Validação (Visualização)

A versão de setembro de 2020 do AI Fabric inclui a capacidade de ajustar modelos de ML usando dados que foram validados manualmente usando o Estação de Validação.

Como seu fluxo de trabalho de RPA processa documentos usando um modelo de ML existente, alguns documentos podem exigir validação manual usando a atividade Estação de Validação (disponível em robôs attended ou no navegador usando o Orchestrator Action Center).

Os dados validados gerados na Estação de Validação podem ser exportados usando a atividade Machine Learning Extractor Trainer e podem ser usados para ajustar modelos de ML no AI Fabric.

Não recomendamos o treinamento de modelos de ML do zero (ou seja, usando o pacote de ML DocumentUnderstanding) usando dados do Validation Station, mas apenas para ajustar modelos de ML existentes (incluindo modelos de ML prontos para uso) usando dados da Estação de Validação.

Para obter as etapas detalhadas envolvidas no ajuste fino de um modelo de ML, consulte a seção Importação de conjunto de dados da Estação de Validação da documentação do Data Manager.

Importante: para executar com êxito os pipelines de treinamento ou completo, recomendamos pelo menos 25 documentos e pelo menos 10 amostras de cada campo rotulado em seu conjunto de dados. Caso contrário, o pipeline mostrará um erro "Falha na criação do conjunto de dados"

Importante: conforme mais dados são rotulados, usando o Data Manager ou vindos da Estação de Validação, melhores resultados são obtidos mantendo um único conjunto de dados e adicionando mais dados a ele, e sempre retreinando no modelo base fornecido pela UiPath, com versão secundária 0. É altamente recomendável evitar o retreinamento usando um modelo básico que você treinou anteriormente (versão secundária 1 ou superior).

Treinamento na GPU ou na CPU

Usar uma GPU (Robô de IA Pro) para treinamento é pelo menos 10 vezes mais rápido do que usar uma CPU (Robô de IA). Esteja ciente de que os modelos de treinamento do Document Understanding na GPU exigem uma GPU com pelo menos 11 GB de RAM de vídeo para ser executado com sucesso.

Os modelos de GPU precisam suportar a versão 418.0+ Drivers NVIDIA e drivers CUDA versão 9.0+.

O treinamento na CPU é suportado apenas para conjuntos de dados de até 500 imagens. Para conjuntos de dados maiores, você precisará treinar usando GPU.

Formato do conjunto de dados

Uma pasta contendo o conjunto de dados exportado proveniente do Data Manager. Isso inclui:

images: uma pasta contendo imagens de todas as páginas rotuladas;
latest recente: uma pasta contendo arquivos .json com os dados rotulados de cada página;
schema.json: um arquivo contendo os campos a serem extraídos e seus tipos;
split.csv: um arquivo contendo a divisão por cada documento que será usado para TREINAR ou VALIDAR durante o Pipeline de Treinamento

Variáveis de Ambiente

ml_model.epochs: personalize o número de epochs para Pipeline de Treinamento ou Completo (o valor padrão é 150)

Artefatos

Quando o pipeline for Completo ou de Avaliação, o painel Saídas também conterá uma pasta "artefatos" que contém dois arquivos:

evaluation_metrics.txt contém as pontuações F1 dos campos que foram previstos. Observe que, para itens de linha, apenas uma pontuação global é obtida para todas as colunas juntas.
evaluation.xlsx é uma planilha do Excel com uma comparação lado a lado da verdade absoluta versus o valor previsto para cada campo previsto pelo modelo, bem como uma métrica de precisão por documento, em ordem crescente de precisão. Assim, os documentos mais imprecisos são apresentados na parte superior para facilitar o diagnóstico e a solução de problemas.

Nesta página