Document Understanding
Mais recente
falso
Imagem de fundo do banner
Guia do usuário do Document Understanding.
Última atualização 9 de mai de 2024

Treinamento de modelos de alto desempenho

O poder dos modelos de Machine Learning é que são definidos por dados de treinamento, e não por lógica explícita expressa em código de computador. Isso significa que é necessário um cuidado na prática ao preparar conjuntos de dados porque um modelo terá a qualidade do conjunto de dados usado para treiná-lo. Nesse sentido, o que o UiPath Studio representa para os fluxos de trabalho de RPA , uma sessão do Tipo de documento (no Document &Understanding Cloud) representa para os recursos de Machine Learning . Ambos requerem certa experiência para serem usados de forma eficaz.

O que um modelo de ML de extração de dados pode fazer?

Um Modelo de ML pode extrair dados de um único tipo de documento, embora possa abranger vários idiomas diferentes. É essencial que cada campo (Valor Total, Data, etc.) tenha um significado único e consistente. Se um ser humano pode se confundir em relação ao valor correto de um campo, um Modelo de ML também pode se confundir.

Situações ambíguas podem aparecer. Por exemplo, uma conta de serviços públicos é apenas outro tipo de fatura? Ou são dois tipos de documentos diferentes que exigem dois Modelos de ML diferentes? Se os campos que você precisa extrair são os mesmos (ou seja, eles têm o mesmo significado), você pode tratá-los como um único tipo de documento. No entanto, se você precisar extrair campos diferentes por motivos diferentes (processos de negócios diferentes), precisará tratá-los como dois tipos de documentos distintos e, portanto, treinar dois modelos diferentes.

Em caso de dúvida, comece treinando um único modelo, mas mantenha os documentos em lotes diferentes do Document Manager (consulte o menu suspenso Filtro na parte superior da exibição) para poder separá-los facilmente posteriormente, se necessário. Desta forma, o trabalho de rotulagem não é perdido. Quando se trata de Modelos de ML, quanto mais dados, melhor. Portanto, ter um único modelo com dados amplos é um bom ponto de partida.

Conjuntos de dados de treinamento e avaliação

O Document Manager pode ser usado para criar dois tipos de conjuntos de dados: conjuntos de dados de treinamento e conjuntos de dados de avaliação.

Os conjuntos de dados de avaliação são relevantes para cientistas de dados ou para solucionar problemas detalhados para reproduzir determinados problemas. No entanto, para a grande maioria dos cenários de automação Enterprise , apenas o conjunto de dados de treinamento é necessário e recomendado. Os pipelines de treinamento agora retornam artefatos de pontuação completos, incluindo os seguintes:
  • Precisão geral do modelo - é usada como a principal pontuação exibida na exibição de Detalhes do extrator do Document Understanding e na pasta de artefatos do AI Center (também acessível a partir do Document Understanding).
  • Pontuação F1 geral e de nível de campo do modelo - isso é fornecido por motivos históricos na pasta de artefatos do AI Center (também acessível a partir do Document Understanding).
  • Métricas detalhadas por campo e por lote, bem como a comparação de desempenho lado a lado no arquivo do Excel disponível na pasta de artefatos do AI Center (também acessível a partir do Document Understanding).

A pontuação do modelo como parte do treinamento é possível porque o conjunto de treinamento é automaticamente dividido aleatoriamente em 80%/20% entre os dados de Treinamento e Validação, e as pontuações são calculadas nos dados de Validação.

À medida que o conjunto de dados aumenta, tanto a divisão de treinamento quanto a de validação evoluem, o que significa que as pontuações não são diretamente comparáveis ao longo do tempo (que é o que um cientista de dados estaria interessado). No entanto, eles refletem o desempenho do modelo nos dados mais recentes e, portanto, são mais representativos do desempenho atual do modelo nos dados de Production atuais (que são os proprietários do processo de negócios interessados).

Com essa abordagem, você tem os seguintes benefícios:
  • Você não corre o risco de olhar para pontuações medidas em dados obsoletos, potencialmente antigos.
  • Você reduz a quantidade de rotulagem necessária.
  • Todos os dados rotulados contribuem para a melhoria do modelo, levando a um melhor desempenho mais rapidamente.

Componentes de extração de dados

A extração de dados depende dos seguintes componentes:

  • Reconhecimento de caracteres óptico
  • Pós-processamento de OCR
    • Compilação de Palavra e Linha
    • Agrupando caracteres em palavras e palavras em linhas de texto
  • Previsão do modelo de Machine Learning para cada palavra/caixa na página
  • Normalização de dados
    • Por exemplo, agrupar palavras em várias linhas em um endereço, formatar uma data no formato padrão aaaa-mm-dd
  • Seleção de valor
    • Aplicando um algoritmo para selecionar qual das várias instâncias de um determinado valor é realmente retornada, para os casos em que o documento tem duas ou mais páginas e alguns campos aparecem em mais de uma página.

Níveis de confiança

What are confidence levels?

When ML models make predictions, they are basically statistical guesses. The model is saying "this is probably the Total amount" of this Invoice. This begs the question: how probably? Confidence levels are an attempt to answer that question, on a scale from 0 to 1. However, they are NOT true probability estimates. They are just how confident the model is about its guesses, and therefore they depend on what the model has been trained on. A better way to think of them is as a measure of familiarity: how familiar is the model with this model input? If it resembles something the model has seen in training, then it might have a higher confidence. Otherwise it might have a lower confidence.

What are confidence levels useful for?

Business automations need ways to detect and handle exceptions - i.e. instances where an automation goes wrong. In traditional automations this is pretty obvious because when an RPA workflow breaks, it will just stop, hang, or throw an error. That error can be caught and handled accordingly. However, Machine Learning models do not throw errors when they make bad predictions. So how do we determine when an ML model has made a mistake and the exception handling flow needs to be triggered? This often involves human manual involvement, perhaps using Action Center.

The best way to catch bad predictions, by far, is through enforcing business rules. For example, we know that on an invoice, the net amount plus the tax amount must equal the total amount. Or that the part numbers for the components ordered must have 9 digits. When these conditions do not hold, we know something has gone wrong, and we can trigger the exception handling flow. The is the preferred and strongly recommended approach. It is worth investing significant effort in building these kinds of rules, even using complex Regular Expressions, or even lookups in databases to validate Vendor names, or part numbers, etc. In some cases you may even want to extract some other document that is not of interest but only to cross reference and validate some values to the original document of interest.

However, in some cases, none of these options exist and you still want to detect potentially bad predictions. In these cases you can fall back on the confidence level. When confidence level for a prediction is low, say, below 0.6, the risk that the prediction is incorrect is higher than if the confidence is 0.95. However, this correlation is fairly weak. There are many instances where a value is extracted with low confidence but it is correct. It is also possible, though relatively rare, that a value is extracted with high confidence (over 0.9) but it is incorrect. For these reasons we strongly encourage users to rely on business rules as much as possible and only use confidence levels as a last resort.

What types of confidence levels are there?

Most components in the Document Understanding product return a confidence level. The main components of a Document Understanding workflow are Digitization, Classification and Extraction. Each of these has a certain confidence for each prediction. The Digitization and the Extraction confidence are both visually exposed in the Validation Station, so you can filter predictions and focus only on low confidence ones, to save time.

Confidence score scaling (or calibration)

The confidence levels of different models will be scaled differently, depending on the model design. For example some models return confidence levels in the range 0.9-1 almost always, and only very rarely below 0.8. Other models have confidence levels spread much more evenly between 0 and 1, even if usually they are clustered at the higher end of the scale. As a result, the confidence thresholds on different models will be different. For example a confidence threshold on the OCR will not be the same as the threshold on the ML Extractor or the ML Classifier. Also, whenever there is a major architecture update on a model, like the one coming up with the release of the DocPath Generative AI-based model architecture, the confidence level distribution will change, and confidence thresholds will need to be re-assessed.

Crie um modelo de ML de alto desempenho

Para obter o melhor resultado em termos de taxa de automação (redução percentual do trabalho manual medido em pessoas-mês por ano necessário para processar seu fluxo de documentos), você deve seguir estas etapas com atenção:

  1. Escolha o melhor mecanismo de OCR para seus documentos

    Isso influencia tanto o OCR quanto a construção de palavras e linhas (que depende parcialmente do OCR) e, por consequência, tudo relacionado.

  2. Defina os campos a serem extraídos
  3. Selecione um conjunto de dados bem equilibrado e representativo para treinamento
  4. Rotule o conjunto de dados de treinamento
  5. Treine o Extrator
  6. Defina e implemente as regras de negócios para processamento do output do modelo
  7. (Opcional) Escolha os limites de confiança para a extração
  8. Treinamento usando dados do Validation Station
  9. Implante sua automação

1. Escolha o mecanismo de OCR

Sua opção padrão deve ser UiPath Document OCR para idiomas baseados em latinos latinos ou OCR em chinês-japonês-coreano. Caso você precise processar outros idiomas, incluindo cirílico, script DevanAcris, tailandês, Vietnamita, Árabe, Hebraico ou Persa, você pode preferir Microsoft Azure Read OCR (somente Cloud), Google Cloud Vision OCR (somente Cloud) ou Omnipage OCR (Atividade pacote no Studio). Vale a pena criar algumas sessões diferentes do Document Manager com diferentes mecanismos de OCR para verificar qual tem o melhor desempenho em seus documentos. Alterar o mecanismo de OCR posteriormente no projeto pode ser alto.

Esteja ciente de que a atividade Digitize Document tem a configuração ApplyOcrOnPDF definida como Auto por padrão, o que significa que, ao operar documentos em .pdf por padrão, o Digitize tenta extrair o máximo de texto possível do próprio .pdf e apenas imagens de OCR, como logotipos, e combinar os resultados.

No entanto, arquivos .pdf às vezes corrompidos ou com formatação anormal, o que leva a erros no texto extraído. Nesse caso, defina AplicarOcrEmPDFs como Sim.

Outro benefício da aplicação de OCR em todos os arquivos PDF documentos usando o UiPath Document OCR é que o UiPath Document OCR reconhece as caixas de seleção, que são elementos críticos de documentos, como formulários. Esteja ciente, no entanto, de que aplicar OCR em tudo desacelerar um pouco a Digitalização.

2. Definir campos

A definição de campos é uma conversa que precisa acontecer com o especialista no assunto ou o especialista no domínio, que sejam responsáveis pelo processo de negócios. Para faturas, seria o proprietário do processo de Contas a Pagar. Essa conversa é crítica, precisa acontecer antes que qualquer documento seja rotulado para evitar perda de tempo e requer avaliar juntos um mínimo de 20 amostras de documentos escolhidas aleatoriamente. Um intervalo de uma hora precisa ser reservado para isso e, muitas vezes, precisa ser repetido após alguns dias, pois a pessoa que prepara os dados se depara com situações ambíguas ou casos extremos.

Não é incomum que a conversa comece com a suposição de que você precisa extrair, digamos, 10 campos, e termina com 15. Alguns exemplos são descritos nas subseções abaixo.

Algumas configurações importantes que você precisa conhecer:

  • Tipo de Conteúdo

    Esta é a configuração mais importante, pois determina o pós-processamento dos valores, especialmente para datas (detecta se o formato é estilo americano ou não americano e os formata como aaaa-mm-dd) e para números (detecta o separador decimal – vírgula ou ponto). Os números de identificação limpam qualquer coisa que venha antes de dois pontos ou símbolo de hash. O tipo de conteúdo String não realiza limpeza e pode ser usado quando você deseja fazer sua própria análise no fluxo de trabalho RPA.

  • Caixa de seleção multi-linha

    Isto é para analisar strings como endereços que podem aparecer em mais de 1 linha de texto.

  • Caixa de seleção de vários valores

    Isso é para lidar com campos de múltipla escolha ou outros campos que podem ter mais de um valor, mas NÃO são representados como uma coluna de tabela. Por exemplo, uma pergunta de grupo Étnica em um formulário do governo pode conter várias caixas de seleção onde você pode selecionar todas as que se aplicam.

  • Campos ocultos

    Os campos marcados como Ocultos podem ser rotulados, mas são mantidos quando os dados são exportados, de modo que o modelo não pode ser treinado neles. Isso é útil quando rotular um campo é um trabalho em andamento, quando é muito raro ou quando é de baixa prioridade.

  • Pontuação

    Isso é relevante apenas para pipelines de avaliação e afeta como a pontuação de precisão é calculada. Um campo que usa pontuação Levenshtein é mais permissivo: se um único caractere entre 10 estiver errado, a pontuação é 0,9. No entanto, se a pontuação for uma Correspondência Exata , é mais rigorosa: um único caractere errado leva a uma pontuação de zero. Apenas os campos do tipo String têm a opção de selecionar a pontuação Levenshtein por padrão.

Quantidades em contas de serviço público

Um valor total pode parecer bastante simples, mas as contas de serviços públicos contêm muitos valores. Às vezes, você precisa do valor total a ser pago. Outras vezes, você precisa apenas do valor da fatura atual – sem os valores acumulados de períodos de cobrança anteriores. Neste último caso, você precisa rotular de forma diferente, mesmo que a fatura atual e o valor total possam ser os mesmos. Os conceitos diferem e os valores são, muitas vezes, diferentes.

Observação: cada campo representa um conceito diferente e eles precisam ser definidos da maneira mais clara possível, para não haver confusão. Se um humano pode ficar confuso, o modelo de ML também ficará confuso.

Além disso, o valor atual da fatura, às vezes, pode ser composto de alguns valores, taxas e impostos diferentes e pode não aparecer individualizado em nenhum lugar da fatura. Uma possível solução para isso é criar dois campos: um campo de cobranças anteriores e um campo total . Esses dois sempre aparecem como valores explícitos distintos na conta de serviços públicos. Em seguida, o valor da fatura atual pode ser obtido como a diferença entre os dois. Você pode até querer incluir todos os 3 campos (cobranças anteriores, totaise cobranças atuais) para poder fazer algumas verificações de consistência nos casos em que o valor da fatura atual aparece explicitamente no documento. Assim, você pode optar de um a três campos em alguns casos.

Números de ordem de compra em faturas

Os números de pedido podem aparecer como valores únicos para uma fatura ou podem aparecer como parte da tabela de itens de linha em uma fatura, onde cada item de linha tem um número de pedido diferente. Nesse caso, pode fazer sentido ter dois campos diferentes: po-no (número de pedido) e item-po-no (número de pedido por item). Ao manter cada campo visual e conceitualmente consistente, o modelo provavelmente fará um trabalho muito melhor. No entanto, você precisa garantir que ambos estejam bem representados em seus conjuntos de dados de treinamento e avaliação.

Nome do fornecedor e nome do endereço de pagamento nas faturas

O nome da empresa geralmente aparece no topo de uma fatura ou conta de serviços públicos, mas, às vezes, pode não ser legível, pois há apenas um logotipo e o nome da empresa não está escrito explicitamente. Também pode haver algum carimbo, manuscrito ou vinco sobre o texto. Nesses casos, alguns podem rotular o nome que aparece no canto inferior direito, na seção Enviar pagamento para do recibo de pagamento de contas de serviços públicos. Esse nome é, muitas vezes, o mesmo, mas nem sempre, pois é um conceito diferente. Os pagamentos podem ser feitos para outra empresa controladora ou holding, ou outra entidade afiliada, e é visualmente diferente no documento. Isso pode levar a um desempenho pobre do modelo. Neste caso, você deve criar dois campos, vendor-name para nome do fornecedor e payment-addr-name para o destinatário do pagamento. Em seguida, você pode procurar ambos em um banco de dados de fornecedores e usar aquele que corresponde, ou usar o payment-addr-name quando o nome do fornecedor estiver ausente.

Linhas de tabelas

Há dois conceitos distintos a serem lembrados: linhas de tabela e linhas de texto. Uma linha de tabela inclui todos os valores de todos os campos de colunas que pertencem a essa linha. Às vezes, todos podem fazer parte da mesma linha de texto que atravessa a página. Outras vezes, podem estar em linhas diferentes.

Se uma linha da tabela consiste em mais de uma linha de texto, você precisa agrupar todos os valores nessa linha da tabela usando a tecla de atalho “/”. Ao fazer isso, uma caixa verde aparecerá cobrindo toda a linha da tabela. Aqui está um exemplo de uma tabela em que as duas primeiras linhas consistem em várias linhas de texto e precisam ser agrupadas usando a tecla de atalho “/”, enquanto a terceira linha é uma única linha de texto e não precisa ser agrupada.



Este é um exemplo de uma tabela em que cada linha consiste em uma única linha de texto. Você não precisa agrupá-los usando a tecla de atalho “/”, pois isso é feito implicitamente pelo Document Manager.



Identificar onde uma linha termina e outra começa durante a leitura de cima para baixo pode ser um grande desafio para os modelos de extração de ML, especialmente em documentos como formulários em que não há linhas horizontais visuais separando linhas. Dentro dos nossos pacotes de ML, há um modelo especial que é treinado para dividir as tabelas em linhas corretamente. Este modelo é treinado usando esses grupos que você rotula com as teclas “/” ou “Enter” e que são indicados pelas caixas transparentes verde.

3. Criar um conjunto de dados de treinamento

A tecnologia Machine Learning tem como principal benefício poder lidar com problemas complexos com alta diversidade. Ao estimar o tamanho de um conjunto de dados de treinamento, deve-se observar primeiro o número de campos e seus tipos e o número de idiomas. Um único modelo pode lidar com vários idiomas, com exceção de chinês/japonês/coreano. Os cenários posteriores geralmente exigem conjuntos de dados de treinamento separados e modelos separados.

Há 3 tipos de campos:

  1. Campos regulares (data, valor total)

    Para campos regulares, você precisa de pelo menos 20 a 50 amostras de documentos por campo. Portanto, se você precisar extrair 10 campos regulares, precisará de pelo menos 200 a 500 amostras. Se você precisar extrair 20 campos regulares, precisará de pelo menos 400-1000 amostras. A quantidade de amostras que você precisa aumenta com o número de campos. Mais campos significa que você precisa de mais amostras, cerca de 20 a 50 vezes mais.

  2. Campos de coluna (preço unitário do item, quantidade do item)

    Para campos de coluna, você precisa de pelo menos 50-200 amostras de documentos por campo de coluna, portanto, para campos de 5 colunas, com layouts limpos e simples, você pode obter bons resultados com 300 amostras de documentos, mas para layouts altamente complexos e diversos, pode exigir mais 1.000. Para abranger vários idiomas, você precisa de pelo menos 200 a 300 amostras por idioma, supondo que cubram todos os campos diferentes. Portanto, para 10 campos de cabeçalho e 4 campos de coluna com 2 idiomas, 600 amostras podem ser suficientes (400 para as colunas e cabeçalhos mais 200 para o idioma adicional), mas alguns casos podem exigir 1200 ou mais.

  3. Campos de classificação (moeda)

    Os campos de classificação geralmente exigem pelo menos 10 a 20 amostras de cada classe.

O intervalo recomendado para o tamanho do conjunto de dados é baseado nas informações fornecidas na guia Calculadora. Para cenários mais simples com poucos campos regulares e layouts de documentos claros, é possível obter bons resultados com conjuntos de dados no intervalo baixo laranja. Para cenários complexos, principalmente envolvendo tabelas complexas com muitas colunas, bons resultados podem exigir conjuntos de dados no intervalo alto laranja, ou até mesmo verde.

Importante: a tecnologia de ML foi projetada para lidar com cenários de alta diversidade. Usá-la para treinar modelos em cenários de baixa diversidade (1-10 layouts) requer cuidado especial para evitar modelos frágeis, sensíveis a pequenas alterações no texto OCR. Evite isso tendo alguma variabilidade deliberada nos documentos de treinamento, imprimindo e digitalizando ou fotografando-os com aplicativos de scanner no celular. As pequenas distorções ou mudanças de resolução tornam o modelo mais robusto.

Além disso, essas estimativas pressupõem que a maioria das páginas contém todos ou a maioria dos campos. Nos casos em que você possui documentos com várias páginas, mas a maioria dos campos está em uma única página, o número relevante de páginas é o número de exemplos daquela página em que a maioria dos campos aparece.

Os números acima são diretrizes gerais, não requisitos rigorosos. Em geral, você pode começar com um conjunto de dados menor e continuar adicionando dados até obter uma boa precisão. Isso é especialmente útil para paralelizar o trabalho de RPA com a construção do modelo. Além disso, uma primeira versão do modelo pode ser usada para pré-rotular dados adicionais (consulte a modo de exibição Configurações e o botão Prever no Document Manager), o que pode acelerar a rotulagem de dados de treinamento adicionais.

Os modelos de Deep Learning podem generalizar

Você não precisa ter todos os layouts representados em um conjunto de treinamento. Na verdade, é possível que a maioria dos layouts em nosso fluxo de documentos de produção tenha zero amostras em seu conjunto de treinamento, ou talvez 1 ou 2 amostras. Isso é desejável, pois você deseja aproveitar o poder da IA para entender os documentos e ser capaz de fazer previsões corretas sobre documentos que não viu durante o treinamento. Um grande número de amostras por layout não é obrigatório, pois a maioria dos layouts pode não estar presente ou estar presente apenas 1 ou 2 vezes, e o modelo ainda seria capaz de prever corretamente, com base no aprendizado de outros layouts.

Treinamento em um modelo predefinido

Uma situação comum é extrair dados de Faturas, para as quais temos um modelo predefinido pré-treinado, mas, além disso, você tem mais 2 campos Regulares e mais 1 campo Coluna que o modelo de Faturas pré-treinado não reconhece. Nesse caso, você geralmente precisará de um conjunto de dados muito menor do que se tivesse treinado todos os campos do zero. A estimativa do tamanho do conjunto de dados é fornecida ao criar um Tipo de Documento no Document Understanding Cloud e é então acessível na visualização do Diagnóstico do Conjunto de Dados. No entanto, lembre-se de que quaisquer documentos que você use para treinar um modelo devem ser rotulados completamente, incluindo os novos campos, que o modelo predefinido não reconhece, e também o original dos campos, que o robô o modelo pré-configurado reconhece.

Ocorrências de campo desiguais

Alguns campos podem existir em todos os documentos (por exemplo, data, número da fatura), enquanto alguns campos podem aparecer apenas em 10% dos documentos (por exemplo, taxas de manuseio, desconto). Nesses casos, você precisa tomar uma decisão de negócios. Se esses campos incomuns não forem críticos para sua automação, um pequeno número de amostras (10-15) desse campo específico será suficiente, ou seja, páginas que contenham um valor para esse campo. No entanto, se esses campos forem críticos, você precisará incluir em seu conjunto de treinamento pelo menos 30 a 50 amostras desse campo para garantir a cobertura total da diversidade.

Conjuntos de dados equilibrados

No caso de faturas, se um conjunto de dados contém faturas de 100 fornecedores, mas metade do conjunto de dados consiste apenas em faturas de um único fornecedor, esse é um conjunto de dados muito desequilibrado. Um conjunto de dados perfeitamente equilibrado exige que cada fornecedor apareça um número igual de vezes. Os conjuntos de dados não precisam ser perfeitamente equilibrados, mas você deve evitar que mais de 20% de todo o seu conjunto de dados seja proveniente de um único fornecedor. Em algum ponto, mais dados não ajudam e podem até degradar a precisão de outros fornecedores, pois o modelo se otimizará demasiadamente (ajuste em excesso) para um fornecedor.

Conjuntos de dados representativos

Os dados devem ser escolhidos para cobrir a diversidade de documentos que provavelmente serão vistos no fluxo de trabalho de produção. Por exemplo, se você recebe faturas em inglês, mas algumas delas vêm dos EUA, Índia e Austrália, provavelmente terão aparência diferente, então você precisa ter certeza de ter amostras de documentos de todos as três. Isso é relevante não apenas para o treinamento do modelo em si, mas também para fins de rotulagem porque, ao rotular os documentos, você pode descobrir que precisa extrair campos novos e diferentes de algumas dessas regiões, como código GSTIN da Índia ou código ABN de Austrália.

Divisão de treinamento/validação

Qualquer conjunto de dados de treinamento é dividido automaticamente nos bastidores em um conjunto de treinamento (selecionado aleatoriamente em 80%) e um conjunto de validação (selecionado aleatoriamente em 20%). Durante o treinamento de modelos de aprendizagem profunda, o conjunto de treinamento é usado para backpropagation, a parte que modifica os pesos dos nós na rede, enquanto o conjunto de validação é usado apenas para saber quando interromper o treinamento. Em outras palavras, é usada para evitar o sobreajuste ao conjunto de treinamento.

É assim que podemos obter pontuações de avaliação completas no final de qualquer execução de treinamento: retornamos as pontuações no conjunto de Validação. Este conjunto não é tecnicamente usado para treinar a rede, apenas para evitar o sobreajuste. No entanto, como é selecionado aleatoriamente 20% de todo o conjunto de dados, ele costuma ser distribuído de forma semelhante para o conjunto de treinamento. Essa consistência é boa, porque significa que as pontuações obtidas refletem a capacidade do modelo de aprender com os dados, que geralmente nos preocupamos. Se um modelo não consegue aprender, isso significa que os dados são inconsistentes ou que o modelo tem uma limitação, e essas são coisas críticas que precisamos saber imediatamente ao treinar um modelo.

A desvantagem dessa abordagem é que as pontuações não podem necessariamente ser comparadas exatamente com uma maçã à medida que o conjunto de dados cresce, e também que as pontuações não refletem a capacidade do modelo de generalizar – apenas sua capacidade de aprender. No entanto, as comparações de maiúsculas e minúsculas e medir a capacidade de generalizar são preocupações técnicas da ciência de dados, que têm apenas um impacto indireto no desempenho dos negócios ou no ROI para a maioria das automações.

4. Label the training dataset

Ao rotular dados de treinamento, você precisa se concentrar nas caixas delimitadoras das palavras no painel de documentos do Document Manager. Os valores analisados nas barras laterais direita ou superior não são importantes, pois não são usados para treinamento.

Sempre que um campo aparecer várias vezes em uma página, desde que representem o mesmo conceito, todos eles devem ser rotulados.

Quando o OCR perder uma palavra ou errar alguns caracteres, apenas rotule a caixa delimitadora, se houver, e, se não, ignore-a e continue. Não há possibilidade de adicionar uma palavra no Document Manager, pois, mesmo que você tenha feito isso, a palavra ainda estaria ausente durante a execução, portanto, adicioná-la não ajuda em nada o modelo.

Ao rotular, fique atento aos campos que podem ter significados/conceitos múltiplos ou sobrepostos, caso você precise dividir um campo em dois campos separados ou campos dos quais não precisa explicitamente, mas que, se rotulados, podem ajudá-lo para fazer determinada lógica de verificação de validação ou autoconsistência no fluxo de trabalho de RPA. Exemplos típicos são quantidade, preço unitário e valor de linha em itens de linha de fatura. Valor de linha é o produto da quantidade e preço unitário, o que é muito útil para verificar a consistência sem a necessidade de níveis de confiança.

5. Train the extractor

Para criar um extrator, acesse a visualização de Extratores no Document Understanding e clique no botão Criar extrator no canto superior direito. Em seguida, é possível selecionar o Tipo de documento, o Modelo de ML e a Versão que deseja usar. Você pode monitorar o progresso na guia Extratores ou na visualização Detalhes do Extrator, que contém um link para o pipeline do AI Center, onde você pode ver os logs detalhados em tempo real.

Ao avaliar um modelo de ML, a ferramenta mais poderosa é a avaliação_<package name>.xlsx gerado na pasta artefatos/eval_metrics na exibição de detalhes do pipeline do AI Center. Na primeira planilha, você pode ver um relatório detalhado de pontuações de precisão, incluindo pontuações gerais e também por campo e por lote.

Nesse arquivo do Excel, você pode visualizar quais previsões estão falhando e em quais arquivos, e também ver imediatamente se é um erro de OCR, ou um erro de extração ou análise de ML e se pode ser corrigido por lógica simples no fluxo de trabalho de RPA, ou é necessário um mecanismo de OCR diferente, mais dados de treinamento ou melhoria da rotulagem ou das configurações de campo no Document Manager.

Esse arquivo do Excel também é muito útil para identificar as regras de negócios mais relevantes que você precisa aplicar ao fluxo de trabalho de RPA para detectar erros comuns no roteamento para o Validation Station no Actions Center para revisão manual. As regras de negócios são, de longe, a maneira mais confiável de detectar erros.

Para os erros que não podem ser detectados pelas regras de negócios, você também pode usar níveis de confiança. O arquivo do Excel também contém níveis de confiança para cada previsão para que você possa usar os recursos do Excel, como classificação e filtragem, e determinar qual é um bom limite de confiança para seu cenário de negócios.

No geral, o arquivo de avaliação_<package_name>.xlsx O arquivo do Excel é um recurso importante no qual você precisa se concentrar para obter os melhores resultados de sua automação de IA.

Importante: o treinamento de GPU é altamente recomendado para conjuntos de dados grandes e de produção. O treinamento de CPU é muito mais lento e deve ser usado com moderação, para pequenos conjuntos de dados para fins de demonstração ou teste. Para mais informações, consulte a página Pipelines de treinamento.

6. Define and implement business rules

Nesta etapa, você deve se preocupar com os erros do modelo e como detectá-los. Existem duas maneiras principais de detectar erros:

  • através da aplicação de regras de negócios
  • por meio da aplicação de pesquisas em Sistemas de Registro na organização do cliente
  • através da aplicação de um limite mínimo de nível de confiança

A maneira mais eficaz e confiável de detectar erros é definindo regras de negócios e pesquisas. Os níveis de confiança nunca podem ser 100% perfeitos, sempre haverá uma porcentagem pequena, mas diferente de zero, de previsões corretas com baixa confiança ou previsões erradas com alta confiança. Além disso, e talvez o mais importante, um campo ausente não tem confiança, portanto, um limite de confiança nunca pode detectar erros nos quais um campo não é extraído. Consequentemente, os limites de nível de confiança devem ser usados apenas como um fallback, uma rede de segurança, mas nunca como a principal maneira de detectar erros críticos para os negócios.

Exemplos de regras de negócios:

  • O valor líquido mais o valor do imposto deve ser igual ao valor total
  • O valor total deve ser maior ou igual ao valor líquido
  • Número da fatura, data, valor total (e outros campos) devem estar presentes
  • O número de PO (se presente) deve existir no banco de dados PO
  • A data de fatura deve estar no passado e não pode ter mais de X meses
  • A data de vencimento deve ser no futuro e não mais de Y dias/meses
  • Para cada item de linha, a quantidade multiplicada pelo preço unitário deve ser igual ao valor da linha
  • A soma dos valores das linhas deve ser igual ao valor líquido ou total
  • etc.
Observação: no caso de números, é realizado um arredondamento para oito casas decimais.

Em específico, os níveis de confiança dos campos de coluna quase nunca devem ser usados como um mecanismo de detecção de erros, uma vez que os campos de coluna (por exemplo, itens de linha em faturas ou ordens de compra) podem ter dezenas de valores, portanto, definir um limite mínimo para tantos valores pode ser especialmente não confiável, pois é mais do que provável que um valor tenha pouca confiança, portanto, isso levaria a maioria/todos os documentos a serem encaminhados para validação humana, muitas vezes desnecessariamente.

As regras de negócios devem ser aplicadas como parte do fluxo de trabalho de RPA, e a falha da regra de negócios é passada ao validador humano para direcionar sua atenção e acelerar o processo.
Observação: ao definir Regras de negócios, tenha em mente que os valores Inicia com, Termina com e Contém diferenciam maiúsculas e minúsculas..

7. (Opcional) Escolha um limite de confiança

Após a definição das regras de negócios, às vezes, pode haver um pequeno número de campos para os quais não há regras de negócios em vigor ou para os quais as regras de negócios provavelmente não detectarão todos os erros. Para isso, pode ser necessário usar um limite de confiança como último recurso.

A principal ferramenta para definir esse limite é a planilha do Excel, gerada pelo pipeline de treinamento na pasta Outputs > artifacts > eval_metrics .

Este arquivo de avaliação_<package name>.xlsx contém uma coluna para cada campo e uma coluna para o nível de confiança de cada previsão. Ao classificar a tabela com base nas colunas de confiança, você poderá visualizar onde os erros começam a aparecer para qualquer campo fornecido e definir um limite acima desse nível para garantir que apenas os documentos extraídos corretamente sejam enviados diretamente.

8. Ajuste fino com Dados da Estação de Validação

Os dados do Validation Station podem ajudar a melhorar as previsões do modelo, mas, muitas vezes, verifica-se que a maioria dos erros não se deve ao modelo em si, mas ao OCR, erros de rotulagem, inconsistências ou problemas de pós-processamento (por exemplo, formatação de data ou número). Portanto, o primeiro aspecto chave é que os dados do Validation Station devem ser usados somente após os outros Componentes de Extração de Dados terem sido verificados e otimizados para garantir uma boa precisão, e a única área restante de melhoria é a própria previsão do modelo.

O segundo aspecto fundamental é que os dados do Validação Station têm uma densidade de informações menor do que os dados rotulados no Document Manager. Fundamentalmente, o usuário do Validação Station só se preocupa com obter o valor certo uma vez. Se uma fatura tiver 5 páginas e o número da fatura aparecer em todas as páginas, o usuário do Validation Station a validará apenas na primeira página. Assim, 80% dos valores permanecem não rotulados. No Document Manager, todos os valores são rotulados.

Por fim, lembre-se de que os dados do Validation Station precisam ser adicionados ao conjunto de dados rotulado manualmente original para que você sempre tenha um único conjunto de dados de treinamento que aumenta de tamanho ao longo do tempo. Você sempre precisa treinar no Pacote de ML com a versão secundária 0 (zero), sendo a versão predefinida (Out of the Box) lançada pela UiPath.

Importante: muitas vezes, supõe-se erroneamente que a maneira de usar os dados da Estação de Validação é treinar iterativamente a versão do modelo anterior, de modo que o lote atual seja usado para treinar o pacote X.1 e obter X.2. Em seguida, o próximo lote treina X.2 para obter X.3, e assim por diante. Esta é a maneira errada de usar o produto. Cada lote da Estação de validação precisa ser importado para a mesma sessão do Document Manager que os dados originais rotulados manualmente, criando um conjunto de dados maior, que deve ser usado para treinar sempre na versão X.0 do Pacote de ML.

Avisos sobre o uso de dados do Validation Station

Os dados do Validation Station podem ter um volume muito maior, pois são usados no fluxo de trabalho de Production . Você não deseja que o conjunto de dados fique sobrecarregado com dados do Validation Station, pois isso pode degradar a qualidade do modelo devido ao problema de densidade de informações mencionado acima.

A recomendação é adicionar no máximo 2 a 3 vezes o número de páginas de dados do Document Manager e, além disso, selecionar apenas os fornecedores ou amostras em que você vê grandes falhas. Se houver grandes alterações conhecidas nos dados de Production , como um novo idioma ou uma nova região geográfica sendo integrada ao processo de negócios (expandindo dos EUA para a Europa ou Sul da Ásia), os dados representativos para esses idiomas e regiões devem ser adicionados. ao Document Manager para rotulagem manual. Os dados do Validation Station não são apropriados para essa grande expansão de escopo.

Um outro problema potencial com os dados do Validation Station é o balanceamento. Na Production , é comum que a maior parte do tráfego venha de um pequeno subconjunto de fornecedores/clientes/regiões do mundo. Se permitido no conjunto de treinamento como está, isso pode levar a um modelo altamente viesado, que tem um bom desempenho em um pequeno subconjunto dos dados, mas tem um desempenho ruim na maior parte dos dados restantes. Portanto, é importante ter um cuidado especial ao adicionar dados do Validation Station a um conjunto de treinamento.

Este é um cenário de amostra. Você escolheu um bom mecanismo de OCR, rotulou 500 páginas no Document Manager, resultando em um bom desempenho e implantou o modelo em um fluxo de trabalho de RPA de produção. A Estação de validação está começando a gerar dados. Você deve selecionar aleatoriamente até um máximo de 1.000 a 1.500 páginas da Estação de validação e importá-las para o Document Manager junto com as primeiras 500 páginas e treinar novamente seu modelo de ML. Depois disso, você deve examinar com muita atenção o evaluation_<package name>.xlsx para certificar-se de que o modelo realmente melhorou, e então você deve implantar o novo modelo na produção.

9. Deploy your automation

Certifique-se de usar o processo do Document Understanding Process: modelo Studio da seção Modelos na tela inicial do Studio para aplicar as práticas recomendadas na arquitetura Enterprise RPA.

Was this page helpful?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Logotipo branco da Uipath
Confiança e segurança
© 2005-2024 UiPath. All rights reserved.