document-understanding

latest

false

Guia do usuário do Document Understanding.

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 12 de dez de 2024

Treinamento de modelos de alto desempenho

O poder dos modelos de Machine Learning é que são definidos por dados de treinamento, e não por lógica explícita expressa em código de computador. Isso significa que é necessário um cuidado extraordinário ao preparar conjuntos de dados porque um modelo terá a qualidade do conjunto de dados usado para treiná-lo. Nesse sentido, o que o UiPath® Studio é para fluxos de trabalho de RPA, uma sessão de Tipo de documento (no Document Understanding^TM Cloud) é para recursos de Machine Learning.Ambos requerem certa experiência para serem usados de forma eficaz.

O que um modelo de ML de extração de dados pode fazer?

Um Modelo de ML pode extrair dados de um único tipo de documento, embora possa abranger vários idiomas diferentes. É essencial que cada campo (Valor Total, Data, etc.) tenha um significado único e consistente. Se um ser humano pode se confundir em relação ao valor correto de um campo, um Modelo de ML também pode se confundir.

Situações ambíguas podem aparecer. Por exemplo, uma conta de serviços públicos é apenas outro tipo de fatura? Ou são dois tipos de documentos diferentes que exigem dois Modelos de ML diferentes? Se os campos que você precisa extrair são os mesmos (ou seja, eles têm o mesmo significado), você pode tratá-los como um único tipo de documento. No entanto, se você precisar extrair campos diferentes por motivos diferentes (processos de negócios diferentes), precisará tratá-los como dois tipos de documentos distintos e, portanto, treinar dois modelos diferentes.

Em caso de dúvida, comece treinando um único modelo, mas mantenha os documentos em lotes diferentes do Document Manager (consulte o menu suspenso Filtro na parte superior da exibição) para poder separá-los facilmente posteriormente, se necessário. Desta forma, o trabalho de rotulagem não é perdido. Quando se trata de Modelos de ML, quanto mais dados, melhor. Portanto, ter um único modelo com dados amplos é um bom ponto de partida.

Conjuntos de dados de treinamento e avaliação

O Document Manager pode ser usado para criar dois tipos de conjuntos de dados: conjuntos de dados de treinamento e conjuntos de dados de avaliação.

Os conjuntos de dados de avaliação são relevantes para cientistas de dados ou para solucionar problemas detalhados para reproduzir determinados problemas. No entanto, para a grande maioria dos cenários de automação Enterprise , apenas o conjunto de dados de treinamento é necessário e recomendado. Os pipelines de treinamento agora retornam artefatos de pontuação completos, incluindo os seguintes:

Precisão geral do modelo - é usada como a principal pontuação exibida na exibição de Detalhes do extrator do Document Understanding e na pasta de artefatos do AI Center (também acessível a partir do Document Understanding).
Pontuação F1 geral e de nível de campo do modelo - isso é fornecido por motivos históricos na pasta de artefatos do AI Center (também acessível a partir do Document Understanding).
Métricas detalhadas por campo e por lote, bem como a comparação de desempenho lado a lado no arquivo do Excel disponível na pasta de artefatos do AI Center (também acessível a partir do Document Understanding).

A pontuação do modelo como parte do treinamento é possível porque o conjunto de treinamento é automaticamente dividido aleatoriamente em 80%/20% entre os dados de Treinamento e Validação, e as pontuações são calculadas nos dados de Validação.

À medida que o conjunto de dados aumenta, tanto a divisão de treinamento quanto a de validação evoluem, o que significa que as pontuações não são diretamente comparáveis ao longo do tempo (que é o que um cientista de dados estaria interessado). No entanto, eles refletem o desempenho do modelo nos dados mais recentes e, portanto, são mais representativos do desempenho atual do modelo nos dados de Production atuais (que são os proprietários do processo de negócios interessados).

Com essa abordagem, você tem os seguintes benefícios:

Você não corre o risco de olhar para pontuações medidas em dados obsoletos, potencialmente antigos.
Você reduz a quantidade de rotulagem necessária.
Todos os dados rotulados contribuem para a melhoria do modelo, levando a um melhor desempenho mais rapidamente.

Componentes de extração de dados

A extração de dados depende dos seguintes componentes:

Reconhecimento de caracteres óptico
Pós-processamento de OCR
- Compilação de Palavra e Linha
- Agrupando caracteres em palavras e palavras em linhas de texto
Previsão do modelo de Machine Learning para cada palavra/caixa na página
Normalização de dados
- Por exemplo, agrupar palavras em várias linhas em um endereço, formatar uma data no formato padrão aaaa-mm-dd
Seleção de valor
- Aplicando um algoritmo para selecionar qual das várias instâncias de um determinado valor é realmente retornada, para os casos em que o documento tem duas ou mais páginas e alguns campos aparecem em mais de uma página.

Níveis de confiança

O que são níveis de confiança?

Quando os modelos de ML fazem previsões, elas são basicamente suposições estatísticas. O modelo está dizendo este é "provavelmente o Valor Total" desta Fatura. Isso levanta a pergunta: qual a probabilidade? Os níveis de confiança são uma tentativa de responder a essa pergunta em uma escala de 0 a 1. No entanto, eles NÃO são estimativas de probabilidade verdadeiras. São apenas o grau de confiança que o modelo tem de suas suposições, portanto, dependem de como o modelo foi treinado. Uma maneira melhor de pensar neles é como uma medida de familiaridade: qual é o grau de familiaridade do modelo com essa entrada do modelo? Se ela for semelhante a algo que o modelo viu no treinamento, pode ter uma confiança maior. Caso contrário, pode ter uma confiança menor.

Qual a utilidade dos níveis de confiança?

As automações de negócios precisam de maneiras de detectar e lidar com exceções, ou seja, instâncias em que uma automação apresenta erro. Nas automações tradicionais, isso é bastante óbvio porque quando um fluxo de trabalho de RPA apresenta erro, ele simplesmente para, trava ou gera um erro. Esse erro pode ser detectado e tratado de acordo. No entanto, os modelos de machine learning não geram erros quando fazem previsões ruins. Então, como determinamos quando um modelo de ML cometeu um erro e o fluxo de processamento de exceções precisa ser disparado? Isso geralmente envolve o envolvimento manual humano, talvez usando o Action Center.

A melhor maneira de detectar previsões ruins é, indiscutivelmente, por meio da aplicação das regras de negócios. Por exemplo, sabemos que, em uma fatura, o valor líquido mais o valor do imposto deve ser igual ao valor total. Ou que os números de peça dos componentes solicitados devem ter 9 dígitos. Quando essas condições não se aplicam, sabemos que algo deu errado e podemos disparar o fluxo de processamento de exceções. Essa é a abordagem preferida e fortemente recomendada. Vale a pena empregar um esforço significativo na criação desses tipos de regras, mesmo usando Expressões Regulares complexas ou até mesmo pesquisas em bancos de dados para validar nomes de fornecedores, números de peça etc. Em alguns casos, você pode até extrair outro documento que não seja de interesse, mas apenas cruzar a referência e validar alguns valores para o documento original de interesse.

No entanto, em alguns casos, nenhuma dessas opções existe e você ainda deseja detectar previsões potencialmente ruins. Nesses casos, você pode basear-se no nível de confiança. Quando o nível de confiança de uma previsão é baixo, digamos, abaixo de 0,6, o risco de que a previsão esteja incorreta é maior do que se a confiança for 0,95. No entanto, essa correlação é bastante fraca. Há muitas instâncias em que um valor é extraído com baixa confiança, mas está correto. Também é possível, embora relativamente raro, que um valor seja extraído com alta confiança (acima de 0,9), mas está incorreto. Por esses motivos, recomendamos fortemente que os usuários confiem nas regras de negócios o máximo possível e usem apenas os níveis de confiança como último recurso.

Quais tipos de níveis de confiança existem?

A maioria dos componentes no produto Document Understanding^TM retorna um nível de confiança. Os principais componentes de um fluxo de trabalho do Document Understanding^TM são Digitalização, Classificação e Extração.Cada um deles tem uma certa confiança para cada previsão. As confianças da Digitalização e da Extração são expostas visualmente na Estação de Validação, então você pode filtrar previsões e se concentrar apenas nas de baixa confiança, para economizar tempo.

Escalonamento de pontuação de confiança (ou calibração)

Os níveis de confiança de diferentes modelos serão dimensionados de forma diferente, dependendo do design do modelo. Por exemplo, alguns modelos retornam níveis de confiança no intervalo 0,9 a 1 quase sempre, e muito raramente, abaixo de 0,8. Outros modelos têm níveis de confiança espalhados muito mais uniformemente entre 0 e 1, mesmo que geralmente estejam clusterizados na extremidade superior da escala. Como resultado, os limites de confiança em modelos diferentes serão diferentes. Por exemplo, um limite de confiança no OCR não será o mesmo que o limite no Extrator de ML ou no Classificador de ML. Além disso, sempre que houver uma importante atualização de arquitetura em um modelo, como a que está chegando com o lançamento da arquitetura de modelo generativo de IA baseado em DocPath, a distribuição do nível de confiança será alterada, e os limites de confiança precisarão ser reavaliados.

Crie um modelo de ML de alto desempenho

Para obter o melhor resultado em termos de taxa de automação (redução percentual do trabalho manual medido em pessoas-mês por ano necessário para processar seu fluxo de documentos), você deve seguir estas etapas com atenção:

Escolha o melhor mecanismo de OCR para seus documentos

Isso influencia tanto o OCR quanto a construção de palavras e linhas (que depende parcialmente do OCR) e, por consequência, tudo relacionado.
Defina os campos a serem extraídos
Selecione um conjunto de dados bem equilibrado e representativo para treinamento
Rotule o conjunto de dados de treinamento
Treine o Extrator
Defina e implemente as regras de negócios para processamento do output do modelo
(Opcional) Escolha os limites de confiança para a extração
Treinamento usando dados do Validation Station
Implante sua automação

1. Escolha o mecanismo de OCR

Sua opção padrão deve ser UiPath Document OCR para idiomas baseados em latinos latinos ou OCR em chinês-japonês-coreano. Caso você precise processar outros idiomas, incluindo cirílico, script DevanAcris, tailandês, Vietnamita, Árabe, Hebraico ou Persa, você pode preferir Microsoft Azure Read OCR (somente Cloud), Google Cloud Vision OCR (somente Cloud) ou Omnipage OCR (Atividade pacote no Studio). Vale a pena criar algumas sessões diferentes do Document Manager com diferentes mecanismos de OCR para verificar qual tem o melhor desempenho em seus documentos. Alterar o mecanismo de OCR posteriormente no projeto pode ser alto.

Esteja ciente de que a atividade Digitalizar Documento tem a configuração ApplyOcrOnPDF definida como Auto por padrão, o que significa ao ser executada em documentos .pdf , por padrão, a opção Digitalizar tenta extrair o máximo de texto possível do arquivo em si mesmo e apenas imagens OCR, como logotipos, e combine os resultados.

No entanto, arquivos .pdf às vezes corrompidos ou com formatação anormal, o que leva a erros no texto extraído. Nesse caso, defina AplicarOcrEmPDFs como Sim.

Outro benefício da aplicação de OCR em todos os arquivos PDF documentos usando o UiPath Document OCR é que o UiPath Document OCR reconhece as caixas de seleção, que são elementos críticos de documentos, como formulários. Esteja ciente, no entanto, de que aplicar OCR em tudo desacelerar um pouco a Digitalização.

2. Definir campos

A definição de campos é uma conversa que precisa acontecer com o especialista no assunto ou o especialista no domínio, que sejam responsáveis pelo processo de negócios. Para faturas, seria o proprietário do processo de Contas a Pagar. Essa conversa é crítica, precisa acontecer antes que qualquer documento seja rotulado para evitar perda de tempo e requer avaliar juntos um mínimo de 20 amostras de documentos escolhidas aleatoriamente. Um intervalo de uma hora precisa ser reservado para isso e, muitas vezes, precisa ser repetido após alguns dias, pois a pessoa que prepara os dados se depara com situações ambíguas ou casos extremos.

Não é incomum que a conversa comece com a suposição de que você precisa extrair, digamos, 10 campos, e termina com 15. Alguns exemplos são descritos nas subseções abaixo.

Algumas configurações importantes que você precisa conhecer:

Tipo de Conteúdo
Esta é a configuração mais importante, pois determina o pós-processamento dos valores, especialmente para datas (detecta se o formato é estilo americano ou não americano e os formata como aaaa-mm-dd) e para números (detecta o separador decimal – vírgula ou ponto). Os números de identificação limpam qualquer coisa que venha antes de dois pontos ou símbolo de hash. O tipo de conteúdo String não realiza limpeza e pode ser usado quando você deseja fazer sua própria análise no fluxo de trabalho RPA.
Caixa de seleção multi-linha
Isto é para analisar strings como endereços que podem aparecer em mais de 1 linha de texto.
Caixa de seleção de vários valores
Isso é para lidar com campos de múltipla escolha ou outros campos que podem ter mais de um valor, mas NÃO são representados como uma coluna de tabela. Por exemplo, uma pergunta de grupo Étnica em um formulário do governo pode conter várias caixas de seleção onde você pode selecionar todas as que se aplicam.
Campos ocultos
Os campos marcados como Ocultos podem ser rotulados, mas são mantidos quando os dados são exportados, de modo que o modelo não pode ser treinado neles. Isso é útil quando rotular um campo é um trabalho em andamento, quando é muito raro ou quando é de baixa prioridade.
Pontuação
Isso é relevante apenas para pipelines de avaliação e afeta como a pontuação de precisão é calculada. Um campo que usa pontuação Levenshtein é mais permissivo: se um único caractere entre 10 estiver errado, a pontuação é 0,9. No entanto, se a pontuação for uma Correspondência Exata , é mais rigorosa: um único caractere errado leva a uma pontuação de zero. Apenas os campos do tipo String têm a opção de selecionar a pontuação Levenshtein por padrão.

Quantidades em contas de serviço público

Um valor total pode parecer bastante simples, mas as contas de serviços públicos contêm muitos valores. Às vezes, você precisa do valor total a ser pago. Outras vezes, você precisa apenas do valor da fatura atual – sem os valores acumulados de períodos de cobrança anteriores. Neste último caso, você precisa rotular de forma diferente, mesmo que a fatura atual e o valor total possam ser os mesmos. Os conceitos diferem e os valores são, muitas vezes, diferentes.

Observação: cada campo representa um conceito diferente e eles precisam ser definidos da maneira mais clara possível, para não haver confusão. Se um humano pode ficar confuso, o modelo de ML também ficará confuso.

Além disso, o valor atual da fatura, às vezes, pode ser composto de alguns valores, taxas e impostos diferentes e pode não aparecer individualizado em nenhum lugar da fatura. Uma possível solução para isso é criar dois campos: um campo de cobranças anteriores e um campo total . Esses dois sempre aparecem como valores explícitos distintos na conta de serviços públicos. Em seguida, o valor da fatura atual pode ser obtido como a diferença entre os dois. Você pode até querer incluir todos os 3 campos (cobranças anteriores, totaise cobranças atuais) para poder fazer algumas verificações de consistência nos casos em que o valor da fatura atual aparece explicitamente no documento. Assim, você pode optar de um a três campos em alguns casos.

Números de ordem de compra em faturas

Os números de pedido podem aparecer como valores únicos para uma fatura ou podem aparecer como parte da tabela de itens de linha em uma fatura, onde cada item de linha tem um número de pedido diferente. Nesse caso, pode fazer sentido ter dois campos diferentes: po-no (número de pedido) e item-po-no (número de pedido por item). Ao manter cada campo visual e conceitualmente consistente, o modelo provavelmente fará um trabalho muito melhor. No entanto, você precisa garantir que ambos estejam bem representados em seus conjuntos de dados de treinamento e avaliação.

Nome do fornecedor e nome do endereço de pagamento nas faturas

O nome da empresa geralmente aparece no topo de uma fatura ou conta de serviços públicos, mas, às vezes, pode não ser legível, pois há apenas um logotipo e o nome da empresa não está escrito explicitamente. Também pode haver algum carimbo, manuscrito ou vinco sobre o texto. Nesses casos, alguns podem rotular o nome que aparece no canto inferior direito, na seção Enviar pagamento para do recibo de pagamento de contas de serviços públicos. Esse nome é, muitas vezes, o mesmo, mas nem sempre, pois é um conceito diferente. Os pagamentos podem ser feitos para outra empresa controladora ou holding, ou outra entidade afiliada, e é visualmente diferente no documento. Isso pode levar a um desempenho pobre do modelo. Neste caso, você deve criar dois campos, vendor-name para nome do fornecedor e payment-addr-name para o destinatário do pagamento. Em seguida, você pode procurar ambos em um banco de dados de fornecedores e usar aquele que corresponde, ou usar o payment-addr-name quando o nome do fornecedor estiver ausente.

Linhas de tabelas

Há dois conceitos distintos a serem lembrados: linhas de tabela e linhas de texto. Uma linha de tabela inclui todos os valores de todos os campos de colunas que pertencem a essa linha. Às vezes, todos podem fazer parte da mesma linha de texto que atravessa a página. Outras vezes, podem estar em linhas diferentes.

Se uma linha da tabela consiste em mais de uma linha de texto, você precisa agrupar todos os valores nessa linha da tabela usando a tecla de atalho “/”. Ao fazer isso, uma caixa verde aparecerá cobrindo toda a linha da tabela. Aqui está um exemplo de uma tabela em que as duas primeiras linhas consistem em várias linhas de texto e precisam ser agrupadas usando a tecla de atalho “/”, enquanto a terceira linha é uma única linha de texto e não precisa ser agrupada.

Este é um exemplo de uma tabela em que cada linha consiste em uma única linha de texto. Você não precisa agrupá-los usando a tecla de atalho “/”, pois isso é feito implicitamente pelo Document Manager.

Identificar onde uma linha termina e outra começa durante a leitura de cima para baixo pode ser um grande desafio para os modelos de extração de ML, especialmente em documentos como formulários em que não há linhas horizontais visuais separando linhas. Dentro dos nossos pacotes de ML, há um modelo especial que é treinado para dividir as tabelas em linhas corretamente. Este modelo é treinado usando esses grupos que você rotula com as teclas “/” ou “Enter” e que são indicados pelas caixas transparentes verde.

3. Criar um conjunto de dados de treinamento

A tecnologia Machine Learning tem como principal benefício poder lidar com problemas complexos com alta diversidade. Ao estimar o tamanho de um conjunto de dados de treinamento, deve-se observar primeiro o número de campos e seus tipos e o número de idiomas. Um único modelo pode lidar com vários idiomas, com exceção de chinês/japonês/coreano. Os cenários posteriores geralmente exigem conjuntos de dados de treinamento separados e modelos separados.

Há 3 tipos de campos:

Campos regulares (data, valor total)
Para campos regulares, você precisa de pelo menos 20 a 50 amostras de documentos por campo. Portanto, se você precisar extrair 10 campos regulares, precisará de pelo menos 200 a 500 amostras. Se você precisar extrair 20 campos regulares, precisará de pelo menos 400-1000 amostras. A quantidade de amostras que você precisa aumenta com o número de campos. Mais campos significa que você precisa de mais amostras, cerca de 20 a 50 vezes mais.
Campos de coluna (preço unitário do item, quantidade do item)
Para campos de coluna, você precisa de pelo menos 50-200 amostras de documentos por campo de coluna, portanto, para campos de 5 colunas, com layouts limpos e simples, você pode obter bons resultados com 300 amostras de documentos, mas para layouts altamente complexos e diversos, pode exigir mais 1.000. Para abranger vários idiomas, você precisa de pelo menos 200 a 300 amostras por idioma, supondo que cubram todos os campos diferentes. Portanto, para 10 campos de cabeçalho e 4 campos de coluna com 2 idiomas, 600 amostras podem ser suficientes (400 para as colunas e cabeçalhos mais 200 para o idioma adicional), mas alguns casos podem exigir 1200 ou mais.
Campos de classificação (moeda)
Os campos de classificação geralmente exigem pelo menos 10 a 20 amostras de cada classe.

O intervalo recomendado para o tamanho do conjunto de dados é baseado nas informações fornecidas na guia Calculadora. Para cenários mais simples com poucos campos regulares e layouts de documentos claros, é possível obter bons resultados com conjuntos de dados no intervalo baixo laranja. Para cenários complexos, principalmente envolvendo tabelas complexas com muitas colunas, bons resultados podem exigir conjuntos de dados no intervalo alto laranja, ou até mesmo verde.

Importante: a tecnologia de ML foi projetada para lidar com cenários de alta diversidade. Usá-la para treinar modelos em cenários de baixa diversidade (1-10 layouts) requer cuidado especial para evitar modelos frágeis, sensíveis a pequenas alterações no texto OCR. Evite isso tendo alguma variabilidade deliberada nos documentos de treinamento, imprimindo e digitalizando ou fotografando-os com aplicativos de scanner no celular. As pequenas distorções ou mudanças de resolução tornam o modelo mais robusto.

Além disso, essas estimativas pressupõem que a maioria das páginas contém todos ou a maioria dos campos. Nos casos em que você possui documentos com várias páginas, mas a maioria dos campos está em uma única página, o número relevante de páginas é o número de exemplos daquela página em que a maioria dos campos aparece.

Os números acima são diretrizes gerais, não requisitos rigorosos. Em geral, você pode começar com um conjunto de dados menor e continuar adicionando dados até obter uma boa precisão. Isso é especialmente útil para paralelizar o trabalho de RPA com a construção do modelo. Além disso, uma primeira versão do modelo pode ser usada para pré-rotular dados adicionais (consulte a modo de exibição Configurações e o botão Prever no Document Manager), o que pode acelerar a rotulagem de dados de treinamento adicionais.

Os modelos de Deep Learning podem generalizar

Você não precisa ter todos os layouts representados em um conjunto de treinamento. Na verdade, é possível que a maioria dos layouts em nosso fluxo de documentos de produção tenha zero amostras em seu conjunto de treinamento, ou talvez 1 ou 2 amostras. Isso é desejável, pois você deseja aproveitar o poder da IA para entender os documentos e ser capaz de fazer previsões corretas sobre documentos que não viu durante o treinamento. Um grande número de amostras por layout não é obrigatório, pois a maioria dos layouts pode não estar presente ou estar presente apenas 1 ou 2 vezes, e o modelo ainda seria capaz de prever corretamente, com base no aprendizado de outros layouts.

Treinamento em um modelo predefinido

Uma situação comum é extrair dados de Faturas, para as quais temos um modelo predefinido pré-treinado, mas, além disso, você tem mais 2 campos Regulares e mais 1 campo Coluna que o modelo de Faturas pré-treinado não reconhece. Nesse caso, você geralmente precisará de um conjunto de dados muito menor do que se tivesse treinado todos os campos do zero. A estimativa do tamanho do conjunto de dados é fornecida ao criar um Tipo de Documento no Document Understanding Cloud e é então acessível na visualização do Diagnóstico do Conjunto de Dados. No entanto, lembre-se de que quaisquer documentos que você use para treinar um modelo devem ser rotulados completamente, incluindo os novos campos, que o modelo predefinido não reconhece, e também o original dos campos, que o robô o modelo pré-configurado reconhece.

Ocorrências de campo desiguais

Alguns campos podem existir em todos os documentos (por exemplo, data, número da fatura), enquanto alguns campos podem aparecer apenas em 10% dos documentos (por exemplo, taxas de manuseio, desconto). Nesses casos, você precisa tomar uma decisão de negócios. Se esses campos incomuns não forem críticos para sua automação, um pequeno número de amostras (10-15) desse campo específico será suficiente, ou seja, páginas que contenham um valor para esse campo. No entanto, se esses campos forem críticos, você precisará incluir em seu conjunto de treinamento pelo menos 30 a 50 amostras desse campo para garantir a cobertura total da diversidade.

Conjuntos de dados equilibrados

No caso de faturas, se um conjunto de dados contém faturas de 100 fornecedores, mas metade do conjunto de dados consiste apenas em faturas de um único fornecedor, esse é um conjunto de dados muito desequilibrado. Um conjunto de dados perfeitamente equilibrado exige que cada fornecedor apareça um número igual de vezes. Os conjuntos de dados não precisam ser perfeitamente equilibrados, mas você deve evitar que mais de 20% de todo o seu conjunto de dados seja proveniente de um único fornecedor. Em algum ponto, mais dados não ajudam e podem até degradar a precisão de outros fornecedores, pois o modelo se otimizará demasiadamente (ajuste em excesso) para um fornecedor.

Conjuntos de dados representativos

Os dados devem ser escolhidos para cobrir a diversidade de documentos que provavelmente serão vistos no fluxo de trabalho de produção. Por exemplo, se você recebe faturas em inglês, mas algumas delas vêm dos EUA, Índia e Austrália, provavelmente terão aparência diferente, então você precisa ter certeza de ter amostras de documentos de todos as três. Isso é relevante não apenas para o treinamento do modelo em si, mas também para fins de rotulagem porque, ao rotular os documentos, você pode descobrir que precisa extrair campos novos e diferentes de algumas dessas regiões, como código GSTIN da Índia ou código ABN de Austrália.

Divisão de treinamento/validação

Qualquer conjunto de dados de treinamento é dividido automaticamente nos bastidores em um conjunto de treinamento (selecionado aleatoriamente em 80%) e um conjunto de validação (selecionado aleatoriamente em 20%). Durante o treinamento de modelos de aprendizagem profunda, o conjunto de treinamento é usado para backpropagation, a parte que modifica os pesos dos nós na rede, enquanto o conjunto de validação é usado apenas para saber quando interromper o treinamento. Em outras palavras, é usada para evitar o sobreajuste ao conjunto de treinamento.

É assim que podemos obter pontuações de avaliação completas no final de qualquer execução de treinamento: retornamos as pontuações no conjunto de Validação. Este conjunto não é tecnicamente usado para treinar a rede, apenas para evitar o sobreajuste. No entanto, como é selecionado aleatoriamente 20% de todo o conjunto de dados, ele costuma ser distribuído de forma semelhante para o conjunto de treinamento. Essa consistência é boa, porque significa que as pontuações obtidas refletem a capacidade do modelo de aprender com os dados, que geralmente nos preocupamos. Se um modelo não consegue aprender, isso significa que os dados são inconsistentes ou que o modelo tem uma limitação, e essas são coisas críticas que precisamos saber imediatamente ao treinar um modelo.

A desvantagem dessa abordagem é que as pontuações não podem necessariamente ser comparadas exatamente com uma maçã à medida que o conjunto de dados cresce, e também que as pontuações não refletem a capacidade do modelo de generalizar – apenas sua capacidade de aprender. No entanto, as comparações de maiúsculas e minúsculas e medir a capacidade de generalizar são preocupações técnicas da ciência de dados, que têm apenas um impacto indireto no desempenho dos negócios ou no ROI para a maioria das automações.

4. Rotule o conjunto de dados de treinamento

Ao rotular dados de treinamento, você precisa se concentrar nas caixas delimitadoras das palavras no painel de documentos do Document Manager. Os valores analisados nas barras laterais direita ou superior não são importantes, pois não são usados para treinamento.

Sempre que um campo aparecer várias vezes em uma página, desde que representem o mesmo conceito, todos eles devem ser rotulados.

Quando o OCR perder uma palavra ou errar alguns caracteres, apenas rotule a caixa delimitadora, se houver, e, se não, ignore-a e continue. Não há possibilidade de adicionar uma palavra no Document Manager, pois, mesmo que você tenha feito isso, a palavra ainda estaria ausente durante a execução, portanto, adicioná-la não ajuda em nada o modelo.

Ao rotular, fique atento aos campos que podem ter significados/conceitos múltiplos ou sobrepostos, caso você precise dividir um campo em dois campos separados ou campos dos quais não precisa explicitamente, mas que, se rotulados, podem ajudá-lo para fazer determinada lógica de verificação de validação ou autoconsistência no fluxo de trabalho de RPA. Exemplos típicos são quantidade, preço unitário e valor de linha em itens de linha de fatura. Valor de linha é o produto da quantidade e preço unitário, o que é muito útil para verificar a consistência sem a necessidade de níveis de confiança.

5. Treine o extrator

Para criar um extrator, acesse a visualização de Extratores no Document Understanding e clique no botão Criar extrator no canto superior direito. Em seguida, é possível selecionar o Tipo de documento, o Modelo de ML e a Versão que deseja usar. Você pode monitorar o progresso na guia Extratores ou na visualização Detalhes do Extrator, que contém um link para o pipeline do AI Center, onde você pode ver os logs detalhados em tempo real.

Ao avaliar um modelo de ML, a ferramenta mais poderosa é a avaliação_<package name>.xlsx gerado na pasta artefatos/eval_metrics na exibição de detalhes do pipeline do AI Center. Na primeira planilha, você pode ver um relatório detalhado de pontuações de precisão, incluindo pontuações gerais e também por campo e por lote.

Nesse arquivo do Excel, você pode visualizar quais previsões estão falhando e em quais arquivos, e também ver imediatamente se é um erro de OCR, ou um erro de extração ou análise de ML e se pode ser corrigido por lógica simples no fluxo de trabalho de RPA, ou é necessário um mecanismo de OCR diferente, mais dados de treinamento ou melhoria da rotulagem ou das configurações de campo no Document Manager.

Esse arquivo do Excel também é muito útil para identificar as regras de negócios mais relevantes que você precisa aplicar ao fluxo de trabalho de RPA para detectar erros comuns no roteamento para o Validation Station no Actions Center para revisão manual. As regras de negócios são, de longe, a maneira mais confiável de detectar erros.

Para os erros que não podem ser detectados pelas regras de negócios, você também pode usar níveis de confiança. O arquivo do Excel também contém níveis de confiança para cada previsão para que você possa usar os recursos do Excel, como classificação e filtragem, e determinar qual é um bom limite de confiança para seu cenário de negócios.

No geral, o arquivo de avaliação_<package_name>.xlsx O arquivo do Excel é um recurso importante no qual você precisa se concentrar para obter os melhores resultados de sua automação de IA.

Importante: o treinamento de GPU é altamente recomendado para conjuntos de dados grandes e de produção. O treinamento de CPU é muito mais lento e deve ser usado com moderação, para pequenos conjuntos de dados para fins de demonstração ou teste. Para mais informações, consulte a página Pipelines de treinamento.

6. Defina e implemente regras de negócios

Nesta etapa, você deve se preocupar com os erros do modelo e como detectá-los. Existem duas maneiras principais de detectar erros:

através da aplicação de regras de negócios
por meio da aplicação de pesquisas em Sistemas de Registro na organização do cliente
através da aplicação de um limite mínimo de nível de confiança

A maneira mais eficaz e confiável de detectar erros é definindo regras de negócios e pesquisas. Os níveis de confiança nunca podem ser 100% perfeitos, sempre haverá uma porcentagem pequena, mas diferente de zero, de previsões corretas com baixa confiança ou previsões erradas com alta confiança. Além disso, e talvez o mais importante, um campo ausente não tem confiança, portanto, um limite de confiança nunca pode detectar erros nos quais um campo não é extraído. Consequentemente, os limites de nível de confiança devem ser usados apenas como um fallback, uma rede de segurança, mas nunca como a principal maneira de detectar erros críticos para os negócios.

Exemplos de regras de negócios:

O valor líquido mais o valor do imposto deve ser igual ao valor total
O valor total deve ser maior ou igual ao valor líquido
Número da fatura, data, valor total (e outros campos) devem estar presentes
O número de PO (se presente) deve existir no banco de dados PO
A data de fatura deve estar no passado e não pode ter mais de X meses
A data de vencimento deve ser no futuro e não mais de Y dias/meses
Para cada item de linha, a quantidade multiplicada pelo preço unitário deve ser igual ao valor da linha
A soma dos valores das linhas deve ser igual ao valor líquido ou total
etc.

Observação: no caso de números, é realizado um arredondamento para oito casas decimais.

Em específico, os níveis de confiança dos campos de coluna quase nunca devem ser usados como um mecanismo de detecção de erros, uma vez que os campos de coluna (por exemplo, itens de linha em faturas ou ordens de compra) podem ter dezenas de valores, portanto, definir um limite mínimo para tantos valores pode ser especialmente não confiável, pois é mais do que provável que um valor tenha pouca confiança, portanto, isso levaria a maioria/todos os documentos a serem encaminhados para validação humana, muitas vezes desnecessariamente.

As regras de negócios devem ser aplicadas como parte do fluxo de trabalho de RPA, e a falha da regra de negócios é passada ao validador humano para direcionar sua atenção e acelerar o processo.

Observação: ao definir Regras de negócios, tenha em mente que os valores Inicia com, Termina com e Contém diferenciam maiúsculas e minúsculas..

7. (Opcional) Escolha um limite de confiança

Após a definição das regras de negócios, às vezes, pode haver um pequeno número de campos para os quais não há regras de negócios em vigor ou para os quais as regras de negócios provavelmente não detectarão todos os erros. Para isso, pode ser necessário usar um limite de confiança como último recurso.

A principal ferramenta para definir esse limite é a planilha do Excel, gerada pelo pipeline de treinamento na pasta Outputs > artifacts > eval_metrics .

Este arquivo de avaliação_<package name>.xlsx contém uma coluna para cada campo e uma coluna para o nível de confiança de cada previsão. Ao classificar a tabela com base nas colunas de confiança, você poderá visualizar onde os erros começam a aparecer para qualquer campo fornecido e definir um limite acima desse nível para garantir que apenas os documentos extraídos corretamente sejam enviados diretamente.

8. Ajuste fino com Dados da Estação de Validação

Os dados do Validation Station podem ajudar a melhorar as previsões do modelo, mas, muitas vezes, verifica-se que a maioria dos erros não se deve ao modelo em si, mas ao OCR, erros de rotulagem, inconsistências ou problemas de pós-processamento (por exemplo, formatação de data ou número). Portanto, o primeiro aspecto chave é que os dados do Validation Station devem ser usados somente após os outros Componentes de Extração de Dados terem sido verificados e otimizados para garantir uma boa precisão, e a única área restante de melhoria é a própria previsão do modelo.

O segundo aspecto fundamental é que os dados do Validação Station têm uma densidade de informações menor do que os dados rotulados no Document Manager. Fundamentalmente, o usuário do Validação Station só se preocupa com obter o valor certo uma vez. Se uma fatura tiver 5 páginas e o número da fatura aparecer em todas as páginas, o usuário do Validation Station a validará apenas na primeira página. Assim, 80% dos valores permanecem não rotulados. No Document Manager, todos os valores são rotulados.

Por fim, lembre-se de que os dados do Validation Station precisam ser adicionados ao conjunto de dados rotulado manualmente original para que você sempre tenha um único conjunto de dados de treinamento que aumenta de tamanho ao longo do tempo. Você sempre precisa treinar no Pacote de ML com a versão secundária 0 (zero), sendo a versão predefinida (Out of the Box) lançada pela UiPath.

Importante: muitas vezes, supõe-se erroneamente que a maneira de usar os dados da Estação de Validação é treinar iterativamente a versão do modelo anterior, de modo que o lote atual seja usado para treinar o pacote X.1 e obter X.2. Em seguida, o próximo lote treina X.2 para obter X.3, e assim por diante. Esta é a maneira errada de usar o produto. Cada lote da Estação de validação precisa ser importado para a mesma sessão do Document Manager que os dados originais rotulados manualmente, criando um conjunto de dados maior, que deve ser usado para treinar sempre na versão X.0 do Pacote de ML.

Avisos sobre o uso de dados do Validation Station

Os dados do Validation Station podem ter um volume muito maior, pois são usados no fluxo de trabalho de Production . Você não deseja que o conjunto de dados fique sobrecarregado com dados do Validation Station, pois isso pode degradar a qualidade do modelo devido ao problema de densidade de informações mencionado acima.

A recomendação é adicionar no máximo 2 a 3 vezes o número de páginas de dados do Document Manager e, além disso, selecionar apenas os fornecedores ou amostras em que você vê grandes falhas. Se houver grandes alterações conhecidas nos dados de Production , como um novo idioma ou uma nova região geográfica sendo integrada ao processo de negócios (expandindo dos EUA para a Europa ou Sul da Ásia), os dados representativos para esses idiomas e regiões devem ser adicionados. ao Document Manager para rotulagem manual. Os dados do Validation Station não são apropriados para essa grande expansão de escopo.

Um outro problema potencial com os dados do Validation Station é o balanceamento. Na Production , é comum que a maior parte do tráfego venha de um pequeno subconjunto de fornecedores/clientes/regiões do mundo. Se permitido no conjunto de treinamento como está, isso pode levar a um modelo altamente viesado, que tem um bom desempenho em um pequeno subconjunto dos dados, mas tem um desempenho ruim na maior parte dos dados restantes. Portanto, é importante ter um cuidado especial ao adicionar dados do Validation Station a um conjunto de treinamento.

Este é um cenário de amostra. Você escolheu um bom mecanismo de OCR, rotulou 500 páginas no Document Manager, resultando em um bom desempenho e implantou o modelo em um fluxo de trabalho de RPA de produção. A Estação de validação está começando a gerar dados. Você deve selecionar aleatoriamente até um máximo de 1.000 a 1.500 páginas da Estação de validação e importá-las para o Document Manager junto com as primeiras 500 páginas e treinar novamente seu modelo de ML. Depois disso, você deve examinar com muita atenção o evaluation_<package name>.xlsx para certificar-se de que o modelo realmente melhorou, e então você deve implantar o novo modelo na produção.

9. Implante sua automação

Certifique-se de usar o modelo de Processo do Document Understanding da seção Modelos na tela inicial do Studio para aplicar as práticas recomendadas na arquitetura de RPA empresarial.

Nesta página