Guia do usuário do Document Understanding.

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 24 de out de 2024

Faturas retreinadas com um campo adicional

Importante:

O objetivo desta página é ajudar os usuários iniciantes a se familiarizarem com o Document Understanding.

Para implantações de produção escaláveis, é altamente recomendável usar o Document Understanding Process disponível no UiPath Studio na seção Modelos.

Este início rápido mostra como retreinar o modelo de ML de Faturas predefinido para extrair mais um campo.

Usaremos o mesmo fluxo de trabalho utilizado para os recibos no início rápido anterior ao modificá-lo para que suporte faturas.

Para fazer isso, precisamos executar as seguintes etapas em nosso fluxo de trabalho:

Modifique a taxonomia
Adicione um classificador
Adicione um Machine Learning Extrator
Rotule os dados
Retreine o modelo de ML de faturas

Agora, vamos ver cada passo em detalhes.

1. Modifique a taxonomia

Nesta etapa, precisamos modificar a taxonomia para adicionar o tipo de documento de fatura.

Para isso, abra o Gerenciador de Taxonomia e crie um grupo chamado "Documentos Semiestruturados", uma categoria chamada "Finanças", um tipo de documento chamado "Faturas". Crie os campos listados acima com nomes amigáveis com os respectivos tipos de dados.

name - Text
vendor-addr - Address
billing-name - Text
billing-address - Address
shipping-address - Address
invoice-no - Text
po-no - Text
vendor-vat-no - Text
date - Date
tax - Number
total - Number
payment-terms - Text
net-amount - Number
due-date - Date
discount - Number
shipping-charges - Number
payment-addr - Address
description - Text
items - Table
- description - Text
- quantity - Number
- unit-price - Number
- line-amount - Number
- item-po-no - Text
- line-no - Text
- part-no - Text
- billing-vat-no - Text

2. Adicione um classificador

Nesta etapa, precisamos adicionar um classificador para que possamos processar recibos e faturas com nosso fluxo de trabalho.

Como nosso fluxo de trabalho agora oferece suporte a dois tipos de documentos, "Recibos" e "Faturas", precisamos adicionar o classificador para diferenciar os distintos tipos de documentos recebidos como entrada:

Adicione um Classify Document Scope após a atividade Digitize Document e forneça DocumentPath, DocumentText, DocumentObjectModel e Taxonomy como argumentos de entrada e capture ClassificationResults em uma nova variável. Precisamos dessa variável para verificar qual(is) documento(s) estamos processando.
Também precisamos especificar um ou mais classificadores. Neste exemplo, estamos usando o Intelligent Keyword Classifier. Adicione à atividade Classify Document Scope.

Esta página ajuda você a tomar uma decisão fundamentada sobre qual método de classificação deve usar em diferentes cenários.
Treine o classificador conforme descrito aqui.
Configure o classificador habilitando-o para ambos os tipos de documento.
Dependendo do seu caso de uso, você pode querer validar a classificação. Você pode fazer isso usando o Present Classification Station ou as atividades Create Document Classification Action e Wait For Document Classification Action And Resume.

3. Adicione um Machine Learning Extractor

Nesta etapa, precisamos adicionar um Machine Learning Extractor à atividade Data Extraction Scope e conectá-lo ao endpoint público Faturas.

O procedimento é o mesmo do antigo Receipts Machine Learning Extractor adicionado anteriormente:

Adicione uma atividade Machine Learning Extractor com Receipts Machine Learning Extractor.
Forneça o endpoint público de Faturas, ou seja, https://du.uipath.com/ie/invoices/, e uma chave de API para o extrator.
Configure o extrator para trabalhar com faturas mapeando os campos criados no Gerenciador de Taxonomia para os campos disponíveis no modelo de ML:
Não se esqueça de usar a variável ClassificationResults emitida pelo Classify Document Scope como entrada para o Data Extraction Scope, em vez de especificar um DocumentTypeId.

O resultado deve ser parecido com:
Execute o fluxo de trabalho para testar se funciona corretamente com faturas.

4. Rotule os dados

Precisamos rotular os dados antes de treinar novamente o modelo de ML base Faturas para que ele seja compatível com o novo campo IBAN.

Colete os requisitos e documentos de fatura de amostra em volume suficiente para a complexidade do caso de uso que você precisa resolver.

Rotule 50 páginas, conforme explicado nesta página de documentação.
Obtenha acesso a uma instância do Document Manager local ou no AI Center na nuvem. Certifique-se de que você tem as permissões de usar o Document Manager.
Crie um projeto do AI Center e vá para Data Labeling > UiPath Document Understanding e crie uma sessão de Rotulagem de Dados.
Configure um mecanismo de OCR conforme descrito aqui, tente importar um conjunto diversificado de seus documentos de produção e certifique-se de que o mecanismo de OCR leia o texto que você precisa extrair.

Mais sugestões nesta seção. Apenas prossiga para a próxima etapa após ter escolhido um mecanismo OCR.
Crie uma sessão do Document Manager e importe um conjunto de treinamento e um conjunto de avaliação, certificando-se de marcar a caixa de seleção Tornar este um conjunto de teste ao importar o conjunto de avaliação.
Crie e configure o campo IBAN.

Diretrizes mais avançadas estão disponíveis nesta seção.
Rotule um conjunto de dados de treinamento e um conjunto de dados de avaliação conforme descrito aqui.

A funcionalidade de pré-rotulagem do Document Manager pode tornar o trabalho de rotulagem muito mais fácil.
Exporte primeiro o conjunto de avaliação e, em seguida, o conjunto de treinamento para o AI Center, selecionando-os na lista suspensa de filtros na parte superior da visualização do Gerenciador de documentos.

Em seguida, iremos criar, retreinar e implantar nosso modelo.

5. Retreine o modelo de ML de faturas

Agora que nosso fluxo de trabalho suporta o processamento de faturas, precisamos extrair o IBAN de nossas faturas, que é um campo que não é selecionado por padrão pelo modelo de ML de Faturas predefinido. Isso significa que precisamos retreinar um novo modelo, começando pelo modelo básico.

Crie um pacote de ML conforme descrito aqui. Se o tipo de documento for diferente dos predefinidos disponíveis, escolha o pacote de ML DocumentUnderstanding. Caso contrário, use o pacote mais próximo do tipo de documento que precisa extrair.
Crie um pipeline de treinamento conforme descrito aqui usando o conjunto de dados de entrada que você exportou na seção anterior do Document Manager.
Quando o treinamento for concluído e você tiver a versão secundária do pacote 1, execute um pipeline de avaliação nessa versão secundária e inspecione a comparação de assessment.xlsx lado a lado.

Use as diretrizes detalhadas aqui.
Se os resultados da avaliação forem satisfatórios, vá para a visualização de Habilidades de ML e crie uma Habilidade de ML usando a nova versão secundária do Pacote de ML. Se você quiser usar isso para fazer pré-rotulagem no Document Manager, precisa clicar no botão Modificar implantação atual no canto superior direito na visualização de Habilidade de ML e alternar para Tornar habilidade de ML pública.
Após criar a habilidade de ML, precisamos consumi-la no Studio. A maneira mais fácil de fazer isso é tornar a habilidade de ML pública, conforme descrito aqui. Em seguida, a única coisa que resta a fazer é simplesmente substituir o endpoint público do modelo de ML de Faturas que adicionamos inicialmente ao Machine Learning Extractor em nosso fluxo de trabalho pelo endpoint público da habilidade de ML.
Execute o fluxo de trabalho e você deverá ver o campo IBAN recém-adicionado sendo extraído junto com os campos de faturas padrão.

Baixe o exemplo

Baixe este projeto de exemplo usando este link. Você precisa alterar o Machine Learning Extractor do modo Endpoint para Faturas na sua habilidade de ML treinada.

Nesta página