- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Como extrair dados de recibos
- Faturas retreinadas com um campo adicional
- Como extrair dados de formulários
- Componentes do framework
- Pacotes de ML
- Pipelines
- Document Manager
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Aprendizagem profunda
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Faturas retreinadas com um campo adicional
O objetivo desta página é ajudar os usuários iniciantes a se familiarizarem com o Document Understanding.
Para implantações de produção escaláveis, é altamente recomendável usar o Document Understanding Process disponível no UiPath Studio na seção Modelos.
Este início rápido mostra como retreinar o modelo de ML de Faturas predefinido para extrair mais um campo.
Usaremos o mesmo fluxo de trabalho utilizado para os recibos no início rápido anterior ao modificá-lo para que suporte faturas.
Para fazer isso, precisamos executar as seguintes etapas em nosso fluxo de trabalho:
- Modifique a taxonomia
- Adicione um classificador
- Adicione um Machine Learning Extrator
- Rotule os dados
- Retreine o modelo de ML de faturas
Agora, vamos ver cada passo em detalhes.
Nesta etapa, precisamos modificar a taxonomia para adicionar o tipo de documento de fatura.
Para isso, abra o Gerenciador de Taxonomia e crie um grupo chamado "Documentos Semiestruturados", uma categoria chamada "Finanças", um tipo de documento chamado "Faturas". Crie os campos listados acima com nomes amigáveis com os respectivos tipos de dados.
- name -
Text
- vendor-addr -
Address
- billing-name -
Text
- billing-address -
Address
- shipping-address -
Address
- invoice-no -
Text
- po-no -
Text
- vendor-vat-no -
Text
- date -
Date
- tax -
Number
- total -
Number
- payment-terms -
Text
- net-amount -
Number
- due-date -
Date
- discount -
Number
- shipping-charges -
Number
- payment-addr -
Address
- description -
Text
-
items -
Table
- description -
Text
- quantity -
Number
- unit-price -
Number
- line-amount -
Number
- item-po-no -
Text
- line-no -
Text
- part-no -
Text
- billing-vat-no -
Text
- description -
Nesta etapa, precisamos adicionar um classificador para que possamos processar recibos e faturas com nosso fluxo de trabalho.
Como nosso fluxo de trabalho agora oferece suporte a dois tipos de documentos, "Recibos" e "Faturas", precisamos adicionar o classificador para diferenciar os distintos tipos de documentos recebidos como entrada:
- Adicione um Classify Document Scope após a atividade Digitize Document e forneça DocumentPath, DocumentText, DocumentObjectModel e Taxonomy como argumentos de entrada e capture ClassificationResults em uma nova variável. Precisamos dessa variável para verificar qual(is) documento(s) estamos processando.
-
Também precisamos especificar um ou mais classificadores. Neste exemplo, estamos usando o Intelligent Keyword Classifier. Adicione à atividade Classify Document Scope.
Esta página ajuda você a tomar uma decisão fundamentada sobre qual método de classificação deve usar em diferentes cenários.
- Treine o classificador conforme descrito aqui.
- Configure o classificador habilitando-o para ambos os tipos de documento.
- Dependendo do seu caso de uso, você pode querer validar a classificação. Você pode fazer isso usando o Present Classification Station ou as atividades Create Document Classification Action e Wait For Document Classification Action And Resume.
Nesta etapa, precisamos adicionar um Machine Learning Extractor à atividade Data Extraction Scope e conectá-lo ao endpoint público Faturas.
O procedimento é o mesmo do antigo Receipts Machine Learning Extractor adicionado anteriormente:
- Adicione uma atividade Machine Learning Extractor com Receipts Machine Learning Extractor.
- Forneça o endpoint público de Faturas, ou seja, https://du.uipath.com/ie/invoices/, e uma chave de API para o extrator.
-
Configure o extrator para trabalhar com faturas mapeando os campos criados no Gerenciador de Taxonomia para os campos disponíveis no modelo de ML:
-
Não se esqueça de usar a variável ClassificationResults emitida pelo Classify Document Scope como entrada para o Data Extraction Scope, em vez de especificar um DocumentTypeId.
O resultado deve ser parecido com:
- Execute o fluxo de trabalho para testar se funciona corretamente com faturas.
Precisamos rotular os dados antes de treinar novamente o modelo de ML base Faturas para que ele seja compatível com o novo campo IBAN.
-
Colete os requisitos e documentos de fatura de amostra em volume suficiente para a complexidade do caso de uso que você precisa resolver.
Rotule 50 páginas, conforme explicado nesta página de documentação.
- Obtenha acesso a uma instância do Document Manager local ou no AI Center na nuvem. Certifique-se de que você tem as permissões de usar o Document Manager.
- Crie um projeto do AI Center e vá para Data Labeling > UiPath Document Understanding e crie uma sessão de Rotulagem de Dados.
-
Configure um mecanismo de OCR conforme descrito aqui, tente importar um conjunto diversificado de seus documentos de produção e certifique-se de que o mecanismo de OCR leia o texto que você precisa extrair.
Mais sugestões nesta seção. Apenas prossiga para a próxima etapa após ter escolhido um mecanismo OCR.
-
Crie uma sessão do Document Manager e importe um conjunto de treinamento e um conjunto de avaliação, certificando-se de marcar a caixa de seleção Tornar este um conjunto de teste ao importar o conjunto de avaliação.
-
Crie e configure o campo IBAN.
Diretrizes mais avançadas estão disponíveis nesta seção.
-
Rotule um conjunto de dados de treinamento e um conjunto de dados de avaliação conforme descrito aqui.
A funcionalidade de pré-rotulagem do Document Manager pode tornar o trabalho de rotulagem muito mais fácil.
-
Exporte primeiro o conjunto de avaliação e, em seguida, o conjunto de treinamento para o AI Center, selecionando-os na lista suspensa de filtros na parte superior da visualização do Gerenciador de documentos.
Em seguida, iremos criar, retreinar e implantar nosso modelo.
Agora que nosso fluxo de trabalho suporta o processamento de faturas, precisamos extrair o IBAN de nossas faturas, que é um campo que não é selecionado por padrão pelo modelo de ML de Faturas predefinido. Isso significa que precisamos retreinar um novo modelo, começando pelo modelo básico.
- Crie um pacote de ML conforme descrito aqui. Se o tipo de documento for diferente dos predefinidos disponíveis, escolha o pacote de ML DocumentUnderstanding. Caso contrário, use o pacote mais próximo do tipo de documento que precisa extrair.
- Crie um pipeline de treinamento conforme descrito aqui usando o conjunto de dados de entrada que você exportou na seção anterior do Document Manager.
-
Quando o treinamento for concluído e você tiver a versão secundária do pacote 1, execute um pipeline de avaliação nessa versão secundária e inspecione a comparação de assessment.xlsx lado a lado.
Use as diretrizes detalhadas aqui.
- Se os resultados da avaliação forem satisfatórios, vá para a visualização de Habilidades de ML e crie uma Habilidade de ML usando a nova versão secundária do Pacote de ML. Se você quiser usar isso para fazer pré-rotulagem no Document Manager, precisa clicar no botão Modificar implantação atual no canto superior direito na visualização de Habilidade de ML e alternar para Tornar habilidade de ML pública.
- Após criar a habilidade de ML, precisamos consumi-la no Studio. A maneira mais fácil de fazer isso é tornar a habilidade de ML pública, conforme descrito aqui. Em seguida, a única coisa que resta a fazer é simplesmente substituir o endpoint público do modelo de ML de Faturas que adicionamos inicialmente ao Machine Learning Extractor em nosso fluxo de trabalho pelo endpoint público da habilidade de ML.
- Execute o fluxo de trabalho e você deverá ver o campo IBAN recém-adicionado sendo extraído junto com os campos de faturas padrão.
Baixe este projeto de exemplo usando este link. Você precisa alterar o Machine Learning Extractor do modo Endpoint para Faturas na sua habilidade de ML treinada.