- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Como extrair dados de recibos
- Faturas retreinadas com um campo adicional
- Como extrair dados de formulários
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- 990 - Pacote de ML - Prévia
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Passaportes - Pacote de ML
- Contracheques — Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Requisitos de Hardware
- Pipelines
- Document Manager
- Serviços de OCR
- Aprendizagem profunda
- Painéis de insights
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Licenciamento
- Atividades
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Faturas retreinadas com um campo adicional
The aim of this page is to help first time users get familiar with Document UnderstandingTM.
For scalable production deployments, we strongly recommend using the Document Understanding Process available in UiPath® Studio under the Templates section.
Este início rápido mostra como retreinar o modelo de ML de Faturas predefinido para extrair mais um campo.
Usaremos o mesmo fluxo de trabalho utilizado para os recibos no início rápido anterior ao modificá-lo para que suporte faturas.
Para fazer isso, precisamos executar as seguintes etapas em nosso fluxo de trabalho:
- Modifique a taxonomia
- Adicione um classificador
- Adicione um Machine Learning Extrator
- Rotule os dados
- Retreine o modelo de ML de faturas
Agora, vamos ver cada passo em detalhes.
Nesta etapa, precisamos modificar a taxonomia para adicionar o tipo de documento de fatura.
Para isso, abra o Gerenciador de Taxonomia e crie um grupo chamado Documentos Semiestruturados, uma categoria chamada Finanças, um tipo de documento chamado Faturas. Crie os campos listados acima com nomes amigáveis com os respectivos tipos de dados.
- name -
Text
- vendor-addr -
Address
- billing-name -
Text
- billing-address -
Address
- shipping-address -
Address
- invoice-no -
Text
- po-no -
Text
- vendor-vat-no -
Text
- date -
Date
- tax -
Number
- total -
Number
- payment-terms -
Text
- net-amount -
Number
- due-date -
Date
- discount -
Number
- shipping-charges -
Number
- payment-addr -
Address
- description -
Text
- items -
Table
- description -
Text
- quantity -
Number
- unit-price -
Number
- line-amount -
Number
- item-po-no -
Text
- line-no -
Text
- part-no -
Text
- billing-vat-no -
Text
- description -
Nesta etapa, precisamos adicionar um classificador para que possamos processar recibos e faturas com nosso fluxo de trabalho.
Como nosso fluxo de trabalho agora suporta dois tipos de documentos, Recibos e Faturas, precisamos adicionar o classificador para diferenciar entre os tipos de documentos que são inseridos como entrada:
- Adicione um Classify Document Scope após a atividade Digitize Document e forneça DocumentPath, DocumentText, DocumentObjectModel e Taxonomy como argumentos de entrada e capture ClassificationResults em uma nova variável. Precisamos dessa variável para verificar qual(is) documento(s) estamos processando.
- Também precisamos especificar um ou mais classificadores. Neste exemplo, estamos usando o Intelligent Keyword Classifier. Adicione à atividade Classify Document Scope.
Esta página ajuda você a tomar uma decisão fundamentada sobre qual método de classificação deve usar em diferentes cenários.
- Treine o classificador conforme descrito aqui.
- Configure o classificador habilitando-o para ambos os tipos de documento.
- Dependendo do seu caso de uso, você pode querer validar a classificação. Você pode fazer isso usando o Present Classification Station ou as atividades Create Document Classification Action e Wait For Document Classification Action And Resume.
Nesta etapa, precisamos adicionar um Machine Learning Extractor à atividade Data Extraction Scope e conectá-lo ao endpoint público Faturas.
O procedimento é exatamente o mesmo do antigo Receipts Machine Learning Extractor adicionado anteriormente:
- Adicione uma atividade Machine Learning Extractor com Receipts Machine Learning Extractor.
- Forneça o ponto de extremidade público para Faturas, ou seja
https://du.uipath.com/ie/invoices
, e uma chave de API para o extrator. - Configure o extrator para trabalhar com faturas mapeando os campos criados no Gerenciador de Taxonomia para os campos disponíveis no modelo de ML:
- Não se esqueça de usar a variável ClassificationResults emitida pelo Classify Document Scope como entrada para o Data Extraction Scope, em vez de especificar um DocumentTypeId.
O resultado deve ser parecido com:
- Execute o fluxo de trabalho para testar se funciona corretamente com faturas.
Precisamos rotular os dados antes de treinar novamente o modelo de ML base Faturas para que ele seja compatível com o novo campo IBAN.
- Colete os requisitos e documentos de fatura de amostra em volume suficiente para a complexidade do caso de uso que você precisa resolver. Rotule 50 páginas, conforme explicado nesta página de documentação.
- Obtenha acesso a uma instância do Document Manager local ou no AI Center na nuvem. Certifique-se de que você tem as permissões de usar o Document Manager.
- Crie um projeto do AI Center e vá para Data Labeling > UiPath Document Understanding e crie uma sessão de Rotulagem de Dados.
- Configure um mecanismo de OCR conforme descrito aqui, tente importar um conjunto diversificado de seus documentos de produção e certifique-se de que o mecanismo de OCR leia o texto que você precisa extrair.
Mais sugestões nesta seção. Apenas prossiga para a próxima etapa após ter escolhido um mecanismo OCR.
- Crie uma sessão do Document Manager e importe um conjunto de treinamento e um conjunto de avaliação, certificando-se de marcar a caixa de seleção Tornar este um conjunto de teste ao importar o conjunto de avaliação. Mais detalhes sobre importações aqui.
- Crie e configure o campo IBAN conforme descrito aqui. Diretrizes mais avançadas estão disponíveis nesta seção.
- Rotule um conjunto de dados de treinamento e um conjunto de dados de avaliação conforme descrito aqui.A funcionalidade de pré-rotulagem do Document Manager descrita aqui pode tornar o trabalho de rotulagem muito mais fácil.
- Exporte primeiro o conjunto de avaliação e, em seguida, o conjunto de treinamento para o AI Center, selecionando-os na lista suspensa de filtros na parte superior da visualização do Document Manager. Mais detalhes sobre exportações aqui.
Em seguida, iremos criar, retreinar e implantar nosso modelo.
Agora que nosso fluxo de trabalho suporta o processamento de faturas, precisamos extrair o IBAN de nossas faturas, que é um campo que não é selecionado por padrão pelo modelo de ML de Faturas predefinido. Isso significa que precisamos retreinar um novo modelo, começando pelo modelo básico.
- Crie um pacote de ML conforme descrito aqui. Se o tipo de documento for diferente dos predefinidos disponíveis, escolha o pacote de ML DocumentUnderstanding. Caso contrário, use o pacote mais próximo do tipo de documento que precisa extrair.
- Crie um pipeline de treinamento conforme descrito aqui usando o conjunto de dados de entrada que você exportou na seção anterior do Document Manager.
-
Quando o treinamento for concluído e você tiver a versão secundária do pacote 1, execute um pipeline de avaliação nessa versão secundária e inspecione a comparação de assessment.xlsx lado a lado. Use as diretrizes detalhadas aqui.
- Se os resultados da avaliação forem satisfatórios, vá para a visualização de Habilidades de ML e crie uma Habilidade de ML usando a nova versão secundária do Pacote de ML. Se você quiser usar isso para fazer pré-rotulagem no Document Manager, precisa clicar no botão Modificar implantação atual no canto superior direito na visualização de Habilidade de ML e alternar para Tornar habilidade de ML pública.
- Após criar a habilidade de ML, precisamos consumi-la no Studio. A maneira mais fácil de fazer isso é tornar a habilidade de ML pública, conforme descrito aqui. Em seguida, a única coisa que resta a fazer é simplesmente substituir o endpoint público do modelo de ML de Faturas que adicionamos inicialmente ao Machine Learning Extractor em nosso fluxo de trabalho pelo endpoint público da habilidade de ML.
- Execute o fluxo de trabalho e você deverá ver o campo IBAN recém-adicionado sendo extraído junto com os campos de faturas padrão.
Baixe este projeto de exemplo usando este link. Você precisa alterar o Machine Learning Extractor do modo Endpoint para Faturas na sua habilidade de ML treinada.