- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Como extrair dados de recibos
- Faturas retreinadas com um campo adicional
- Como extrair dados de formulários
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- 990 - Pacote de ML - Prévia
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Passaportes - Pacote de ML
- Contracheques — Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Requisitos de Hardware
- Pipelines
- Document Manager
- Serviços de OCR
- Aprendizagem profunda
- Painéis de insights
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Licenciamento
- Atividades
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guia do usuário do Document Understanding.
Faturas retreinadas com um campo adicional
O objetivo desta página é ajudar os usuários iniciantes a se familiarizarem com o Document UnderstandingTM.
For scalable production deployments, we strongly recommend using the Document Understanding Process available in UiPath® Studio under the Templates section.
Este início rápido mostra como retreinar o modelo de ML de Faturas predefinido para extrair mais um campo.
Usaremos o mesmo fluxo de trabalho utilizado para os recibos no início rápido anterior ao modificá-lo para que suporte faturas.
Para fazer isso, precisamos executar as seguintes etapas em nosso fluxo de trabalho:
- Modifique a taxonomia
- Adicione um classificador
- Adicione um Machine Learning Extrator
- Rotule os dados
- Retreine o modelo de ML de faturas
Agora, vamos ver cada passo em detalhes.
Nesta etapa, precisamos modificar a taxonomia para adicionar o tipo de documento de fatura.
Para isso, abra o Gerenciador de Taxonomia e crie um grupo chamado Documentos Semiestruturados, uma categoria chamada Finanças, um tipo de documento chamado Faturas. Crie os campos listados acima com nomes amigáveis com os respectivos tipos de dados.
- name -
Text
- vendor-addr -
Address
- billing-name -
Text
- billing-address -
Address
- shipping-address -
Address
- invoice-no -
Text
- po-no -
Text
- vendor-vat-no -
Text
- date -
Date
- tax -
Number
- total -
Number
- payment-terms -
Text
- net-amount -
Number
- due-date -
Date
- discount -
Number
- shipping-charges -
Number
- payment-addr -
Address
- description -
Text
- items -
Table
- description -
Text
- quantity -
Number
- unit-price -
Number
- line-amount -
Number
- item-po-no -
Text
- line-no -
Text
- part-no -
Text
- billing-vat-no -
Text
- description -
Nesta etapa, precisamos adicionar um classificador para que possamos processar recibos e faturas com nosso fluxo de trabalho.
Como nosso fluxo de trabalho agora suporta dois tipos de documentos, Recibos e Faturas, precisamos adicionar o classificador para diferenciar entre os tipos de documentos que são inseridos como entrada:
- Adicione um Classify Document Scope após a atividade Digitize Document e forneça DocumentPath, DocumentText, DocumentObjectModel e Taxonomy como argumentos de entrada e capture ClassificationResults em uma nova variável. Precisamos dessa variável para verificar qual(is) documento(s) estamos processando.
- Também precisamos especificar um ou mais classificadores. Neste exemplo, estamos usando o Intelligent Keyword Classifier. Adicione à atividade Classify Document Scope.
Esta página ajuda você a tomar uma decisão fundamentada sobre qual método de classificação deve usar em diferentes cenários.
- Treine o classificador conforme descrito aqui.
- Configure o classificador habilitando-o para ambos os tipos de documento.
- Dependendo do seu caso de uso, você pode querer validar a classificação. Você pode fazer isso usando o Present Classification Station ou as atividades Create Document Classification Action e Wait For Document Classification Action And Resume.
Nesta etapa, precisamos adicionar um Machine Learning Extractor à atividade Data Extraction Scope e conectá-lo ao endpoint público Faturas.
O procedimento é exatamente o mesmo do antigo Receipts Machine Learning Extractor adicionado anteriormente:
- Adicione uma atividade Machine Learning Extractor com Receipts Machine Learning Extractor.
- Forneça o ponto de extremidade público para Faturas, ou seja
https://du.uipath.com/ie/invoices
, e uma chave de API para o extrator. - Configure o extrator para trabalhar com faturas mapeando os campos criados no Gerenciador de Taxonomia para os campos disponíveis no modelo de ML:
- Não se esqueça de usar a variável ClassificationResults emitida pelo Classify Document Scope como entrada para o Data Extraction Scope, em vez de especificar um DocumentTypeId.
O resultado deve ser parecido com:
- Execute o fluxo de trabalho para testar se funciona corretamente com faturas.
Precisamos rotular os dados antes de treinar novamente o modelo de ML base Faturas para que ele seja compatível com o novo campo IBAN.
- Colete os requisitos e documentos de fatura de amostra em volume suficiente para a complexidade do caso de uso que você precisa resolver. Rotule 50 páginas, conforme explicado nesta página de documentação.
- Obtenha acesso a uma instância do Document Manager local ou no AI Center na nuvem. Certifique-se de que você tem as permissões de usar o Document Manager.
- Crie um projeto do AI Center e vá para Data Labeling > UiPath Document Understanding e crie uma sessão de Rotulagem de Dados.
- Configure um mecanismo de OCR conforme descrito aqui, tente importar um conjunto diversificado de seus documentos de produção e certifique-se de que o mecanismo de OCR leia o texto que você precisa extrair.
Mais sugestões nesta seção. Apenas prossiga para a próxima etapa após ter escolhido um mecanismo OCR.
- Crie uma sessão do Document Manager e importe um conjunto de treinamento e um conjunto de avaliação, certificando-se de marcar a caixa de seleção Tornar este um conjunto de teste ao importar o conjunto de avaliação. Mais detalhes sobre importações aqui.
- Crie e configure o campo IBAN conforme descrito aqui. Diretrizes mais avançadas estão disponíveis nesta seção.
- Rotule um conjunto de dados de treinamento e um conjunto de dados de avaliação conforme descrito aqui.A funcionalidade de pré-rotulagem do Document Manager descrita aqui pode tornar o trabalho de rotulagem muito mais fácil.
- Exporte primeiro o conjunto de avaliação e, em seguida, o conjunto de treinamento para o AI Center, selecionando-os na lista suspensa de filtros na parte superior da visualização do Document Manager. Mais detalhes sobre exportações aqui.
Em seguida, iremos criar, retreinar e implantar nosso modelo.
Agora que nosso fluxo de trabalho suporta o processamento de faturas, precisamos extrair o IBAN de nossas faturas, que é um campo que não é selecionado por padrão pelo modelo de ML de Faturas predefinido. Isso significa que precisamos retreinar um novo modelo, começando pelo modelo básico.
- Crie um pacote de ML conforme descrito aqui. Se o tipo de documento for diferente dos predefinidos disponíveis, escolha o pacote de ML DocumentUnderstanding. Caso contrário, use o pacote mais próximo do tipo de documento que precisa extrair.
- Crie um pipeline de treinamento conforme descrito aqui usando o conjunto de dados de entrada que você exportou na seção anterior do Document Manager.
-
Quando o treinamento for concluído e você tiver a versão secundária do pacote 1, execute um pipeline de avaliação nessa versão secundária e inspecione a comparação de assessment.xlsx lado a lado. Use as diretrizes detalhadas aqui.
- Se os resultados da avaliação forem satisfatórios, vá para a visualização de Habilidades de ML e crie uma Habilidade de ML usando a nova versão secundária do Pacote de ML. Se você quiser usar isso para fazer pré-rotulagem no Document Manager, precisa clicar no botão Modificar implantação atual no canto superior direito na visualização de Habilidade de ML e alternar para Tornar habilidade de ML pública.
- Após criar a habilidade de ML, precisamos consumi-la no Studio. A maneira mais fácil de fazer isso é tornar a habilidade de ML pública, conforme descrito aqui. Em seguida, a única coisa que resta a fazer é simplesmente substituir o endpoint público do modelo de ML de Faturas que adicionamos inicialmente ao Machine Learning Extractor em nosso fluxo de trabalho pelo endpoint público da habilidade de ML.
- Execute o fluxo de trabalho e você deverá ver o campo IBAN recém-adicionado sendo extraído junto com os campos de faturas padrão.
Baixe este projeto de exemplo usando este link. Você precisa alterar o Machine Learning Extractor do modo Endpoint para Faturas na sua habilidade de ML treinada.