- Visão geral
 - Introdução
 - Atividades
 - Painéis de insights
 - Processo do Document Understanding
 - Tutoriais de início rápido
- Como extrair dados de recibos
 - Faturas retreinadas com um campo adicional
 - Como extrair dados de formulários
 - Criar uma nova automação a partir de um arquivo
 
 - Componentes do framework
 - Pacotes de ML
- Visão geral
 - Document Understanding - Pacote de ML
 - DocumentClassifier - Pacote de ML
 - Pacotes de ML com recursos de OCR
 - 1040 - Pacote de ML
 - 1040 Schedule C - Pacote de ML
 - 1040 Schedule D - Pacote de ML
 - 1040 Schedule E - Pacote de ML
 - 1040x - Pacote de ML
 - 3949a - Pacote de ML
 - 4506T - Pacote de ML
 - 709 - Pacote de ML
 - 941x - Pacote de ML
 - 9465 - Pacote de ML
 - ACORD125 - Pacote de ML
 - ACORD126 - Pacote de ML
 - ACORD131 - Pacote de ML
 - ACORD140 - Pacote de ML
 - ACORD25 - Pacote de ML
 - Extratos bancários - Pacote de ML
 - ConhecimentoDeEmbarque - Pacote de ML
 - Certificado de incorporação - Pacote de ML
 - Certificado de origem - Pacote de ML
 - Cheques - Pacote de ML
 - Certificado de produtos filhos - Pacote de ML
 - CMS1500 — Pacote de ML
 - Declaração de Conformidade da UE - Pacote de ML
 - Demonstrações financeiras - Pacote de ML
 - FM1003 - Pacote de ML
 - I9 - Pacote de ML
 - Cartões de identificação - Pacote de ML
 - Faturas - Pacote de ML
 - FaturasAustrália - Pacote de ML
 - FaturasChina - Pacote de ML
 - Faturas em hebraico - Pacote de ML
 - FaturasÍndia - Pacote de ML
 - FaturasJapão - Pacote de ML
 - Envio de faturas - Pacote de ML
 - Romaneio de carga - Pacote de ML
 - Contracheques — Pacote de ML
 - Passaportes - Pacote de ML
 - Ordens de compra - Pacote de ML
 - Recibos – Pacote de ML
 - AvisosDePagamento - Pacote de ML
 - UB04 - Pacote de ML
 - Contas de serviços - Pacote de ML
 - Títulos de veículos - Pacote de ML
 - W2 - Pacote de ML
 - W9 - Pacote de ML
 
- Outros pacotes de ML prontos para uso
 - Endpoints públicos
 - Limitações de tráfego
 - Configuração de OCR
 
 - Pipelines
 - Serviços de OCR
 - Idiomas suportados
 - Aprendizagem profunda
 - Dados e segurança
 - Licenciamento
 

Guia do usuário do Document Understanding.
O objetivo dessa página é ajudar usuários iniciantes a se familiarizarem com o Document UnderstandingTM.
Para implantações de produção escaláveis, recomendamos fortemente usar o Processo do Document Understanding disponível no UiPath® Studio na seção Modelos.
Este início rápido mostra como retreinar o modelo de ML de Faturas predefinido para extrair mais um campo.
Usaremos o mesmo fluxo de trabalho utilizado para os recibos no início rápido anterior ao modificá-lo para que suporte faturas.
Para fazer isso, precisamos executar as seguintes etapas em nosso fluxo de trabalho:
- Modifique a taxonomia
 - Adicione um classificador
 - Adicione um Machine Learning Extrator
 - Rotule os dados
 - Retreine o modelo de ML de faturas
 
Nesta etapa, precisamos modificar a taxonomia para adicionar o tipo de documento de fatura.
Para isso, abra o Gerenciador de Taxonomia e crie um grupo chamado Documentos Semiestruturados, uma categoria chamada Finanças, um tipo de documento chamado Faturas. Crie os campos listados com nomes amigáveis com os respectivos tipos de dados.
- name - 
Text - vendor-addr - 
Address - billing-name - 
Text - billing-address - 
Address - shipping-address - 
Address - invoice-no - 
Text - po-no - 
Text - vendor-vat-no - 
Text - date - 
Date - tax - 
Number - total - 
Number - payment-terms - 
Text - net-amount - 
Number - due-date - 
Date - discount - 
Number - shipping-charges - 
Number - payment-addr - 
Address - description - 
Text - items - 
Table- description - 
Text - quantity - 
Number - unit-price - 
Number - line-amount - 
Number - item-po-no - 
Text - line-no - 
Text - part-no - 
Text - billing-vat-no - 
Text 
 - description - 
 
Nesta etapa, precisamos adicionar um classificador para que possamos processar recibos e faturas com nosso fluxo de trabalho.
Como nosso fluxo de trabalho agora suporta dois tipos de documentos, Recibos e Faturas, precisamos adicionar o classificador para diferenciar entre os tipos de documentos que são inseridos como entrada:
- Adicione um Classify Document Scope após a atividade Digitize Document e forneça DocumentPath, DocumentText, DocumentObjectModel e Taxonomy como argumentos de entrada e capture ClassificationResults em uma nova variável. Precisamos dessa variável para verificar qual(is) documento(s) estamos processando.
 - Também precisamos especificar um ou mais classificadores. Neste exemplo, estamos usando o Intelligent Keyword Classifier. Adicione à atividade Classify Document Scope.
                     
Esta página ajuda você a tomar uma decisão fundamentada sobre qual método de classificação deve usar em diferentes cenários.
 - Treine o classificador conforme descrito aqui.
 - Configure o classificador habilitando-o para ambos os tipos de documento.
 - Dependendo do seu caso de uso, você pode querer validar a classificação. Você pode fazer isso usando o Present Classification Station ou as atividades Create Document Classification Action e Wait For Document Classification Action And Resume.
 
Nesta etapa, precisamos adicionar um Machine Learning Extractor à atividade Data Extraction Scope e conectá-lo ao endpoint público Faturas.
O procedimento é exatamente o mesmo do antigo Receipts Machine Learning Extractor adicionado anteriormente:
- Adicione uma atividade Machine Learning Extractor com Receipts Machine Learning Extractor.
 - Forneça o ponto de extremidade público para Faturas, ou seja 
https://du.uipath.com/ie/invoices, e uma chave de API para o extrator. - Configure o extrator para trabalhar com faturas mapeando os campos criados no Gerenciador de Taxonomia para os campos disponíveis no modelo de ML:
                     
 - Não se esqueça de usar a variável ClassificationResults emitida pelo Classify Document Scope como entrada para o Data Extraction Scope, em vez de especificar um DocumentTypeId.
                     
O resultado deve ser parecido com:
 - Execute o fluxo de trabalho para testar se funciona corretamente com faturas.
 
Precisamos rotular os dados antes de treinar novamente o modelo de ML base Faturas para que ele seja compatível com o novo campo IBAN.
- Colete os requisitos e documentos de fatura de amostra em volume suficiente para a complexidade do caso de uso que você precisa resolver. Rotule 50 páginas, conforme explicado nesta página de documentação.
 - Obtenha acesso a uma instância do Document Manager local ou no AI Center na nuvem. Certifique-se de que você tem as permissões de usar o Document Manager.
 - Crie um projeto do AI Center e vá para Data Labeling > UiPath Document Understanding e crie uma sessão de Rotulagem de Dados.
 - Configure um mecanismo de OCR conforme descrito aqui, tente importar um conjunto diversificado de seus documentos de produção e certifique-se de que o mecanismo de OCR leia o texto que você precisa extrair.
                     
Mais sugestões nesta seção. Apenas prossiga para a próxima etapa após ter escolhido um mecanismo OCR.
 - Crie uma sessão do Document Manager e importe um conjunto de treinamento e um conjunto de avaliação, certificando-se de marcar a caixa de seleção Tornar este um conjunto de teste ao importar o conjunto de avaliação. Mais detalhes sobre importações aqui.
 - Crie e configure o campo IBAN conforme descrito aqui. Diretrizes mais avançadas estão disponíveis nesta seção.
 - Rotule um conjunto de dados de treinamento e um conjunto de dados de avaliação conforme descrito aqui.A funcionalidade de pré-rotulagem do Document Manager descrita aqui pode tornar o trabalho de rotulagem muito mais fácil.
 - Exporte primeiro o conjunto de avaliação e, em seguida, o conjunto de treinamento para o AI Center, selecionando-os na lista suspensa de filtros na parte superior da visualização do Document Manager. Mais detalhes sobre exportações aqui.
 
Em seguida, iremos criar, retreinar e implantar nosso modelo.
Agora que nosso fluxo de trabalho suporta o processamento de faturas, precisamos extrair o IBAN de nossas faturas, que é um campo que não é selecionado por padrão pelo modelo de ML de Faturas predefinido. Isso significa que precisamos retreinar um novo modelo, começando pelo modelo básico.
- Crie um pacote de ML conforme descrito aqui. Se o tipo de documento for diferente dos predefinidos disponíveis, escolha o pacote de ML DocumentUnderstanding. Caso contrário, use o pacote mais próximo do tipo de documento que precisa extrair.
 - Crie um pipeline de treinamento conforme descrito aqui usando o conjunto de dados de entrada que você exportou na seção anterior do Document Manager.
 - 
                     
Quando o treinamento for concluído e você tiver a versão secundária do pacote 1, execute um pipeline de avaliação nessa versão secundária e inspecione a comparação de assessment.xlsx lado a lado. Use as diretrizes detalhadas aqui.
 - Se os resultados da avaliação forem satisfatórios, acesse a visualização Habilidades de ML e crie uma Habilidade de ML usando a nova versão secundária do Pacote de ML. de ML Se você quiser usá-lo para fazer a pré-rotulagem no Document Manager, você precisa selecionar o botão Modificar Implantação Atual na parte superior direita da visualização de Habilidades de ML e alternar para Tornar Pública a Habilidade de ML.
 - Após criar a habilidade de ML, precisamos consumi-la no Studio. A maneira mais fácil de fazer isso é tornar a habilidade de ML pública, conforme descrito aqui. Em seguida, a única coisa que resta a fazer é simplesmente substituir o endpoint público do modelo de ML de Faturas que adicionamos inicialmente ao Machine Learning Extractor em nosso fluxo de trabalho com o endpoint público da habilidade de ML.
 - Execute o fluxo de trabalho e você deve observar o campo IBAN recém-adicionado sendo extraído junto aos campos de faturas padrão.
 
Baixe este projeto de exemplo usando este link. Você precisa alterar o Machine Learning Extractor do modo Endpoint para Faturas na sua habilidade de ML treinada.