- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Como extrair dados de recibos
- Faturas retreinadas com um campo adicional
- Como extrair dados de formulários
- Criar uma nova automação a partir de um arquivo
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Guia do usuário do Document Understanding.
Como extrair dados de formulários
O objetivo desta página é ajudar os usuários iniciantes a se familiarizarem com o Document UnderstandingTM.
Para implantações de produção escaláveis, é altamente recomendável usar o Document Understanding Process disponível no UiPath® Studio na seção Modelos.
Este guia de início rápido orienta você pelas etapas necessárias para extrair informações de formulários W-9 usando o Intelligent Form Extractor. Os formulários W-9 são usados como exemplo, mas o procedimento é semelhante para outros tipos de documentos onde os dados estão estruturados.
Começando do zero, estas são as etapas que precisam ser seguidas:
- Crie um processo em branco
- Instale os pacotes de atividades exigidos
- Crie uma taxonomia
- Digitalize o documento
- Extraia os dados usando o Intelligent Form Extractor
- Valide os resultados usando o Validation Station
- Exportar Resultados da Extração
Agora, vamos ver cada passo em detalhes.
Execute o UiPath Studio.
Em INÍCIO, no modo de exibição Backstage, clique em Processo para criar um projeto.
A janela Novo processo em branco é exibida. Nesta janela, insira um nome para o novo projeto. Se desejar, você também pode adicionar uma descrição para classificar seus projetos com mais facilidade.
Clique em Criar. O novo projeto será aberto no Studio.
No botão Gerenciar Pacotes na faixa de opções, além dos pacotes de atividades principais (UiPath.Excel.Activities, UiPath.Mail.Activities, UiPath.System.Activities, UiPath.UIAutomation.Activities) que são adicionados ao projeto por padrão, instale o seguintes pacotes de atividades:
Depois que os pacotes estiverem instalados, liste os campos obrigatórios. Faremos a extração de dados para os campos abaixo:
- 1_Name -
Text
- 2_BusinessName -
Text
- 3a_Individual -
Boolean
- 3b_CCorp -
Boolean
- 3c_SCorp -
Boolean
- 3d_Partnership -
Boolean
- 3e_TrustEstate -
Boolean
- 3f_LLC -
Boolean
- 3f_LLCTaxClassification -
Boolean
- 3g_Other -
Boolean
- 3g_OtherDetail -
Boolean
- 5_Address -
Text
- 6_CityStateZip -
Text
- 7_AcctNumber -
Text
- TIN_SSN -
Text
- TIN_ETN -
Text
- Certification_Signature -
Boolean
- Certification_SignatureDate -
Date
Abra o Gerenciador de Taxonomia e crie um grupo chamado Documentos Semiestruturados, uma categoria chamada Formulários de empréstimo e um tipo de documento chamado W-9. Crie os campos listados acima com nomes amigáveis com os respectivos tipos de dados.
No arquivo Main.xaml, adicione uma atividade Carregar taxonomia e crie uma variável para a saída da taxonomia.
Adicione uma atividade Digitize Document com UiPath Document OCR. Forneça a propriedade de entrada Caminho do Documento e crie variáveis de saída para Texto do Documento e Modelo de Objeto do Documento.
Lembre-se de adicionar a Chave de API do Document Understanding na atividade UiPath Document OCR.
Adicione uma atividade de Data Extraction Scope e preencha as propriedades.
Arraste e solte o Intelligent Form Extractor dentro dele. O endpoint deve ser preenchido automaticamente com o endpoint Intelligent Form Extractor, ou seja, https://du.uipath.com/svc/intelligentforms. Forneça a chave da API do Document Understanding.
Feito isso, para criar um novo modelo, clique em Gerenciar modelos > Criar modelo. Uma janela pop-up é exibida.
Em Tipo de documento, selecione o tipo de documento W-9 criado anteriormente.
Em Nome do documento, insira um nome para o seu modelo.
Em Documento de modelo (PDF nativo, se possível), anexe um documento de modelo onde você mapeará as posições do campo.
Em Mecanismo de OCR, selecione novamente o UiPath Document OCR. Assim como antes, o endpoint deve ser preenchido automaticamente, ou seja, https://du.uipath.com/ocr, e você só precisa fornecer a chave de API.
Clique em Configurar para ir para a próxima etapa. A janela pop-up Gerenciador de Modelos é aberta.
Aqui, precisaremos selecionar as áreas onde queremos que o Intelligent Form Extractor pesquise nossos campos. Configure-os seguindo as etapas detalhadas aqui. Você também tem a opção de usar âncoras para seus campos. Mais informações sobre âncoras aqui.
O resultado deve ser parecido com:
Clique em Salvar. Nesta tela, você pode definir os campos manuscritos ou de assinatura, quando aplicável. Você também pode definir sinônimos para campos booleanos. Feche a janela após terminar.
O próximo passo é configurar o extrator, ou seja, fazer com que o Intelligent Form Extractor processe todos os documentos do tipo W-9.
Para verificar os resultados através do Validation Station, arraste e solte a atividade Present Validation Station e forneça os detalhes de entrada.
DataSet
que contém várias tabelas que podem ser gravadas em um arquivo Excel ou usadas diretamente em um processo downstream.
Baixe este projeto de amostra para executar o fluxo de trabalho W-9 com Intelligent Form Extractor usando este link.