- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Guia do usuário do Document Understanding.
Visão geral de extração de dados
A extração de dados é um componente do framework TMdo Document Understanding que ajuda a identificar informações muito específicas nas quais você está interessado, de seus tipos de documento.
As informações que podem ser direcionadas para Extração de Dados são definidas na Taxonomia do projeto, como a lista de campos para um determinado tipo de documento definido nele. Um campo que não aparece na taxonomia do seu projeto não pode ser configurado para extração automática de dados.
A etapa de extração de dados do framework do Document Understanding garante que os extratores configurados sejam requisitados na ordem correta, para a lista correta de campos, para o intervalo de páginas correto do arquivo que está sendo processado. Isso significa que se, em um mesmo arquivo, houver dois ou mais tipos de documentos identificados (para intervalos de páginas diferentes), é recomendável que a etapa de Extração de Dados seja executada várias vezes, uma vez para cada resultado de classificação. A execução da extração de dados para um resultado de classificação com um determinado intervalo de páginas garantirá que os dados sejam direcionados para extração apenas dessas páginas e apenas para esse tipo de documento.
A extração de dados é feita por meio da atividade Escopo da Extração de Dados. Para extrair dados de documentos, você pode utilizar um ou mais extratores, pois a atividade de escopo tem o papel de configurar e executar um ou mais algoritmos de extração de dados e oferecer uma opção de configuração simples e unitária para todas as suas necessidades.
Resumindo, é isso que o Escopo de Extração de Dados faz:
- Fornece a todos os extratores (algoritmos de extração) as configurações e entradas necessárias para sua execução.
- Aceita um ou mais extratores.
- Permite ativação ao nível de campo, mapeamento de taxonomia e configurações de limite mínimo de confiança no nível do extrator.
- Relata os dados extraídos de maneira unificada, independentemente do extrator que relatou esses dados específicos.
O Escopo de Extração de Dados permite configurá-lo usando o assistente Configurar Extratores. Você pode personalizar:
- quais campos são solicitados de cada extrator,
- qual é o limite mínimo de confiança para um determinado extrator de pontos de dados por cada classificador,
- qual é o mapeamento de taxonomia, ao nível de campo, entre a taxonomia do projeto e a taxonomia interna do extrator (se houver).
Você pode misturar e combinar extratores, em uma abordagem híbrida, na qual solicita que alguns campos sejam extraídos por um determinado Extrator, enquanto outros campos sejam extraídos por um extrator diferente.
Você pode até implementar regras de "retorno" para extração de dados: se um determinado Extractor não relatar um valor aceitável para um determinado campo, ative um extrator de backup.
É importante observar que a ordem dos extratores no Escopo de Extração de Dados é importante:
- os extratores são executados com prioridade, da esquerda para a direita;
- um valor extraído para um campo é aceito somente se tiver uma confiança igual ou superior ao limite mínimo de confiança definido para aquele extrator;
-
um extrator é executado apenas para o intervalo de páginas de classificação fornecido, e apenas para os campos que lhe são solicitados de acordo com a configuração do Escopo de Extração de Dados e os campos que ainda não obtiveram um resultado aceitável de extratores anteriores.
Importante: se o Escopo de extração de dados não solicitar nenhum campo de um determinado extrator, esse extrator não será executado. Este pode ser o caso de um extrator não configurado para um determinado tipo de documento de entrada, ou o caso de um extrator sendo usado como "retorno" e os extratores anteriores já reportaram todos os dados esperados.
Com base nos requisitos do caso de uso, você pode escolher entre vários algoritmos de extração de dados, chamados de extratores.
Você pode usar qualquer extrator disponível no pacote UiPath.IntelligentOCR.Activities ou UiPath.DocumentUnderstanding.ML.Activities.
Os Extratores disponíveis são:
Você pode construir seu próprio Extrator utilizando os Contratos de Processamento de Documentos públicos, podendo assim implementar qualquer algoritmo que se adeque ao seu caso de uso.