- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- 990 - Pacote de ML - Prévia
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Passaportes - Pacote de ML
- Contracheques — Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos – Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Requisitos de Hardware
- Pipelines
- Document Manager
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Painéis de insights
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Licenciamento
- Atividades
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Guia do usuário do Document Understanding.
Visão geral de extração de dados
O que é Extração de Dados
Data Extraction is a component in the Document UnderstandingTM Framework that helps in identifying very specific information that you are interested in, from your document types.
As informações que podem ser direcionadas para Extração de Dados são definidas na Taxonomia do projeto, como a lista de campos para um determinado tipo de documento definido nele. Um campo que não aparece na taxonomia do seu projeto não pode ser configurado para extração automática de dados.
A etapa de extração de dados do framework do Document Understanding garante que os extratores configurados sejam requisitados na ordem correta, para a lista correta de campos, para o intervalo de páginas correto do arquivo que está sendo processado. Isso significa que se, em um mesmo arquivo, houver dois ou mais tipos de documentos identificados (para intervalos de páginas diferentes), é recomendável que a etapa de Extração de Dados seja executada várias vezes, uma vez para cada resultado de classificação. A execução da extração de dados para um resultado de classificação com um determinado intervalo de páginas garantirá que os dados sejam direcionados para extração apenas dessas páginas e apenas para esse tipo de documento.
Como usar o Componente de Extração de Dados
Data Extraction is done through the Data Extraction Scope activity. To extract data from documents, you can use one or more extractors, as the scope activity has the role of configuring and executing one or more algorithms for data extraction and of offering an easy, unitary configuration option for all your needs.
Resumindo, é isso que o Escopo de Extração de Dados faz:
- Fornece a todos os extratores (algoritmos de extração) as configurações e entradas necessárias para sua execução.
- Aceita um ou mais extratores.
- Permite ativação ao nível de campo, mapeamento de taxonomia e configurações de limite mínimo de confiança no nível do extrator.
- Relata os dados extraídos de maneira unificada, independentemente do extrator que relatou esses dados específicos.
O Escopo de Extração de Dados permite configurá-lo usando o assistente Configurar Extratores. Você pode personalizar:
- quais campos são solicitados de cada extrator,
- qual é o limite mínimo de confiança para um determinado extrator de pontos de dados por cada classificador,
- qual é o mapeamento de taxonomia, ao nível de campo, entre a taxonomia do projeto e a taxonomia interna do extrator (se houver).
You can mix and match extractors, in a hybrid approach, in which you can request a few fields be extracted by a certain Extractor, while other fields are extracted by a different extractor.
Você pode até implementar regras de "retorno" para extração de dados: se um determinado Extractor não relatar um valor aceitável para um determinado campo, ative um extrator de backup.
É importante observar que a ordem dos extratores no Escopo de Extração de Dados é importante:
- os extratores são executados com prioridade, da esquerda para a direita;
- um valor extraído para um campo é aceito somente se tiver uma confiança igual ou superior ao limite mínimo de confiança definido para aquele extrator;
- um extrator é executado apenas para o intervalo de páginas de classificação fornecido, e apenas para os campos que lhe são solicitados de acordo com a configuração do Escopo de Extração de Dados e os campos que ainda não obtiveram um resultado aceitável de extratores anteriores.
Importante:
If the Data Extraction Scope does not request any field from a given extractor, then that extractor is not executed. This may be the case of an extractor not configured for a certain incoming document type, or the case of an extractor being used as "fall-back" and the previous extractors reported all expected data already.
Extratores disponíveis
Com base nos requisitos do caso de uso, você pode escolher entre vários algoritmos de extração de dados, chamados de extratores.
You can use any extractor that is available in the UiPath.IntelligentOCR.Activities or UiPath.DocumentUnderstanding.ML.Activities package.
Os Extratores disponíveis são:
Você pode construir seu próprio Extrator utilizando os Contratos de Processamento de Documentos públicos, podendo assim implementar qualquer algoritmo que se adeque ao seu caso de uso.