- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- 990 - Pacote de ML - Prévia
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Passaportes - Pacote de ML
- Contracheques — Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos – Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Requisitos de Hardware
- Pipelines
- Document Manager
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Painéis de insights
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Licenciamento
- Atividades
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Guia do usuário do Document Understanding.
Visão geral da digitalização
O que é Digitalização
Digitization is the process of obtaining machine readable text from a given incoming file, so that a robot can then understand its contents and act upon them. It is the first step applied on files that need to be processed through the Document UnderstandingTM framework.
A etapa de digitalização tem duas saídas:
- o texto do arquivo processado, armazenado em uma variável string, e
- o Modelo de Objeto de Documento desse arquivo - objeto JSON contendo informações básicas como nome, tipo de conteúdo, tamanho do texto, número de páginas, bem como informações detalhadas como rotação de página, idioma detectado, conteúdo e coordenadas para cada palavra identificada no Arquivo.
In the Document Processing Framework, digitization is performed using the Digitize Document activity.
O que a Digitalização não é
Apesar de relacionada, a etapa de digitalização não é OCR.
Em muitos casos, os arquivos que precisam ser processados são arquivos PDF nativos (não digitalizados), que podem ser lidos programaticamente pelo robô sem aplicar OCR.
Quando o mecanismo OCR é utilizado na Digitalização
The Digitize Document activity requires, as part of its configuration, the selection of an OCR engine - so that, at need, it can be used, but only executes OCR on:
- arquivos que são imagens
- formatos de imagens suportados são .png, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
- para arquivos TIFF de várias páginas, o OCR é aplicado para cada página
- Páginas PDF que
- não possuam nenhum conteúdo legível por máquina
- contenham imagens que cubram uma área significativa da página.
The following digitization limitations apply:
- Há um limite de tamanho de arquivo de 160 MB.
- Há um limite máximo de 500 páginas por documento.
OCR is also applied, always, if the Digitize Document activity is configured with the ForceApplyOCR flag set to True. This option is usually recommended for use cases in which a significant percentage of files seem to contain native content, but the natively read content does not correspond to what a user can observe in those files.
Como escolher o mecanismo OCR
As each use case has its own particularities, it is strongly recommended to test all available OCR Engines with different settings, in order to determine which one works best for your project. Another recommendation is to pay particular attention to the OCR engine arguments, such as Profile, Scale, Language etc. (may vary from one engine to another), so that you identify the best settings for each use case.