- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Visão geral da digitalização
Digitization is the process of obtaining machine readable text from a given incoming file, so that a robot can then understand its contents and act upon them. It is the first step applied on files that need to be processed through the Document UnderstandingTM framework.
A etapa de digitalização tem duas saídas:
- o texto do arquivo processado, armazenado em uma variável string, e
- o Modelo de Objeto de Documento desse arquivo - objeto JSON contendo informações básicas como nome, tipo de conteúdo, tamanho do texto, número de páginas, bem como informações detalhadas como rotação de página, idioma detectado, conteúdo e coordenadas para cada palavra identificada no Arquivo.
No framework Document Processing, a digitalização é realizada usando a atividade Digitize Document.
Apesar de relacionada, a etapa de digitalização não é OCR.
Em muitos casos, os arquivos que precisam ser processados são arquivos PDF nativos (não digitalizados), que podem ser lidos programaticamente pelo robô sem aplicar OCR.
A atividade Digitize Document requer, como parte de sua configuração, a seleção de um mecanismo de OCR - para que, quando necessário, possa ser utilizado, mas que execute OCR apenas em:
- arquivos que são imagens
- formatos de imagens suportados são .png, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
- para arquivos TIFF de várias páginas, o OCR é aplicado para cada página
- Páginas PDF que
- não possuam nenhum conteúdo legível por máquina
- contenham imagens que cubram uma área significativa da página.
- Há um limite de tamanho de arquivo de 160 MB.
- Há um limite máximo de 500 páginas por documento.
O OCR também é sempre aplicado se a atividade Digitize Document estiver configurada com a flag ForceApplyOCR definida como True. Essa opção geralmente é recomendada para casos de uso em que uma porcentagem significativa de arquivos parece conter conteúdo nativo, mas o conteúdo lido nativamente não corresponde ao que um usuário pode visualizar nesses arquivos.
Como cada caso de uso tem suas particularidades, é altamente recomendável testar todos os mecanismos de OCR disponíveis com diferentes configurações para determinar qual deles funciona melhor para o seu projeto. Outra recomendação é prestar atenção especial aos argumentos do mecanismo de OCR, como Perfil, Escala, Idioma etc. (podem variar de um mecanismo para outro), para que você identifique as melhores configurações para cada caso de uso.