document-understanding

2023.4

false

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Guia do usuário do Document Understanding.

Visão geral da digitalização

O que é Digitalização

A Digitalização é o processo de obtenção de texto legível por máquina de um determinado arquivo de entrada para que um robô possa entender seu conteúdo e agir sobre ele. É a primeira etapa aplicada em arquivos que precisam ser processados por meio da estrutura do Document Understanding^TM.

A etapa de digitalização tem duas saídas:

o texto do arquivo processado, armazenado em uma variável string, e
o Modelo de Objeto de Documento desse arquivo - objeto JSON contendo informações básicas como nome, tipo de conteúdo, tamanho do texto, número de páginas, bem como informações detalhadas como rotação de página, idioma detectado, conteúdo e coordenadas para cada palavra identificada no Arquivo.

No framework Document Processing, a digitalização é realizada usando a atividade Digitize Document.

O que a Digitalização não é

Apesar de relacionada, a etapa de digitalização não é OCR.

Em muitos casos, os arquivos que precisam ser processados são arquivos PDF nativos (não digitalizados), que podem ser lidos programaticamente pelo robô sem aplicar OCR.

Quando o mecanismo OCR é utilizado na Digitalização

A atividade Digitize Document requer, como parte de sua configuração, a seleção de um mecanismo de OCR - para que, quando necessário, possa ser utilizado, mas que execute OCR apenas em:

arquivos que são imagens
- formatos de imagens suportados são .png, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
- para arquivos TIFF de várias páginas, o OCR é aplicado para cada página
Páginas PDF que
- não possuam nenhum conteúdo legível por máquina
- contenham imagens que cubram uma área significativa da página.

Observação: as seguintes limitações de digitalização se aplicam:

Há um limite de tamanho de arquivo de 160 MB.
Há um limite máximo de 500 páginas por documento.

O OCR também é aplicado, sempre, se a atividade Digitalizar documento estiver configurada com a sinalização ForceApplyOCR definida como Verdadeira. Essa opção é geralmente recomendada para casos de uso nos quais uma porcentagem significativa de arquivos parece conter conteúdo nativo, mas o conteúdo lido nativamente não corresponde ao que um usuário pode observar nesses arquivos.

Como escolher o mecanismo OCR

Como cada caso de uso tem suas particularidades, é altamente recomendável testar todos os mecanismos de OCR disponíveis com diferentes configurações para determinar qual deles funciona melhor para o seu projeto. Outra recomendação é prestar atenção especial aos argumentos do mecanismo de OCR, como Perfil, Escala, Idioma etc. (podem variar de um mecanismo para outro), para que você identifique as melhores configurações para cada caso de uso.

Nesta página

O que é Digitalização
O que a Digitalização não é
Quando o mecanismo OCR é utilizado na Digitalização
Como escolher o mecanismo OCR

Esta página foi útil?

AnteriorDigitalização

AvançarAtividades relacionadas à digitalização