UiPath Documentation
document-understanding
2024.10
false
Importante :
A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.
UiPath logo, featuring letters U and I in white

Guia do usuário do Document Understanding.

Última atualização 6 de abr de 2026

Visão geral da digitalização

O que é Digitalização

Digitization is the process of obtaining machine readable text from a given incoming file, so that a robot can then understand its contents and act upon them. It is the first step applied on files that need to be processed through the Document UnderstandingTM framework.

A etapa de digitalização tem duas saídas:

  • o texto do arquivo processado, armazenado em uma variável string, e
  • o Modelo de Objeto de Documento desse arquivo - objeto JSON contendo informações básicas como nome, tipo de conteúdo, tamanho do texto, número de páginas, bem como informações detalhadas como rotação de página, idioma detectado, conteúdo e coordenadas para cada palavra identificada no Arquivo.

In the Document Processing Framework, digitization is performed using the Digitize Document activity.

O que a Digitalização não é

Apesar de relacionada, a etapa de digitalização não é OCR.

Em muitos casos, os arquivos que precisam ser processados são arquivos PDF nativos (não digitalizados), que podem ser lidos programaticamente pelo robô sem aplicar OCR.

Quando o mecanismo OCR é utilizado na Digitalização

The Digitize Document activity requires, as part of its configuration, the selection of an OCR engine - so that, at need, it can be used, but only executes OCR on:

  • arquivos que são imagens
    • formatos de imagens suportados são .png, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
    • para arquivos TIFF de várias páginas, o OCR é aplicado para cada página
  • Páginas PDF que
    • não possuam nenhum conteúdo legível por máquina
    • contenham imagens que cubram uma área significativa da página.
Observação:

The following digitization limitations apply:

  • Há um limite de tamanho de arquivo de 160 MB.
  • Há um limite máximo de 500 páginas por documento.

OCR is also applied, always, if the Digitize Document activity is configured with the ForceApplyOCR flag set to True. This option is usually recommended for use cases in which a significant percentage of files seem to contain native content, but the natively read content does not correspond to what a user can observe in those files.

Como escolher o mecanismo OCR

As each use case has its own particularities, it is strongly recommended to test all available OCR Engines with different settings, in order to determine which one works best for your project. Another recommendation is to pay particular attention to the OCR engine arguments, such as Profile, Scale, Language etc. (may vary from one engine to another), so that you identify the best settings for each use case.

  • O que é Digitalização
  • O que a Digitalização não é
  • Quando o mecanismo OCR é utilizado na Digitalização
  • Como escolher o mecanismo OCR

Esta página foi útil?

Conectar

Precisa de ajuda? Suporte

Quer aprender? Academia UiPath

Tem perguntas? Fórum do UiPath

Fique por dentro das novidades