UiPath Documentation
activities
latest
false
Importante :
A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.
UiPath logo, featuring letters U and I in white

Atividades do Document Understanding

Última atualização 22 de abr de 2026

Digitize Document

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

Description

Digitaliza um documento, extraindo seu Document Object Model (DOM) e texto e armazenando-os em seus tipos de variáveis correspondentes.

Observação:

You must assign an OCR engine to this activity by dragging it into the body of the activity. The chosen OCR engine is to be used only if the incoming documents require OCR processing. Visit OCR Engines to check the available OCR engines. The input and output parameters of the selected OCR engine are automatically set by the Digitize Document activity.

Compatibilidade do projeto

Windows-Legacy | Windows

Configuração

Painel de Propriedades

Comum

  • DisplayName - O nome de exibição da atividade.

Entrada

  • ApplyOcrOnPdf -Establishes if the OCR process should be applied or not to PDF documents. If set to Yes, the OCR is applied to all PDF pages of the document. If set to No, only digitally typed text is extracted. The default value is Auto, determining if the document requires to apply the OCR algorithm depending on the input document.

  • DegreeOfParalelism - Specifies how many, if any, pages to be analyzed in parallel. The -1 value uses the "Number of Cores on the machine - 1". This means that the activity tries to process as many pages in parallel as the number of cores - 1 value, while specifying a positive value uses that specific number of logical processors. By default, this property is set to -1.

    Esta propriedade aceita qualquer valor que não seja maior que LogicalProcessorCount - 1.

  • DetectCheckboxes - Detects the available check-boxes from the document while digitizing it. The default value is True.

  • DocumentPath - The file path of the document you want to digitize. This field supports only strings and String variables.

    Observação:
    • Set the ApplyOcrOnPdf property to Yes for native PDF documents which contain logos, hidden images, or other elements that corrupt the digitization output and might lead to suboptimal extractions and/or classifications.
    • Text extraction from PDF files has been upgraded. This results in an optimized extraction process, where both native and scanned text is retrieved at the same time. The process applies OCR only on the images identified in the PDF file. This improvement is available only when the ApplyOCROnPDF option is set to Auto.
    Observação:

    The supported file types for this property field are .png, .jpe, .jpg, .jpeg, .tiff, .tif, and .pdf.

Diversos

  • Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.

Saída

  • DocumentObjectModel - The Document Object Model (DOM) of the file, stored in a Document variable. This field supports only Document variables.
  • DocumentText - The text extracted from the specified document. This variable can be subsequently used in the Present Validation Station activity. This field supports only String variables.
    Observação:

    Starting with UiPath.IntelligentOCR.Activities package v6.3.0-preview, the Digitize Document activity comes with a default preselected OCR engine, the UiPath® Document OCR engine.

Ambas as variáveis de saída, emparelhadas por serem dependentes, podem ser usadas ainda mais no processamento de documentos em toda a estrutura de processamento de documentos (classificação, extração de dados, validação humana etc.).

Importante

If the UiPath.IntelligentOCR.Activities package has been updated to v5.1.0, then the ForceApplyOCR parameter has been replaced with the ApplyOcrOnPDF. Here is the compatibility between the old and new parameters:

  • ForceApplyOCR = True is replaced by ApplyOcrOnPDF = Yes;
  • ForceApplyOCR = False is replaced by ApplyOcrOnPDF = Auto;
  • ForceApplyOCR = Empty is replaced by ApplyOcrOnPDF = Auto;
  • ForceApplyOCR = Your defined variable is replaced by ApplyOcrOnPDF = Auto.
Observação:

The Digitize Document activity extracts the text from a PDF file and, for complex documents, it applies pre-processing and post-processing algorithms. This activity can be used together with other Document Understanding activities.

Modelo de Objeto do Documento

The Document Object Model is captured in a proprietary object. Visit Document Class for more information.

Dica:

To successfully digitize and process your documents, consider the following advice:

  • Para que uma imagem seja digitalizada/processada com sucesso, suas dimensões de largura e altura devem estar entre 50 e 10000 pixels. Qualquer imagem abaixo ou acima desse intervalo é rejeitada, com uma mensagem de exceção. Uma imagem validada com as dimensões mencionadas anteriormente e com um tamanho total maior que 14 MP é reduzida para 14 MP, mantendo a proporção (proporção de largura ou altura).
  • Os melhores resultados são obtidos mantendo o ângulo de inclinação entre +/- 20 graus.

Exemplo de uso da atividade Digitalizar documento

Visit Manual validation for digitize documents to check how the Digitize Document activity is used in an example that incorporates multiple activities.

Esta página foi útil?

Conectar

Precisa de ajuda? Suporte

Quer aprender? Academia UiPath

Tem perguntas? Fórum do UiPath

Fique por dentro das novidades