UiPath Documentation
document-understanding
2023.10
false
Importante :
La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.
UiPath logo, featuring letters U and I in white

Document Understanding user guide

Última actualización 6 de abr. de 2026

Visión general de digitalización

Qué es digitalización

Digitization is the process of obtaining machine readable text from a given incoming file, so that a robot can then understand its contents and act upon them. It is the first step applied on files that need to be processed through the Document UnderstandingTM framework.

El paso de digitalización tiene dos salidas:

  • el texto del archivo procesado, almacenado en una variable de string, y
  • el modelo de objeto de documento de ese archivo: objeto JSON que contiene información básica como el nombre, el tipo de contenido, la longitud del texto, el número de páginas, así como información detallada como la rotación de la página, el idioma detectado, el contenido y las coordenadas de cada palabra identificada en el archivo.

In the Document Processing Framework, digitization is performed using the Digitize Document activity.

Qué no es digitalización

Aunque esté relacionado, el paso de digitalización no es OCR.

En muchos casos, los archivos que hay que procesar son archivos PDF nativos (no escaneados), que el robot puede leer de forma programada sin aplicar el OCR.

Cuándo se usa el OCR en la digitalización

The Digitize Document activity requires, as part of its configuration, the selection of an OCR engine - so that, at need, it can be used, but only executes OCR on:

  • archivos que sean imágenes
    • los formatos de imágenes admitidos son .png, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
    • en los archivos TIFF de varias páginas, el OCR se aplica a cada página
  • páginas en PDF que
    • no exponen ningún contenido legible por máquina
    • contienen imágenes que cubren un área significativa de la página.
Nota:

The following digitization limitations apply:

  • Hay un límite de tamaño de archivo de 160 MB.
  • Hay un límite máximo de 500 páginas por documento.

OCR is also applied, always, if the Digitize Document activity is configured with the ForceApplyOCR flag set to True. This option is usually recommended for use cases in which a significant percentage of files seem to contain native content, but the natively read content does not correspond to what a user can observe in those files.

Cómo elegir el motor de OCR

As each use case has its own particularities, it is strongly recommended to test all available OCR Engines with different settings, in order to determine which one works best for your project. Another recommendation is to pay particular attention to the OCR engine arguments, such as Profile, Scale, Language etc. (may vary from one engine to another), so that you identify the best settings for each use case.

  • Qué es digitalización
  • Qué no es digitalización
  • Cuándo se usa el OCR en la digitalización
  • Cómo elegir el motor de OCR

¿Te ha resultado útil esta página?

Conectar

¿Necesita ayuda? Soporte

¿Quiere aprender? UiPath Academy

¿Tiene alguna pregunta? Foro de UiPath

Manténgase actualizado