document-understanding

2021.10

false

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Sin asistencia

Guía del usuario de Document Understanding

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última actualización 4 de feb. de 2025

Servicios de OCR

Acerca de los servicios de OCR

Los servicios de OCR se utilizan para lo siguiente:

En el momento de etiquetar los datos, al importar los documentos en Data Manager. Los motores disponibles para este paso son UiPath Document OCR, Google Cloud Vision OCR y Microsoft Read OCR.
Durante el tiempo de ejecución a la hora de ejecutar los modelos desde los flujos de trabajo RPA. Los motores disponibles para este paso son todos los motores integrados en la plataforma UiPath RPA, incluidos los anteriores, además de Abbyy Finereader, Microsoft OCR (heredado), Microsoft Project Oxford OCR y Tesseract.

En producción, recomendamos llamar al OCR mediante la actividad Digitalizar documento en el flujo de trabajo y pasar el modelo de objetos del documento como entrada a la actividad que llama al modelo ML. Para ello, debes utilizar la actividad Extractor con aprendizaje automático (fuente oficial).

Para facilitar las pruebas, también se puede configurar el OCR directamente en AI Center (ventana de Configuración), aunque no se recomienda para las implementaciones de producción.

Requisitos

En esta sección se detallan los requisitos de hardware y software para instalar motores OCR.

Requisitos de hardware

Máquinas implicadas: máquina virtual en la nube/local/portátil
Sistemas operativos: Windows (Windows 10)/Linux (Ubuntu/RedHat)
Motores de cálculo: CPU/GPU
OCR: UiPath Document OCR CPU/UiPath Document OCR GPU

	Núcleos de la CPU	RAM (GB)	RAM de vídeo (GB)	HDD (GB)
CPU UiPath	4	4		50
GPU UiPath	1	4	8	50

Requisitos de software

Sistema operativo Linux

Si instalas el producto en una máquina virtual en la nube, se admiten los siguientes sistemas operativos:

Software	Versiones
Ubuntu	20.04 LTS 18.04 LTS 16.04 LTS
RHEL	7.x

Si instalas el producto en una máquina en un centro de datos local, se admiten los siguientes sistemas operativos:

Software	Versiones
Ubuntu	20.04 LTS 18.04 LTS 16.04 LTS
RHEL	7.x

Sistema operativo Windows

Consulta el sitio web oficial de Docker para ver la lista de sistemas operativos Windows compatibles.

En Windows, tu máquina requiere que se habilite la virtualización. Se recomienda encarecidamente hacer esto solo en máquinas físicas como portátiles o estaciones de trabajo de escritorio. No se admite la ejecución de Docker en Windows en máquinas virtuales (nube o centro de datos) utilizando la virtualización anidada.

Navegadores

Software	Versiones
Google Chrome	50+

Configuración de la red

Data Manager necesita acceder al motor OCR <IP>:<port_number>. El motor OCR puede ser UiPath Document OCR local, Google Cloud Vision OCR, Microsoft Read Azure o Microsoft Read local.
Los robots necesitan acceso al <IP>:<port_number> OCR. Con las mismas opciones OCR que se han indicado anteriormente.
Los motores OCR deben acceder al servidor de licencias alojado por UiPath en Azure, en el puerto 443.

Prueba mínima o configuración de prueba de concepto

Si solo deseas servir modelos previamente entrenados listos para usar, puedes ejecutar un motor OCR en el ordenador portátil con Windows 10. Asegúrate de que Docker Desktop dispone de 8 G de RAM.

Si deseas probar el entrenamiento de un modelo personalizado como demostración en un pequeño volumen de datos (menos de 100 documentos), puedes ejecutar el motor OCR en un entorno con un límite de 4 GB de RAM. Para casos pequeños como este, puede no ser necesaria una GPU para el motor OCR.

Requisitos previos

Los motores OCR son aplicaciones en contenedores que se ejecutan en Docker. No se pueden ejecutar en la misma máquina que AI Center local. Para ejecutarlos en una máquina independiente, se pueden utilizar los comandos del instalador de requisitos previos que se indican a continuación para configurar Docker y, opcionalmente, los controladores NVidia. Estos scripts no deben ejecutarse en la máquina donde se instalará AI Center.

Importante: Las imágenes de Docker pueden tener muchos GB de tamaño, así que la carpeta de Docker donde se almacenan sus archivos en Linux debe estar en una partición lo suficientemente grande como para no quedarse sin espacio. De forma predeterminada, siempre está en la partición raíz.

Para ver el tamaño de tu partición raíz, escribe lo siguiente en el terminal y busca la línea con una / en la columna de la derecha:

df -hdf -h

Si el tamaño de esa partición es inferior a los requisitos mínimos de almacenamiento, consulta la sección Configurar la carpeta de datos de Docker.

Instalar Docker

Linux

Sigue las instrucciones de la documentación oficial de Docker o ejecuta este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu

Si este comando falla, entonces tienes un sistema operativo Linux no compatible y debes solicitar a tu departamento de TI que instale Docker en la máquina siguiendo las instrucciones de la documentación oficial de Docker.

Máquinas virtuales con Azure

Si la instalación se realiza en una máquina virtual con Azure, utiliza este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure

Windows 10

Descarga e instala Docker Desktop. En las versiones recientemente actualizadas de Windows 10, necesitarás tener instalado WSL2. Por lo tanto, cuando aparezca un cuadro de diálogo que indique "La instalación de WSL 2 está incompleta", haz clic en el botón Reiniciar.

Cuando ejecutes Data Manager debes crear una carpeta de trabajo para cada contenedor de Docker (tal vez denominada workdir por Data Manager) e incluir su ruta en el comando de ejecución de docker, tras el indicador -v. Al hacerlo en Windows, Docker Desktop mostrará una notificación similar a la siguiente. Es necesario hacer clic en Compartir para continuar.

Configurar la carpeta de datos de Docker (solo en Linux)

Introduce la ruta de la carpeta donde desea que Docker guarde sus archivos, ejecuta este comando y reinicia:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>

Hoja de referencia de Docker Cheat

Docker permite enviar software en imágenes de Docker. Una instancia en ejecución de una imagen se denomina contenedor. Un contenedor puede detenerse, eliminarse y volver a iniciarse tantas veces como sea necesario, siempre que la imagen esté disponible.

Una vez que se elimina la imagen, esta se pierde. La única forma de recuperarla es sacarla de nuevo del registro del que procede, si todavía está disponible ahí.

Un contenedor en ejecución es análogo a una pequeña máquina virtual, en el sentido de que tiene un sistema de archivos e interfaces de red independientes del sistema de archivos y la red del host. Las carpetas y los puertos se pueden asignar del contenedor al host utilizando los argumentos –v y –p respectivamente.

En la siguiente tabla puedes encontrar una lista de comandos comunes para la línea de comandos de Docker.

Haz clic aquí para ver la lista completa de comandos básicos de Docker.

Comando	Descripción
`docker login <registry name> -u <username> -p <password>`	Permite acceder a un registro.
`docker pull <registry name>/<image name>:<image tag>`	Permite descargar una imagen de un registro. La etiqueta más reciente se utiliza habitualmente para referirse a la última versión de una imagen.
`docker run –d -p 5000:80 <registry name>/<image name>:<image tag>` O `docker run –d –p 5000:80 <image id>`	Ejecuta una imagen en modo independiente, mientras asignas el puerto 80 desde dentro del contenedor al puerto 5000 en la máquina host, y <container folder> a <host folder>. Modo independiente significa que el contenedor no bloquea el terminal, para que puedas realizar otras operaciones en el mismo terminal.
`docker images`	Muestra una lista de las imágenes que hay en el sistema.
`docker ps –a`	Muestra una lista de todos los contenedores (tanto los que se están ejecutando como los que están detenidos). El ID del contenedor se utiliza para referirse a ese contenedor cuando hace falta, por ejemplo, detenerlo o eliminarlo.
`docker stop <container id>`	Detiene el contenedor Este comando no elimina el contenedor, pero es necesario hacerlo antes de eliminarlo.
"`docker rm <container id>`"	Elimina el contenedor El contenedor debe detenerse de antemano.
`docker logs <container id>`	Muestra los registros del contenedor.
`docker rmi <image id>`	Elimina una o más imágenes del sistema. Esto contribuye a ahorrar espacio de almacenamiento, ya que las imágenes pueden ocupar mucho espacio.
`Docker container prune -f`	Elimina todos los contenedores detenidos

Hoja de referencia del terminal Linux

Comando	Descripción
`sudo <any_command>`	Ejecuta un comando como administrador. Prueba esto cada vez que aparezca el error Permiso denegado.
`ifconfig`	Muestra información sobre las interfaces de red del sistema. Localiza la IP de tu máquina en las secciones eth0 o docker0.
`pwd`	Muestra la ruta a la carpeta actual.
`ls`	Muestra una lista del contenido de un directorio.
`cd <folder_name>`	Permite ir a una carpeta distinta.
`mkdir <folder_name>`	Crea una carpeta nueva.

(Opcional) Instalación de la máquina GPU

Linux

Ejecuta este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

En algunos sistemas puede ser necesario ejecutar el comando dos veces o reiniciar el sistema para instalar todos los requisitos.

Específico para Azure: para utilizar las máquinas virtuales de la serie NV es necesario instalar el controlador de NVIDIA antes de ejecutar el comando anterior, o bien puedes utilizar una Extensión del controlador de Azure para instalar el controlador NVIDIA necesario según el modelo de GPU de ese nivel.

Máquinas virtuales con Azure

Si la instalación se realiza en una máquina virtual con Azure, utiliza este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Instalación

UiPath Document OCR

UiPath Document OCR es una tecnología OCR propia de UiPath, que admite los caracteres utilizados por los siguientes idiomas de escritura latina: inglés, francés, alemán, italiano, portugués, rumano y español. El texto en otros idiomas se reconocerá, pero sin acentos. Por ejemplo, "Ł" en polaco se reconocerá como "L". Las páginas procesadas con UiPath Document OCR no cuentan para la cuota de páginas adquirida junto con la licencia Enterprise de Document Understanding, por lo que el uso de UiPath Document OCR es gratuito.

UiPath Document OCR está disponible con los siguientes tipos de implementación:

URL públicas en la nube: más información en la página de los Puntos finales públicos
en las instalaciones (incluido el modo aislado) usando el paquete de actividades UiPath.DocumentUnderstanding.OCR.LocalServer (no necesita acceso a Internet)
De manera local, con un contenedor de Docker normal e independiente (requiere acceso a Internet).
Contenedor de Docker independiente local aislado (no requiere acceso a Internet).
De manera local, como habilidad ML en la implementación regular de AI Center (requiere acceso a Internet).
De manera local, como habilidad ML en la implementación aislada de AI Center (no requiere acceso a Internet).

Para instalar el contenedor de Docker independiente de UiPath Document OCR, ejecuta estos comandos:

docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest

Ejecuta mediante CPU

docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Ejecuta mediante GPU

docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

En AI Center, al crear un nuevo paquete ML, en la parte inferior de la pantalla se encuentra la sección de configuración opcional de OCR, donde se puede definir el tipo de motor OCR en el servidor, la URL de OCR y la clave de OCR. La clave OCR es la clave API que se consigue en la sección de licencias de la cuenta de Automation Cloud. Se trata de la configuración de OCR que utilizará la actividad Extractor con aprendizaje automático, si se marca la casilla "UtilizarOCRDelServidor". Esta casilla está desactivada de forma predeterminada, y en ese caso el extractor utilizará el OCR en la actividad Digitalizar documento.

Importante: El contenedor de UiPath Document OCR no puede ejecutarse en la misma máquina que el AI Center local.

Google Cloud OCR

El punto final puede obtenerse de la documentación de Google Cloud Platform. La clave API puede obtenerse en la consola de Google Cloud Platform si se dispone de un servicio de Google Cloud Vision en la suscripción.

Microsoft Read

Importante: Es aplicable para los puntos finales de los contenedores tanto locales como de Azure.

En el caso de los servicios de Azure, es necesario proporcionar tanto el punto final como la clave API.

En el caso de los puntos finales de contenedor local, no es necesaria la clave API.

Configurar el servicio de OCR en Data Manager y los paquetes ML de AI Center Document Understanding

En la siguiente tabla se muestra cómo configurar los seis tipos de motores OCR admitidos tanto en Data Manager como en AI Center.

Motor OCR	Método OCR	Clave OCR	URL del OCR
UiPath	UiPath Document OCR	UiPath Automation Cloud Clave API de Document Understanding Plan empresarial	`http://<IP_addr>:<port_number>`
Google	Google Cloud Vision OCR	Clave de API de la consola GCP	`https://vision.googleapis.com/v1/images:annotate`
Microsoft Read 2.0 On-Prem	Microsoft Read OCR	Ninguno	`http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze`
Microsoft Read 2.0 Azure	Microsoft Read OCR	Clave API para los recursos del Portal Azure	`<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze`
Microsoft Read 3.2 local	Microsoft Read OCR	Ninguno	`http://<IP_addr>:<port_number>/vision/v3.2/read/analyze`
Microsoft Read 3.2 Azure	Microsoft Read OCR	Clave API para los recursos del Portal Azure	`<Azure_resource_Endpoint>/vision/v3.2/read/analyze`