Document Understanding
2021.10
False
Imagen de fondo del banner
Guía del usuario de Document Understanding
Última actualización 28 de feb. de 2024

Servicios de OCR

Acerca de los servicios de OCR

Los servicios de OCR se utilizan para lo siguiente:

  • En el momento de etiquetar los datos, al importar los documentos en Data Manager. Los motores disponibles para este paso son UiPath Document OCR, Google Cloud Vision OCR y Microsoft Read OCR.
  • Durante el tiempo de ejecución a la hora de ejecutar los modelos desde los flujos de trabajo RPA. Los motores disponibles para este paso son todos los motores integrados en la plataforma UiPath RPA, incluidos los anteriores, además de Abbyy Finereader, Microsoft OCR (heredado), Microsoft Project Oxford OCR y Tesseract.

En producción, recomendamos llamar al OCR mediante la actividad Digitalizar documento en el flujo de trabajo y pasar el modelo de objetos del documento como entrada a la actividad que llama al modelo ML. Para ello, debes utilizar la actividad Extractor con aprendizaje automático (fuente oficial).

Para facilitar las pruebas, también se puede configurar el OCR directamente en AI Center (ventana de Configuración), aunque no se recomienda para las implementaciones de producción.

Requisitos

En esta sección se detallan los requisitos de hardware y software para instalar motores OCR.

Requisitos de hardware

  • Máquinas implicadas: máquina virtual en la nube/local/portátil

  • Sistemas operativos: Windows (Windows 10)/Linux (Ubuntu/RedHat)

  • Motores de cálculo: CPU/GPU

  • OCR: UiPath Document OCR CPU/UiPath Document OCR GPU

Núcleos de la CPU

RAM (GB)

RAM de vídeo (GB)

HDD (GB)

CPU UiPath

4

4

 

50

GPU UiPath

1

4

8

50

Requisitos de software

Sistema operativo Linux

Si instalas el producto en una máquina virtual en la nube, se admiten los siguientes sistemas operativos:

Software

Versiones

Ubuntu

20.04 LTS

18.04 LTS

16.04 LTS

RHEL

7.x

Si instalas el producto en una máquina en un centro de datos local, se admiten los siguientes sistemas operativos:

Software

Versiones

Ubuntu

20.04 LTS

18.04 LTS

16.04 LTS

RHEL

7.x

Sistema operativo Windows

Consulta el sitio web oficial de Docker para ver la lista de sistemas operativos Windows compatibles.

En Windows, tu máquina requiere que se habilite la virtualización. Se recomienda encarecidamente hacer esto solo en máquinas físicas como portátiles o estaciones de trabajo de escritorio. No se admite la ejecución de Docker en Windows en máquinas virtuales (nube o centro de datos) utilizando la virtualización anidada.

Navegadores

Software

Versiones

Google Chrome

50+

Configuración de la red

  • Data Manager necesita acceder al motor OCR <IP>:<port_number>. El motor OCR puede ser UiPath Document OCR local, Google Cloud Vision OCR, Microsoft Read Azure o Microsoft Read local.
  • Los robots necesitan acceso al <IP>:<port_number> OCR. Con las mismas opciones OCR que se han indicado anteriormente.
  • Los motores OCR deben acceder al servidor de licencias alojado por UiPath en Azure, en el puerto 443.

Prueba mínima o configuración de prueba de concepto

Si solo deseas servir modelos previamente entrenados listos para usar, puedes ejecutar un motor OCR en el ordenador portátil con Windows 10. Asegúrate de que Docker Desktop dispone de 8 G de RAM.

Si deseas probar el entrenamiento de un modelo personalizado como demostración en un pequeño volumen de datos (menos de 100 documentos), puedes ejecutar el motor OCR en un entorno con un límite de 4 GB de RAM. Para casos pequeños como este, puede no ser necesaria una GPU para el motor OCR.

Requisitos previos

Los motores OCR son aplicaciones en contenedores que se ejecutan en Docker. No se pueden ejecutar en la misma máquina que AI Center local. Para ejecutarlos en una máquina independiente, se pueden utilizar los comandos del instalador de requisitos previos que se indican a continuación para configurar Docker y, opcionalmente, los controladores NVidia. Estos scripts no deben ejecutarse en la máquina donde se instalará AI Center.

Importante: Las imágenes de Docker pueden tener muchos GB de tamaño, así que la carpeta de Docker donde se almacenan sus archivos en Linux debe estar en una partición lo suficientemente grande como para no quedarse sin espacio. De forma predeterminada, siempre está en la partición raíz.
Para ver el tamaño de tu partición raíz, escribe lo siguiente en el terminal y busca la línea con una / en la columna de la derecha:
df -hdf -h

Si el tamaño de esa partición es inferior a los requisitos mínimos de almacenamiento, consulta la sección Configurar la carpeta de datos de Docker.

Instalar Docker

Linux

Sigue las instrucciones de la documentación oficial de Docker o ejecuta este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu

Si este comando falla, entonces tienes un sistema operativo Linux no compatible y debes solicitar a tu departamento de TI que instale Docker en la máquina siguiendo las instrucciones de la documentación oficial de Docker.

Máquinas virtuales con Azure

Si la instalación se realiza en una máquina virtual con Azure, utiliza este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure

Windows 10

Descarga e instala Docker Desktop. En las versiones recientemente actualizadas de Windows 10, necesitarás tener instalado WSL2. Por lo tanto, cuando aparezca un cuadro de diálogo que indique "La instalación de WSL 2 está incompleta", haz clic en el botón Reiniciar.

Cuando ejecutes Data Manager debes crear una carpeta de trabajo para cada contenedor de Docker (tal vez denominada workdir por Data Manager) e incluir su ruta en el comando de ejecución de docker, tras el indicador -v. Al hacerlo en Windows, Docker Desktop mostrará una notificación similar a la siguiente. Es necesario hacer clic en Compartir para continuar.


Configurar la carpeta de datos de Docker (solo en Linux)

Introduce la ruta de la carpeta donde desea que Docker guarde sus archivos, ejecuta este comando y reinicia:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>

Hoja de referencia de Docker Cheat

Docker permite enviar software en imágenes de Docker. Una instancia en ejecución de una imagen se denomina contenedor. Un contenedor puede detenerse, eliminarse y volver a iniciarse tantas veces como sea necesario, siempre que la imagen esté disponible.

Una vez que se elimina la imagen, esta se pierde. La única forma de recuperarla es sacarla de nuevo del registro del que procede, si todavía está disponible ahí.

Un contenedor en ejecución es análogo a una pequeña máquina virtual, en el sentido de que tiene un sistema de archivos e interfaces de red independientes del sistema de archivos y la red del host. Las carpetas y los puertos se pueden asignar del contenedor al host utilizando los argumentos –v y –p respectivamente.

En la siguiente tabla puedes encontrar una lista de comandos comunes para la línea de comandos de Docker.

Haz clic aquí para ver la lista completa de comandos básicos de Docker.

Comando

Descripción

docker login <registry name> -u <username> -p <password>

Permite acceder a un registro.

docker pull <registry name>/<image name>:<image tag>

Permite descargar una imagen de un registro. La etiqueta más reciente se utiliza habitualmente para referirse a la última versión de una imagen.

docker run –d -p 5000:80 <registry name>/<image name>:<image tag>

O

docker run –d –p 5000:80 <image id>

Ejecuta una imagen en modo independiente, mientras asignas el puerto 80 desde dentro del contenedor al puerto 5000 en la máquina host, y <container folder> a <host folder>. Modo independiente significa que el contenedor no bloquea el terminal, para que puedas realizar otras operaciones en el mismo terminal.

docker images

Muestra una lista de las imágenes que hay en el sistema.

docker ps –a

Muestra una lista de todos los contenedores (tanto los que se están ejecutando como los que están detenidos).

El ID del contenedor se utiliza para referirse a ese contenedor cuando hace falta, por ejemplo, detenerlo o eliminarlo.

docker stop <container id>

Detiene el contenedor

Este comando no elimina el contenedor, pero es necesario hacerlo antes de eliminarlo.

"docker rm <container id>"

Elimina el contenedor

El contenedor debe detenerse de antemano.

docker logs <container id>

Muestra los registros del contenedor.

docker rmi <image id>

Elimina una o más imágenes del sistema.

Esto contribuye a ahorrar espacio de almacenamiento, ya que las imágenes pueden ocupar mucho espacio.

Docker container prune -f

Elimina todos los contenedores detenidos

Hoja de referencia del terminal Linux

Comando

Descripción

sudo <any_command>

Ejecuta un comando como administrador. Prueba esto cada vez que aparezca el error Permiso denegado.

ifconfig

Muestra información sobre las interfaces de red del sistema. Localiza la IP de tu máquina en las secciones eth0 o docker0.

pwd

Muestra la ruta a la carpeta actual.

ls

Muestra una lista del contenido de un directorio.

cd <folder_name>

Permite ir a una carpeta distinta.

mkdir <folder_name>

Crea una carpeta nueva.

(Opcional) Instalación de la máquina GPU

Linux

Ejecuta este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

En algunos sistemas puede ser necesario ejecutar el comando dos veces o reiniciar el sistema para instalar todos los requisitos.

Específico para Azure: para utilizar las máquinas virtuales de la serie NV es necesario instalar el controlador de NVIDIA antes de ejecutar el comando anterior, o bien puedes utilizar una Extensión del controlador de Azure para instalar el controlador NVIDIA necesario según el modelo de GPU de ese nivel.

Máquinas virtuales con Azure

Si la instalación se realiza en una máquina virtual con Azure, utiliza este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Instalación

UiPath Document OCR

UiPath Document OCR es una tecnología OCR propia de UiPath, que admite los caracteres utilizados por los siguientes idiomas de escritura latina: inglés, francés, alemán, italiano, portugués, rumano y español. El texto en otros idiomas se reconocerá, pero sin acentos. Por ejemplo, "Ł" en polaco se reconocerá como "L". Las páginas procesadas con UiPath Document OCR no cuentan para la cuota de páginas adquirida junto con la licencia Enterprise de Document Understanding, por lo que el uso de UiPath Document OCR es gratuito.

UiPath Document OCR está disponible con los siguientes tipos de implementación:

  • URL públicas en la nube: más información en la página de los Puntos finales públicos
  • en las instalaciones (incluido el modo aislado) usando el paquete de actividades UiPath.DocumentUnderstanding.OCR.LocalServer (no necesita acceso a Internet)
  • De manera local, con un contenedor de Docker normal e independiente (requiere acceso a Internet).
  • Contenedor de Docker independiente local aislado (no requiere acceso a Internet).
  • De manera local, como habilidad ML en la implementación regular de AI Center (requiere acceso a Internet).
  • De manera local, como habilidad ML en la implementación aislada de AI Center (no requiere acceso a Internet).
  1. Para instalar el contenedor de Docker independiente de UiPath Document OCR, ejecuta estos comandos:

    docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest
  2. Ejecuta mediante CPU

    docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  3. Ejecuta mediante GPU

    docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  4. En AI Center, al crear un nuevo paquete ML, en la parte inferior de la pantalla se encuentra la sección de configuración opcional de OCR, donde se puede definir el tipo de motor OCR en el servidor, la URL de OCR y la clave de OCR. La clave OCR es la clave API que se consigue en la sección de licencias de la cuenta de Automation Cloud. Se trata de la configuración de OCR que utilizará la actividad Extractor con aprendizaje automático, si se marca la casilla "UtilizarOCRDelServidor". Esta casilla está desactivada de forma predeterminada, y en ese caso el extractor utilizará el OCR en la actividad Digitalizar documento.

    Importante: El contenedor de UiPath Document OCR no puede ejecutarse en la misma máquina que el AI Center local.

Google Cloud OCR

El punto final puede obtenerse de la documentación de Google Cloud Platform. La clave API puede obtenerse en la consola de Google Cloud Platform si se dispone de un servicio de Google Cloud Vision en la suscripción.

Microsoft Read

Importante: Es aplicable para los puntos finales de los contenedores tanto locales como de Azure.

En el caso de los servicios de Azure, es necesario proporcionar tanto el punto final como la clave API.

En el caso de los puntos finales de contenedor local, no es necesaria la clave API.

Configurar el servicio de OCR en Data Manager y los paquetes ML de AI Center Document Understanding

En la siguiente tabla se muestra cómo configurar los seis tipos de motores OCR admitidos tanto en Data Manager como en AI Center.

Motor OCR

Método OCR

Clave OCR

URL del OCR

UiPath

UiPath Document OCR

UiPath Automation Cloud

Clave API de Document Understanding

Plan empresarial

http://<IP_addr>:<port_number>

Google

Google Cloud Vision OCR

Clave de API de la consola GCP

https://vision.googleapis.com/v1/images:annotate

Microsoft Read 2.0 On-Prem

Microsoft Read OCR

Ninguno

http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze

Microsoft Read 2.0 Azure

Microsoft Read OCR

Clave API para los recursos del Portal Azure

<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze

Microsoft Read 3.2 local

Microsoft Read OCR

Ninguno

http://<IP_addr>:<port_number>/vision/v3.2/read/analyze

Microsoft Read 3.2 Azure

Microsoft Read OCR

Clave API para los recursos del Portal Azure

<Azure_resource_Endpoint>/vision/v3.2/read/analyze

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.