Document Understanding
2020.10
False
Imagen de fondo del banner
Obsoleto
Guía del usuario de Document Understanding
Última actualización 28 de feb. de 2024

Servicios de OCR

Acerca de los servicios de OCR

Los servicios de OCR se utilizan para lo siguiente:

  • En el momento de etiquetar los datos, al importar los documentos en Data Manager. Los servicios disponibles para este paso son UiPath Document OCR (gratuito en Cloud u On-premises), Google Cloud OCR (solo Cloud), Microsoft Read OCR (Cloud u On-Premises) y Omnipage (solo On-Premises).
  • Durante el tiempo de ejecución a la hora de ejecutar los modelos desde los flujos de trabajo RPA. Los servicios disponibles para este paso consisten en todos los motores OCR integrados con la Plataforma de RPA de UiPath, incluyendo lo anterior, además de Abbyy Finereader, Microsoft OCR (heredado), Microsoft Project Oxford OCR y Tesseract.

En producción, recomendamos llamar al OCR mediante la actividad Digitalizar documento en el flujo de trabajo y pasar el modelo de objetos del documento como entrada a la actividad que llama al modelo ML. Para ello, debes utilizar la actividad Extractor con aprendizaje automático (fuente oficial).

Para facilitar las pruebas, también se puede configurar el OCR directamente en AI Center (ventana de Configuración), aunque no se recomienda para las implementaciones de producción.

Opciones de implementación local

UiPath Document OCR tiene 3 opciones de implementación disponibles:

  • En el robot que utiliza un paquete de actividades LocalServer y el paquete UiPath.OCR.Activities versión 3.1.0 vista previa o posterior: no requiere acceso a Internet ni hardware adicional, aunque la máquina del robot necesita una CPU compatible con AVX2.
    • Esta debe ser tu opción predeterminada. Para volúmenes mayores, se pueden añadir más robots.
  • Contenedor Docker independiente que se ejecuta en una máquina Linux GPU (véase más abajo: recomendado para volúmenes superiores a 1 millón de páginas/año): se requiere acceso a Internet para la concesión de licencias/medición.
    • Esta debe ser la opción predeterminada para grandes volúmenes de más de 2 o 3 millones de páginas al año.
  • Contenedor Docker independiente que se ejecuta en una máquina con CPU Linux (véase más abajo): se requiere acceso a Internet para la concesión de licencias/medición.
    • Solo para situaciones poco frecuentes en las que las máquinas Robot funcionen con CPU sin compatibilidad con AVX2 o en las que no se pueda obtener una GPU.
  • Para una Habilidad ML en AI Center (consulta la sección Paquetes ML) se recomienda encarecidamente una GPU: no se requiere acceso a Internet si la instalación de AI Center está aislada.

Requisitos

En esta sección se detallan los requisitos de hardware y software para instalar motores OCR.

Requisitos de hardware

  • Máquinas implicadas: máquina virtual en la nube o equipo local o portátil

  • Sistemas operativos: Windows (Windows 10) o Linux (Ubuntu/CentOS/RedHat)

  • Motores de cálculo: CPU o GPU

  • OCR: UiPath Document OCR CPU o UiPath Document OCR GPU u OmniPage OCR CPU

Núcleos de la CPU

RAM (GB)

RAM de vídeo (GB)

HDD (GB)

CPU UiPath

8

8

 

50

GPU UiPath

1

4

8

50

CPU OmniPage

1

2

 

30

Requisitos de software

Los requisitos de software para los motores OCR son los mismos que para Data Manager.

Configuración de la red

Data Manager necesita acceder al motor OCR <IP>:<port_number>. El motor OCR puede ser UiPath Document OCR local, Omnipage OCR local, Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read local.
Los robots necesitan acceso al <IP>:<port_number> OCR. Las mismas opciones de OCR que antes, excepto Omnipage, que está disponible en los UiPath Robots directamente como pack de actividades.

Los motores OCR deben acceder al servidor de licencias alojado por UiPath en Azure, en el puerto 443.

Prueba mínima o configuración de prueba de concepto

Si solo deseas servir modelos previamente entrenados listos para usar, puedes ejecutar un motor OCR en el ordenador portátil con Windows 10. Asegúrate de que Docker Desktop dispone de 8 G de RAM.

Si deseas probar el entrenamiento de un modelo personalizado como demostración en un pequeño volumen de datos (menos de 100 documentos), puedes ejecutar el motor OCR en un entorno con un límite de 4 GB de RAM. Para casos pequeños como este, puede no ser necesaria una GPU para el motor OCR.

Requisitos previos

Los motores OCR son aplicaciones en contenedores que se ejecutan en Docker. No se pueden ejecutar en la misma máquina que AI Center local. Para ejecutarlos en una máquina independiente, se pueden utilizar los comandos del instalador de requisitos previos que se indican a continuación para configurar Docker y, opcionalmente, los controladores NVidia. Estos scripts no deben ejecutarse en la máquina donde se instalará AI Center.

Los requisitos previos para los motores OCR son los mismos que para Data Manager.

(Opcional) Instalación de la máquina GPU

Linux

Ejecuta este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

En algunos sistemas puede ser necesario ejecutar el comando dos veces o reiniciar el sistema para instalar todos los requisitos.

Específico de Azure: para utilizar las máquinas virtuales de la serie NV, debes instalar el controlador de NVIDIA antes de ejecutar el comando anterior, o bien puedes utilizar una Extensión de controlador de Azure para instalar el controlador NVIDIA necesario correspondiente al modelo de GPU de ese nivel.

Máquinas virtuales con Azure

Si la instalación se realiza en una máquina virtual con Azure, utiliza este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Instalación

UiPath Document OCR (Vista previa)

UiPath Document OCR es una tecnología OCR propia de UiPath, que admite los caracteres utilizados por los siguientes idiomas de escritura latina: inglés, francés, alemán, italiano, portugués, rumano y español. El texto en otros idiomas se reconocerá, pero sin acentos. Por ejemplo, "Ł" en polaco se reconocerá como "L". Las páginas procesadas con UiPath Document OCR no cuentan para la cuota de páginas adquirida junto con la licencia Enterprise de Document Understanding, por lo que el uso de UiPath Document OCR es gratuito.

UiPath Document OCR está disponible tanto en local como en un contenedor docker y en la nube como una API de servicio en la nube con la URL: https://du.uipath.com/ocr. Consulta la descripción completa de las URL disponibles en la página Puntos finales públicos.

  1. Para instalar UiPath Document OCR, ejecuta estos comandos:
    docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest
  2. Ejecuta mediante CPU
    docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  3. Ejecuta mediante GPU
    docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  4. En AI Center, al crear un nuevo paquete ML, en la parte inferior de la pantalla se encuentra la sección de configuración del OCR, donde se puede definir el tipo de motor OCR, la URL del OCR y la clave del OCR. La clave del OCR es la clave API que se consigue en la sección de licencias de tu cuenta de Automation Cloud.
    Importante: El contenedor UiPath Document OCR y el contenedor Omnipage OCR no pueden ejecutarse en el mismo equipo que AI Center On-Premises.

OmniPage OCR

El contenedor docker Omnipage está diseñado para utilizarse únicamente con Data Manager, con objeto de importar documentos en idiomas que UiPath Document OCR aún no admite.

Ejecuta estos comandos:

docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=acceptdocker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept

Google Cloud OCR

El punto final puede obtenerse de la documentación de Google Cloud Platform. La clave API puede obtenerse en la consola de Google Cloud Platform si se dispone de un servicio de Google Cloud Vision en la suscripción.

Microsoft Read

Importante: Es aplicable para los puntos finales de los contenedores tanto locales como de Azure.

En el caso de los servicios de Azure, es necesario proporcionar tanto el punto final como la clave API.

En el caso de los puntos finales de contenedor local, no es necesaria la clave API.

Configurar el servicio de OCR en Data Manager y los paquetes ML de AI Center Document Understanding

En la siguiente tabla se muestra cómo configurar los seis tipos de motores OCR admitidos tanto en Data Manager como en AI Center.

Importante: El argumento ocr.method corresponde al menú desplegable del motor OCR en la vista de creación del paquete ML en AI Center.

Motor OCR

ocr.method

ocr.key

ocr.url

UiPath

UiPath

UiPath Automation Cloud

Clave API de Document Understanding

Plan empresarial

http://<IP_addr>:<port_number>

OmniPage

omnipage

UiPath Automation Cloud

Clave API de Document Understanding

Plan empresarial

http://<IP_addr>:<port_number>

Google

Google

Clave de API de la consola GCP

https://vision.googleapis.com/v1/images:annotate

Microsoft Read 2.0 On-Prem

Microsoft

Ninguno

http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze

Microsoft Read 2.0 Azure

Microsoft

Clave API para los recursos del Portal Azure

<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze

Microsoft Read 3.1 local

Microsoft

Ninguno

http://<IP_addr>:<port_number>/vision/v3.1/read/analyze

Microsoft Read 3.1 Azure

Microsoft

Clave API para los recursos del Portal Azure

<Azure_resource_Endpoint>/vision/v3.1/read/analyze

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.