- Primeros pasos
- Componentes de marco
- Document Understanding en AI Center
- Procesos
- Paquetes ML
- Gestor de datos
- Servicios de OCR
- Servicios de OCR
- Licencia
- Referencias
Guía del usuario de Document Understanding
Servicios de OCR
Los servicios de OCR se utilizan para lo siguiente:
- En el momento de etiquetar los datos, al importar los documentos en Data Manager. Los servicios disponibles para este paso son UiPath Document OCR (gratuito en Cloud u On-premises), Google Cloud OCR (solo Cloud), Microsoft Read OCR (Cloud u On-Premises) y Omnipage (solo On-Premises).
- Durante el tiempo de ejecución a la hora de ejecutar los modelos desde los flujos de trabajo RPA. Los servicios disponibles para este paso consisten en todos los motores OCR integrados con la Plataforma de RPA de UiPath, incluyendo lo anterior, además de Abbyy Finereader, Microsoft OCR (heredado), Microsoft Project Oxford OCR y Tesseract.
En producción, recomendamos llamar al OCR mediante la actividad Digitalizar documento en el flujo de trabajo y pasar el modelo de objetos del documento como entrada a la actividad que llama al modelo ML. Para ello, debes utilizar la actividad Extractor con aprendizaje automático (fuente oficial).
Para facilitar las pruebas, también se puede configurar el OCR directamente en AI Center (ventana de Configuración), aunque no se recomienda para las implementaciones de producción.
UiPath Document OCR tiene 3 opciones de implementación disponibles:
- En el robot que utiliza un paquete de actividades LocalServer y el paquete UiPath.OCR.Activities versión 3.1.0 vista previa o posterior: no requiere acceso a Internet ni hardware adicional, aunque la máquina del robot necesita una CPU compatible con AVX2.
- Esta debe ser tu opción predeterminada. Para volúmenes mayores, se pueden añadir más robots.
- Contenedor Docker independiente que se ejecuta en una máquina Linux GPU (véase más abajo: recomendado para volúmenes superiores a 1 millón de páginas/año): se requiere acceso a Internet para la concesión de licencias/medición.
- Esta debe ser la opción predeterminada para grandes volúmenes de más de 2 o 3 millones de páginas al año.
- Contenedor Docker independiente que se ejecuta en una máquina con CPU Linux (véase más abajo): se requiere acceso a Internet para la concesión de licencias/medición.
- Solo para situaciones poco frecuentes en las que las máquinas Robot funcionen con CPU sin compatibilidad con AVX2 o en las que no se pueda obtener una GPU.
- Para una Habilidad ML en AI Center (consulta la sección Paquetes ML) se recomienda encarecidamente una GPU: no se requiere acceso a Internet si la instalación de AI Center está aislada.
En esta sección se detallan los requisitos de hardware y software para instalar motores OCR.
-
Máquinas implicadas: máquina virtual en la nube o equipo local o portátil
-
Sistemas operativos: Windows (Windows 10) o Linux (Ubuntu/CentOS/RedHat)
-
Motores de cálculo: CPU o GPU
-
OCR: UiPath Document OCR CPU o UiPath Document OCR GPU u OmniPage OCR CPU
|
Núcleos de la CPU |
RAM (GB) |
RAM de vídeo (GB) | HDD (GB) |
---|---|---|---|---|
CPU UiPath |
8 |
8 |
50 | |
GPU UiPath |
1 |
4 |
8 |
50 |
CPU OmniPage |
1 |
2 |
30 |
Los requisitos de software para los motores OCR son los mismos que para Data Manager.
<IP>:<port_number>
. El motor OCR puede ser UiPath Document OCR local, Omnipage OCR local, Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read local.
<IP>:<port_number>
OCR. Las mismas opciones de OCR que antes, excepto Omnipage, que está disponible en los UiPath Robots directamente como pack de actividades.
Los motores OCR deben acceder al servidor de licencias alojado por UiPath en Azure, en el puerto 443.
Si solo deseas servir modelos previamente entrenados listos para usar, puedes ejecutar un motor OCR en el ordenador portátil con Windows 10. Asegúrate de que Docker Desktop dispone de 8 G de RAM.
Si deseas probar el entrenamiento de un modelo personalizado como demostración en un pequeño volumen de datos (menos de 100 documentos), puedes ejecutar el motor OCR en un entorno con un límite de 4 GB de RAM. Para casos pequeños como este, puede no ser necesaria una GPU para el motor OCR.
Los motores OCR son aplicaciones en contenedores que se ejecutan en Docker. No se pueden ejecutar en la misma máquina que AI Center local. Para ejecutarlos en una máquina independiente, se pueden utilizar los comandos del instalador de requisitos previos que se indican a continuación para configurar Docker y, opcionalmente, los controladores NVidia. Estos scripts no deben ejecutarse en la máquina donde se instalará AI Center.
Los requisitos previos para los motores OCR son los mismos que para Data Manager.
Linux
Ejecuta este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
En algunos sistemas puede ser necesario ejecutar el comando dos veces o reiniciar el sistema para instalar todos los requisitos.
Específico de Azure: para utilizar las máquinas virtuales de la serie NV, debes instalar el controlador de NVIDIA antes de ejecutar el comando anterior, o bien puedes utilizar una Extensión de controlador de Azure para instalar el controlador NVIDIA necesario correspondiente al modelo de GPU de ese nivel.
Máquinas virtuales con Azure
Si la instalación se realiza en una máquina virtual con Azure, utiliza este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
UiPath Document OCR es una tecnología OCR propia de UiPath, que admite los caracteres utilizados por los siguientes idiomas de escritura latina: inglés, francés, alemán, italiano, portugués, rumano y español. El texto en otros idiomas se reconocerá, pero sin acentos. Por ejemplo, "Ł" en polaco se reconocerá como "L". Las páginas procesadas con UiPath Document OCR no cuentan para la cuota de páginas adquirida junto con la licencia Enterprise de Document Understanding, por lo que el uso de UiPath Document OCR es gratuito.
UiPath Document OCR está disponible tanto en local como en un contenedor docker y en la nube como una API de servicio en la nube con la URL: https://du.uipath.com/ocr. Consulta la descripción completa de las URL disponibles en la página Puntos finales públicos.
El contenedor docker Omnipage está diseñado para utilizarse únicamente con Data Manager, con objeto de importar documentos en idiomas que UiPath Document OCR aún no admite.
Ejecuta estos comandos:
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
El punto final puede obtenerse de la documentación de Google Cloud Platform. La clave API puede obtenerse en la consola de Google Cloud Platform si se dispone de un servicio de Google Cloud Vision en la suscripción.
En el caso de los servicios de Azure, es necesario proporcionar tanto el punto final como la clave API.
En el caso de los puntos finales de contenedor local, no es necesaria la clave API.
En la siguiente tabla se muestra cómo configurar los seis tipos de motores OCR admitidos tanto en Data Manager como en AI Center.
ocr.method
corresponde al menú desplegable del motor OCR en la vista de creación del paquete ML en AI Center.
Motor OCR |
ocr.method |
ocr.key |
ocr.url |
---|---|---|---|
UiPath |
UiPath |
UiPath Automation Cloud Clave API de Document Understanding Plan empresarial |
|
OmniPage |
omnipage |
UiPath Automation Cloud Clave API de Document Understanding Plan empresarial |
|
|
|
Clave de API de la consola GCP |
|
Microsoft Read 2.0 On-Prem |
Microsoft |
Ninguno |
|
Microsoft Read 2.0 Azure |
Microsoft |
Clave API para los recursos del Portal Azure |
|
Microsoft Read 3.1 local |
Microsoft |
Ninguno |
|
Microsoft Read 3.1 Azure |
Microsoft |
Clave API para los recursos del Portal Azure |
|
- Acerca de los servicios de OCR
- Opciones de implementación local
- Requisitos
- Requisitos de hardware
- Requisitos de software
- Configuración de la red
- Prueba mínima o configuración de prueba de concepto
- Requisitos previos
- (Opcional) Instalación de la máquina GPU
- Instalación
- UiPath Document OCR (Vista previa)
- OmniPage OCR
- Google Cloud OCR
- Microsoft Read
- Configurar el servicio de OCR en Data Manager y los paquetes ML de AI Center Document Understanding