- Primeros pasos
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Clasificador de CapturaFlexible
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Paquetes ML
- Procesos
- Gestor de datos
- Servicios de OCR
- Servicios de OCR
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Aprendizaje profundo
- Licencia
- Referencias
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guía del usuario de Document Understanding
Servicios de OCR
Los servicios de OCR se utilizan para lo siguiente:
- En el momento de etiquetar los datos, al importar los documentos en Data Manager. Los motores disponibles para este paso son UiPath Document OCR, Google Cloud Vision OCR y Microsoft Read OCR.
- Durante el tiempo de ejecución a la hora de ejecutar los modelos desde los flujos de trabajo RPA. Los motores disponibles para este paso son todos los motores integrados en la plataforma UiPath RPA, incluidos los anteriores, además de Abbyy Finereader, Microsoft OCR (heredado), Microsoft Project Oxford OCR y Tesseract.
En producción, recomendamos llamar al OCR mediante la actividad Digitalizar documento en el flujo de trabajo y pasar el modelo de objetos del documento como entrada a la actividad que llama al modelo ML. Para ello, debes utilizar la actividad Extractor con aprendizaje automático (fuente oficial).
Para facilitar las pruebas, también se puede configurar el OCR directamente en AI Center (ventana de Configuración), aunque no se recomienda para las implementaciones de producción.
En esta sección se detallan los requisitos de hardware y software para instalar motores OCR.
-
Máquinas implicadas: máquina virtual en la nube/local/portátil
-
Sistemas operativos: Windows (Windows 10)/Linux (Ubuntu/RedHat)
-
Motores de cálculo: CPU/GPU
-
OCR: UiPath Document OCR CPU/UiPath Document OCR GPU
|
Núcleos de la CPU |
RAM (GB) |
RAM de vídeo (GB) | HDD (GB) |
---|---|---|---|---|
CPU UiPath |
4 |
4 |
50 | |
GPU UiPath |
1 |
4 |
8 |
50 |
Sistema operativo Linux
Si instalas el producto en una máquina virtual en la nube, se admiten los siguientes sistemas operativos:
Software |
Versiones |
---|---|
Ubuntu |
20.04 LTS 18.04 LTS 16.04 LTS |
RHEL |
7.x |
Si instalas el producto en una máquina en un centro de datos local, se admiten los siguientes sistemas operativos:
Software |
Versiones |
---|---|
Ubuntu |
20.04 LTS 18.04 LTS 16.04 LTS |
RHEL |
7.x |
Sistema operativo Windows
Consulta el sitio web oficial de Docker para ver la lista de sistemas operativos Windows compatibles.
En Windows, tu máquina requiere que se habilite la virtualización. Se recomienda encarecidamente hacer esto solo en máquinas físicas como portátiles o estaciones de trabajo de escritorio. No se admite la ejecución de Docker en Windows en máquinas virtuales (nube o centro de datos) utilizando la virtualización anidada.
Navegadores
Software |
Versiones |
---|---|
Google Chrome |
50+ |
-
Data Manager necesita acceder al motor OCR
<IP>:<port_number>
. El motor OCR puede ser UiPath Document OCR local, Google Cloud Vision OCR, Microsoft Read Azure o Microsoft Read local. -
Los robots necesitan acceso al
<IP>:<port_number>
OCR. Con las mismas opciones OCR que se han indicado anteriormente. -
Los motores OCR deben acceder al servidor de licencias alojado por UiPath en Azure, en el puerto 443.
Si solo deseas servir modelos previamente entrenados listos para usar, puedes ejecutar un motor OCR en el ordenador portátil con Windows 10. Asegúrate de que Docker Desktop dispone de 8 G de RAM.
Si deseas probar el entrenamiento de un modelo personalizado como demostración en un pequeño volumen de datos (menos de 100 documentos), puedes ejecutar el motor OCR en un entorno con un límite de 4 GB de RAM. Para casos pequeños como este, puede no ser necesaria una GPU para el motor OCR.
Los motores OCR son aplicaciones en contenedores que se ejecutan en Docker. No se pueden ejecutar en la misma máquina que AI Center local. Para ejecutarlos en una máquina independiente, se pueden utilizar los comandos del instalador de requisitos previos que se indican a continuación para configurar Docker y, opcionalmente, los controladores NVidia. Estos scripts no deben ejecutarse en la máquina donde se instalará AI Center.
/
en la columna de la derecha:
df -h
df -h
Si el tamaño de esa partición es inferior a los requisitos mínimos de almacenamiento, consulta la sección Configurar la carpeta de datos de Docker.
Linux
Sigue las instrucciones de la documentación oficial de Docker o ejecuta este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu
Si este comando falla, entonces tienes un sistema operativo Linux no compatible y debes solicitar a tu departamento de TI que instale Docker en la máquina siguiendo las instrucciones de la documentación oficial de Docker.
Máquinas virtuales con Azure
Si la instalación se realiza en una máquina virtual con Azure, utiliza este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure
Windows 10
Descarga e instala Docker Desktop. En las versiones recientemente actualizadas de Windows 10, necesitarás tener instalado WSL2. Por lo tanto, cuando aparezca un cuadro de diálogo que indique "La instalación de WSL 2 está incompleta", haz clic en el botón Reiniciar.
workdir
por Data Manager) e incluir su ruta en el comando de ejecución de docker, tras el indicador -v
. Al hacerlo en Windows, Docker Desktop mostrará una notificación similar a la siguiente. Es necesario hacer clic en Compartir para continuar.
Introduce la ruta de la carpeta donde desea que Docker guarde sus archivos, ejecuta este comando y reinicia:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>
Docker permite enviar software en imágenes de Docker. Una instancia en ejecución de una imagen se denomina contenedor. Un contenedor puede detenerse, eliminarse y volver a iniciarse tantas veces como sea necesario, siempre que la imagen esté disponible.
Una vez que se elimina la imagen, esta se pierde. La única forma de recuperarla es sacarla de nuevo del registro del que procede, si todavía está disponible ahí.
–v
y –p
respectivamente.
En la siguiente tabla puedes encontrar una lista de comandos comunes para la línea de comandos de Docker.
Haz clic aquí para ver la lista completa de comandos básicos de Docker.
Comando |
Descripción |
---|---|
|
Permite acceder a un registro. |
|
Permite descargar una imagen de un registro. La etiqueta más reciente se utiliza habitualmente para referirse a la última versión de una imagen. |
O
|
Ejecuta una imagen en modo independiente, mientras asignas el puerto 80 desde dentro del contenedor al puerto 5000 en la máquina host, y <container folder> a <host folder>. Modo independiente significa que el contenedor no bloquea el terminal, para que puedas realizar otras operaciones en el mismo terminal. |
|
Muestra una lista de las imágenes que hay en el sistema. |
|
Muestra una lista de todos los contenedores (tanto los que se están ejecutando como los que están detenidos). El ID del contenedor se utiliza para referirse a ese contenedor cuando hace falta, por ejemplo, detenerlo o eliminarlo. |
|
Detiene el contenedor Este comando no elimina el contenedor, pero es necesario hacerlo antes de eliminarlo. |
"
docker rm <container id> "
|
Elimina el contenedor El contenedor debe detenerse de antemano. |
|
Muestra los registros del contenedor. |
|
Elimina una o más imágenes del sistema. Esto contribuye a ahorrar espacio de almacenamiento, ya que las imágenes pueden ocupar mucho espacio. |
|
Elimina todos los contenedores detenidos |
Comando |
Descripción |
---|---|
|
Ejecuta un comando como administrador. Prueba esto cada vez que aparezca el error Permiso denegado. |
|
Muestra información sobre las interfaces de red del sistema. Localiza la IP de tu máquina en las secciones eth0 o docker0. |
|
Muestra la ruta a la carpeta actual. |
|
Muestra una lista del contenido de un directorio. |
|
Permite ir a una carpeta distinta. |
|
Crea una carpeta nueva. |
Linux
Ejecuta este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
En algunos sistemas puede ser necesario ejecutar el comando dos veces o reiniciar el sistema para instalar todos los requisitos.
Específico para Azure: para utilizar las máquinas virtuales de la serie NV es necesario instalar el controlador de NVIDIA antes de ejecutar el comando anterior, o bien puedes utilizar una Extensión del controlador de Azure para instalar el controlador NVIDIA necesario según el modelo de GPU de ese nivel.
Máquinas virtuales con Azure
Si la instalación se realiza en una máquina virtual con Azure, utiliza este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
UiPath Document OCR es una tecnología OCR propia de UiPath, que admite los caracteres utilizados por los siguientes idiomas de escritura latina: inglés, francés, alemán, italiano, portugués, rumano y español. El texto en otros idiomas se reconocerá, pero sin acentos. Por ejemplo, "Ł" en polaco se reconocerá como "L". Las páginas procesadas con UiPath Document OCR no cuentan para la cuota de páginas adquirida junto con la licencia Enterprise de Document Understanding, por lo que el uso de UiPath Document OCR es gratuito.
UiPath Document OCR está disponible con los siguientes tipos de implementación:
- URL públicas en la nube: más información en la página de los Puntos finales públicos
- en las instalaciones (incluido el modo aislado) usando el paquete de actividades UiPath.DocumentUnderstanding.OCR.LocalServer (no necesita acceso a Internet)
- De manera local, con un contenedor de Docker normal e independiente (requiere acceso a Internet).
- Contenedor de Docker independiente local aislado (no requiere acceso a Internet).
- De manera local, como habilidad ML en la implementación regular de AI Center (requiere acceso a Internet).
- De manera local, como habilidad ML en la implementación aislada de AI Center (no requiere acceso a Internet).
-
Para instalar el contenedor de Docker independiente de UiPath Document OCR, ejecuta estos comandos:
docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest
docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest -
Ejecuta mediante CPU
docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept -
Ejecuta mediante GPU
docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept -
En AI Center, al crear un nuevo paquete ML, en la parte inferior de la pantalla se encuentra la sección de configuración opcional de OCR, donde se puede definir el tipo de motor OCR en el servidor, la URL de OCR y la clave de OCR. La clave OCR es la clave API que se consigue en la sección de licencias de la cuenta de Automation Cloud. Se trata de la configuración de OCR que utilizará la actividad Extractor con aprendizaje automático, si se marca la casilla "UtilizarOCRDelServidor". Esta casilla está desactivada de forma predeterminada, y en ese caso el extractor utilizará el OCR en la actividad Digitalizar documento.
Importante: El contenedor de UiPath Document OCR no puede ejecutarse en la misma máquina que el AI Center local.
El punto final puede obtenerse de la documentación de Google Cloud Platform. La clave API puede obtenerse en la consola de Google Cloud Platform si se dispone de un servicio de Google Cloud Vision en la suscripción.
En el caso de los servicios de Azure, es necesario proporcionar tanto el punto final como la clave API.
En el caso de los puntos finales de contenedor local, no es necesaria la clave API.
En la siguiente tabla se muestra cómo configurar los seis tipos de motores OCR admitidos tanto en Data Manager como en AI Center.
Motor OCR |
Método OCR |
Clave OCR |
URL del OCR |
---|---|---|---|
UiPath |
UiPath Document OCR |
UiPath Automation Cloud Clave API de Document Understanding Plan empresarial |
|
|
Google Cloud Vision OCR |
Clave de API de la consola GCP |
|
Microsoft Read 2.0 On-Prem |
Microsoft Read OCR |
Ninguno |
|
Microsoft Read 2.0 Azure |
Microsoft Read OCR |
Clave API para los recursos del Portal Azure |
|
Microsoft Read 3.2 local |
Microsoft Read OCR |
Ninguno |
|
Microsoft Read 3.2 Azure |
Microsoft Read OCR |
Clave API para los recursos del Portal Azure |
|
- Acerca de los servicios de OCR
- Requisitos
- Requisitos de hardware
- Requisitos de software
- Configuración de la red
- Prueba mínima o configuración de prueba de concepto
- Requisitos previos
- Instalar Docker
- Configurar la carpeta de datos de Docker (solo en Linux)
- Hoja de referencia de Docker Cheat
- Hoja de referencia del terminal Linux
- (Opcional) Instalación de la máquina GPU
- Instalación
- UiPath Document OCR
- Google Cloud OCR
- Microsoft Read
- Configurar el servicio de OCR en Data Manager y los paquetes ML de AI Center Document Understanding