Document Understanding
Más reciente
False
Imagen de fondo del banner
Guía del usuario de Document Understanding
Última actualización 30 de abr. de 2024

Implantación de modelos de alto rendimiento

A medida que los modelos de aprendizaje automático (ML) mejoran en precisión a lo largo del tiempo, sus requisitos de recursos también cambian. Para obtener el mejor rendimiento, es importante que al implementar modelos ML a través de AI Center™, las habilidades tengan el tamaño adecuado con respecto al tráfico que deben gestionar. En su mayor parte, la infraestructura se dimensiona con respecto al número de páginas por unidad de tiempo (minuto u hora). Un documento puede tener una sola página o varias.

Introducción al rendimiento del modelo de ML

Para implementar infraestructura a través de AI Center, hay algunos aspectos importantes que se deben tener en cuenta para obtener un rendimiento óptimo.

GPU

Solo hay un tipo de infraestructura de GPU disponible. Esto lo resalta la casilla de verificación para habilitar GPU. Cada habilidad se ejecuta en una sola máquina virtual (VM) o nodo que tiene una GPU. En este caso, la CPU y la memoria no son relevantes, ya que la habilidad puede utilizar todos los recursos de CPU y memoria disponibles en esos nodos. Además del rendimiento, la GPU es mucho más rápida. Debido a esto, si la latencia es crítica, se recomienda utilizar GPU.

CPU

La CPU y la memoria pueden estar fraccionadas, lo que significa que varias habilidades ML pueden ejecutarse en el mismo nodo. Para evitar cualquier perturbación de una habilidad vecina, cada habilidad ML se limita a la cantidad de memoria y CPU que puede consumir, dependiendo del nivel seleccionado. Mayor CPU conduce a un procesamiento más rápido (para una página), mientras que mayor memoria conduce a un mayor número de documentos que se pueden procesar.

Número de réplicas

El número de réplicas determina el número de contenedores que se utilizan para servir solicitudes del modelo ML. Un número más alto conduce a una mayor cantidad de documentos que pueden procesarse en paralelo, sujetos a los límites de ese nivel en particular. El número de réplicas está directamente vinculado al tipo de infraestructura (número de CPU por réplica o si se utiliza una GPU), en el sentido de que tanto las réplicas como el tamaño de la infraestructura pueden afectar directamente el rendimiento (páginas/minuto).

Nota: varias réplicas multiplican el rendimiento.

Número De Robots

El número de robots afecta al rendimiento. Para obtener un rendimiento eficiente, el número de robots debe dimensionarse de tal manera que no sobrecargue las habilidades ML. Esto depende de la propia automatización y debeComo pauta general, puedes utilizar de uno a tres robots como punto de partida para cada réplica que tenga la habilidad ML. Dependiendo del tiempo total del proceso (excluyendo el Extractor ML), el número de robots puede ser mayor o menor (o el número de réplicas).

Problemas potenciales relacionados con el tamaño de la infraestructura

Si la infraestructura no se dimensiona correctamente, los modelos pueden colocarse bajo una carga muy alta. En algunos casos, esto puede provocar una acumulación de solicitudes, un largo tiempo de procesamiento o incluso fallos al procesar documentos.

Memoria insuficiente

La memoria insuficiente se produce con más frecuencia en los niveles de CPU inferiores (0,5 CPU o 1 CPU). Si necesitas procesar una carga útil muy grande (uno o varios documentos grandes) se puede producir una excepción de falta de memoria. Esto está relacionado con el tamaño del documento en términos de páginas y de densidad de texto (cuánto texto hay por página). Dado que los requisitos son muy específicos para cada caso de uso, no es posible proporcionar números exactos. Puedes comprobar las directrices en la sección Dimensionar la infraestructura correctamente para obtener información más detallada. Si te encuentras con una situación de memoria insuficiente, la recomendación general es ir al siguiente nivel.

Cálculo insuficiente

El cálculo insuficiente se refiere tanto a la CPU como a la GPU, aunque se encuentra más comúnmente en la CPU. Cuando la habilidad ML recibe demasiadas páginas relacionadas con su capacidad disponible, las solicitudes pueden superar el tiempo de espera (códigos de estado 520 y 499), producir acumulación de pedidos o incluso provocar que el modelo se bloquee (códigos de estado 503 y 500). Si te encuentras con una situación de cálculo insuficiente, recomendamos ir al siguiente nivel, o incluso al nivel de la GPU.

Dimensionar la infraestructura correctamente

Directrices generales

Esta sección ofrece directrices generales sobre cómo se comportan los modelos en cada tamaño de habilidad diferente.

Nota: cada generación de modelo (2022.10, 2023.4, o 2023.10) se comporta de forma diferente en relación con los recursos necesarios y el rendimiento. A medida que los modelos mejoran en términos de precisión, esto también puede afectar al rendimiento y exigir más recursos.
Tabla 1. Extractor 2022.10
NivelPáginas/documento máximasRendimiento esperado (páginas/hora)Unidades de IA/hora
0,5 CPU/2 GB de memoria25300-6001
1 CPU/4 GB de memoria50400-8002
2 CPU/8 GB de memoria100600-10004
4 CPU/16 GB de memoria100800-12008
6 CPU/24 GB de memoria100900-130012
GPU200-2501350-160020
Tabla 2. 2023.4 Extractor
NivelPáginas/documento máximasRendimiento esperado (páginas/hora)Unidades de IA/hora
0,5 CPU/2 GB de memoria2540-1001
1 CPU/4 GB de memoria5070-1402
2 CPU/8 GB de memoria75120-2204
4 CPU/16 GB de memoria100200-3008
6 CPU/24 GB de memoria100250-40012
GPU200-2501400-220020
Tabla 3. Extractores 2023.7 y 2023.10
NivelPáginas/documento máximasRendimiento esperado (páginas/hora)Unidades de IA/hora
0,5 CPU/2 GB de memoria2560-2001
1 CPU/4 GB de memoria50120-2402
2 CPU/8 GB de memoria75200-2804
4 CPU/16 GB de memoria100250-4008
6 CPU/24 GB de memoria100350-50012
GPU200-2501000-200020

El rendimiento esperado se expresa para cada réplica, en página/hora y un rendimiento esperado mínimo y máximo, dependiendo del propio documento. La habilidad ML debe dimensionarse para el rendimiento más alto esperado (pico) y no el rendimiento medio en un día, semana o mes.

Nota: al dimensionar la infraestructura, asegúrate de comenzar desde el documento más grande que la habilidad necesita para gestionar y el rendimiento esperado.

Ejemplos

Ejemplo 1

La habilidad ML debe procesar lo siguiente utilizando un extractor 2023.10:
  • Documentos que contienen un máximo de cinco páginas.
  • Un pico máximo de 300 páginas por hora.

Dado que el rendimiento está en la parte inferior y el tamaño del documento es pequeño, no se necesita una GPU en este ejemplo. De dos a cuatro réplicas del nivel 0,5 de CPU o 1 de CPU son suficientes.

Ejemplo 2

La habilidad ML debe procesar lo siguiente utilizando un extractor 2023.4:
  • Documentos que contienen un máximo de 80 páginas.
  • Un pico máximo de 900 páginas por hora.

Para este ejemplo, son suficientes tres réplicas del nivel de 4 CPU o un solo nivel de GPU.

Nota: una sola réplica no tiene alta disponibilidad, por lo que siempre se recomienda utilizar al menos dos réplicas para flujos de trabajo de producción críticos.

Ejemplo 3

La habilidad ML debe procesar lo siguiente utilizando un extractor 2023.10:
  • Documentos que contienen un máximo de 50 páginas.
  • Un pico máximo de 3000 páginas por hora.
Hay dos formas de cumplir con estos requisitos:
  • Usar 3 réplicas de GPU.
  • Usar 12-15 réplicas del nivel de 4 CPU o 6 CPU.

Ambas opciones tienen alta disponibilidad porque hay más de dos réplicas para la habilidad ML.

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.