- Información general
- Primeros pasos
- Actividades
- Paneles de Insights
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 4506T: paquete ML
- 990 - Paquete ML: vista previa
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación - Paquete ML
- Certificado de origen - Paquete ML
- Cheques: paquete ML
- Certificado de producto secundario - Paquete ML
- CMS 1500: paquete ML
- Declaración de conformidad UE - Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- Invoices Australia - ML package
- Invoices China - ML package
- Invoices India - ML package
- Invoices Japan - ML package
- Envío de facturas - Paquete ML
- Listas de embalaje: paquete ML
- Recibos de pago: paquete ML
- Pasaportes: paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Limitaciones de tráfico
- Configuración de OCR
- Procesos
- Servicios de OCR
- Aprendizaje profundo
- Entrenamiento de modelos de alto rendimiento
- Implantación de modelos de alto rendimiento
- Licencia
Implantación de modelos de alto rendimiento
A medida que los modelos de aprendizaje automático (ML) mejoran en precisión a lo largo del tiempo, sus requisitos de recursos también cambian. Para obtener el mejor rendimiento, es importante que al implementar modelos ML a través de AI Center™, las habilidades tengan el tamaño adecuado con respecto al tráfico que deben gestionar. En su mayor parte, la infraestructura se dimensiona con respecto al número de páginas por unidad de tiempo (minuto u hora). Un documento puede tener una sola página o varias.
Para implementar infraestructura a través de AI Center, hay algunos aspectos importantes que se deben tener en cuenta para obtener un rendimiento óptimo.
Solo hay un tipo de infraestructura de GPU disponible. Esto lo resalta la casilla de verificación para habilitar GPU. Cada habilidad se ejecuta en una sola máquina virtual (VM) o nodo que tiene una GPU. En este caso, la CPU y la memoria no son relevantes, ya que la habilidad puede utilizar todos los recursos de CPU y memoria disponibles en esos nodos. Además del rendimiento, la GPU es mucho más rápida. Debido a esto, si la latencia es crítica, se recomienda utilizar GPU.
La CPU y la memoria pueden estar fraccionadas, lo que significa que varias habilidades ML pueden ejecutarse en el mismo nodo. Para evitar cualquier perturbación de una habilidad vecina, cada habilidad ML se limita a la cantidad de memoria y CPU que puede consumir, dependiendo del nivel seleccionado. Mayor CPU conduce a un procesamiento más rápido (para una página), mientras que mayor memoria conduce a un mayor número de documentos que se pueden procesar.
El número de réplicas determina el número de contenedores que se utilizan para servir solicitudes del modelo ML. Un número más alto conduce a una mayor cantidad de documentos que pueden procesarse en paralelo, sujetos a los límites de ese nivel en particular. El número de réplicas está directamente vinculado al tipo de infraestructura (número de CPU por réplica o si se utiliza una GPU), en el sentido de que tanto las réplicas como el tamaño de la infraestructura pueden afectar directamente el rendimiento (páginas/minuto).
El número de robots afecta al rendimiento. Para obtener un rendimiento eficiente, el número de robots debe dimensionarse de tal manera que no sobrecargue las habilidades ML. Esto depende de la propia automatización y debeComo pauta general, puedes utilizar de uno a tres robots como punto de partida para cada réplica que tenga la habilidad ML. Dependiendo del tiempo total del proceso (excluyendo el Extractor ML), el número de robots puede ser mayor o menor (o el número de réplicas).
Si la infraestructura no se dimensiona correctamente, los modelos pueden colocarse bajo una carga muy alta. En algunos casos, esto puede provocar una acumulación de solicitudes, un largo tiempo de procesamiento o incluso fallos al procesar documentos.
La memoria insuficiente se produce con más frecuencia en los niveles de CPU inferiores (0,5 CPU o 1 CPU). Si necesitas procesar una carga útil muy grande (uno o varios documentos grandes) se puede producir una excepción de falta de memoria. Esto está relacionado con el tamaño del documento en términos de páginas y de densidad de texto (cuánto texto hay por página). Dado que los requisitos son muy específicos para cada caso de uso, no es posible proporcionar números exactos. Puedes comprobar las directrices en la sección Dimensionar la infraestructura correctamente para obtener información más detallada. Si te encuentras con una situación de memoria insuficiente, la recomendación general es ir al siguiente nivel.
520
y 499
), producir acumulación de pedidos o incluso provocar que el modelo se bloquee (códigos de estado 503
y 500
). Si te encuentras con una situación de cálculo insuficiente, recomendamos ir al siguiente nivel, o incluso al nivel de la GPU.
Esta sección ofrece directrices generales sobre cómo se comportan los modelos en cada tamaño de habilidad diferente.
Nivel | Páginas/documento máximas | Rendimiento esperado (páginas/hora) | Unidades de IA/hora |
---|---|---|---|
0,5 CPU/2 GB de memoria | 25 | 300-600 | 1 |
1 CPU/4 GB de memoria | 50 | 400-800 | 2 |
2 CPU/8 GB de memoria | 100 | 600-1000 | 4 |
4 CPU/16 GB de memoria | 100 | 800-1200 | 8 |
6 CPU/24 GB de memoria | 100 | 900-1300 | 12 |
GPU | 200-250 | 1350-1600 | 20 |
Nivel | Páginas/documento máximas | Rendimiento esperado (páginas/hora) | Unidades de IA/hora |
---|---|---|---|
0,5 CPU/2 GB de memoria | 25 | 40-100 | 1 |
1 CPU/4 GB de memoria | 50 | 70-140 | 2 |
2 CPU/8 GB de memoria | 75 | 120-220 | 4 |
4 CPU/16 GB de memoria | 100 | 200-300 | 8 |
6 CPU/24 GB de memoria | 100 | 250-400 | 12 |
GPU | 200-250 | 1400-2200 | 20 |
Nivel | Páginas/documento máximas | Rendimiento esperado (páginas/hora) | Unidades de IA/hora |
---|---|---|---|
0,5 CPU/2 GB de memoria | 25 | 60-200 | 1 |
1 CPU/4 GB de memoria | 50 | 120-240 | 2 |
2 CPU/8 GB de memoria | 75 | 200-280 | 4 |
4 CPU/16 GB de memoria | 100 | 250-400 | 8 |
6 CPU/24 GB de memoria | 100 | 350-500 | 12 |
GPU | 200-250 | 1000-2000 | 20 |
El rendimiento esperado se expresa para cada réplica, en página/hora y un rendimiento esperado mínimo y máximo, dependiendo del propio documento. La habilidad ML debe dimensionarse para el rendimiento más alto esperado (pico) y no el rendimiento medio en un día, semana o mes.
Ejemplo 1
- Documentos que contienen un máximo de cinco páginas.
- Un pico máximo de 300 páginas por hora.
Dado que el rendimiento está en la parte inferior y el tamaño del documento es pequeño, no se necesita una GPU en este ejemplo. De dos a cuatro réplicas del nivel 0,5 de CPU o 1 de CPU son suficientes.
Ejemplo 2
- Documentos que contienen un máximo de 80 páginas.
- Un pico máximo de 900 páginas por hora.
Para este ejemplo, son suficientes tres réplicas del nivel de 4 CPU o un solo nivel de GPU.
Ejemplo 3
- Documentos que contienen un máximo de 50 páginas.
- Un pico máximo de 3000 páginas por hora.
- Usar 3 réplicas de GPU.
- Usar 12-15 réplicas del nivel de 4 CPU o 6 CPU.
Ambas opciones tienen alta disponibilidad porque hay más de dos réplicas para la habilidad ML.