Document Understanding
Plus récente (Latest)
False
Image de fond de la bannière
Guide de l'utilisateur de Document Understanding
Dernière mise à jour 30 avr. 2024

Déploiement de modèles hautement performants

À mesure que les modèles d’apprentissage automatique (ML) s’améliorent avec le temps, leurs besoins en ressources changent également. Pour de meilleures performances, il est important que lors du déploiement de modèles ML via AI Center™, les compétences soient correctement dimensionnées par rapport au trafic qu’elles doivent gérer. Dans la plupart des cas, l’infrastructure est dimensionnée par rapport au nombre de pages par unité de temps (minute ou heure). Un document peut comporter une ou plusieurs pages.

Introduction aux performances du modèle ML

Pour déployer une infrastructure via AI Center, il y a quelques aspects importants à garder à l’esprit pour des performances optimales.

GPU

Un seul type d’infrastructure GPU est disponible. Ceci est mis en évidence par la case à cocher pour activer le GPU. Chaque compétence s’exécute sur une seule machine virtuelle (MV) ou un seul nœud disposant d’un GPU. Dans ce cas, le processeur et la mémoire ne sont pas pertinents, car la compétence peut utiliser toutes les ressources de processeur et de mémoire disponibles sur ces nœuds. Outre le débit, le GPU est beaucoup plus rapide. Pour cette raison, si la latence est critique, il est recommandé d’utiliser le GPU.

Processeur

Le processeur et la mémoire peuvent être fractionnés, ce qui signifie que plusieurs compétences ML peuvent s’exécuter sur le même nœud. Pour éviter toute perturbation d’une compétence voisine, chaque compétence ML est limitée à la quantité de mémoire et de processeur qu’elle peut consommer, selon le niveau sélectionné. Un processeur plus élevé entraîne un traitement plus rapide (pour une page), tandis qu’une mémoire plus élevée entraîne un plus grand nombre de documents pouvant être traités.

Nombre de répliques

Le nombre de répliques détermine le nombre de conteneurs utilisés pour répondre aux requêtes du modèle ML. Un nombre plus élevé entraîne une plus grande quantité de documents pouvant être traités en parallèle, sous réserve des limites de ce niveau particulier. Le nombre de répliques est directement lié au type d’infrastructure (nombre de processeurs par réplique, ou si vous utilisez un GPU), au sens où les répliques et la taille de l’infrastructure peuvent affecter directement le débit (pages/minute).

Remarque : plusieurs répliques multiplieront le débit.

Nombre de robots

Le nombre de robots a un impact sur le débit. Pour obtenir un débit efficace, le nombre de robots doit être dimensionné de manière à ne pas surcharger les compétences ML. Cela dépend de l’automatisation elle-même et doit être testé. En règle générale, vous pouvez utiliser un à trois robots comme point de départ pour chaque réplique que possède la compétence ML. Selon le temps de processus global (hors extracteur ML), le nombre de robots (ou le nombre de répliques) peut être supérieur ou inférieur.

Problèmes potentiels liés au dimensionnement de l’infrastructure

Si l’infrastructure n’est pas dimensionnée correctement, les modèles peuvent être soumis à une charge très élevée. Dans certains cas, cela peut entraîner un retour de demandes, un long délai de traitement, voire des échecs lors du traitement des documents.

Mémoire insuffisante

Une mémoire insuffisante est le plus souvent rencontrée dans les niveaux de processeur inférieurs (0,5 processeur ou 1 processeur). Si vous devez traiter une très grande charge utile (un ou plusieurs documents volumineux), cela peut entraîner une exception de mémoire insuffisante. Cela est lié à la taille du document en termes de pages et de densité de texte (quantité de texte par page). Étant donné que les exigences sont très spécifiques à chaque cas d’utilisation, il n’est pas possible de fournir des nombres exacts. Vous pouvez consulter les directives de la section Dimensionner correctement l’infrastructure (Sizing the infrastructure correctement) pour des informations plus détaillées. Si vous rencontrez une situation de mémoire insuffisante, il est recommandé de passer au niveau suivant.

Calcul insuffisant

Un calcul insuffisant fait référence à la fois au processeur et au GPU, bien qu’il soit plus couramment rencontré sur le processeur. Lorsque la compétence ML reçoit trop de pages par rapport à son débit disponible, les requêtes peuvent expirer (codes de statut 520 et 499), être renvoyées, ou même provoquer le plantage du modèle (codes de statut 503 et 500). Si vous rencontrez une situation de calcul insuffisante, nous vous recommandons de passer au niveau suivant, voire au niveau GPU.

Dimensionner correctement l’infrastructure

Directives générales

Cette section fournit des directives générales sur les performances des modèles selon chaque taille de compétence.

Remarque : chaque génération de modèles (2022.10, 2023.4, ou 2023.10) se comporte différemment par rapport aux ressources requises et au débit. À mesure que les modèles s’améliorent en termes de précision, cela peut également avoir un impact sur les performances et nécessiter plus de ressources.
Table 1. Extracteur 2022.10
NiveauNombre maximum de pages/documentDébit prévu (pages/heure)AI Units/heure
0,5 processeur/2 Go de mémoire25300-6001
1 processeur/4 Go de mémoire50400-8002
2 processeurs/8 Go de mémoire100600-10004
4 processeurs/16 Go de mémoire100800-12008
6 processeurs/24 Go de mémoire100900-130012
GPU200-2501350-160020
Table 2. Extracteur 2023.4
NiveauNombre maximum de pages/documentDébit prévu (pages/heure)AI Units/heure
0,5 processeur/2 Go de mémoire2540-1001
1 processeur/4 Go de mémoire5070-1402
2 processeurs/8 Go de mémoire75120-2204
4 processeurs/16 Go de mémoire100200-3008
6 processeurs/24 Go de mémoire100250-40012
GPU200-2501400-220020
Table 3. Extracteurs 2023.7 et 2023.10
NiveauNombre maximum de pages/documentDébit prévu (pages/heure)AI Units/heure
0,5 processeur/2 Go de mémoire2560-2001
1 processeur/4 Go de mémoire50120-2402
2 processeurs/8 Go de mémoire75200-2804
4 processeurs/16 Go de mémoire100250-4008
6 processeurs/24 Go de mémoire100350-50012
GPU200-2501000-200020

Le débit attendu est exprimé pour chaque réplique, en page/heure, et un débit minimum et maximum attendu, en fonction du document lui-même. La compétence ML doit être dimensionnée pour le débit le plus élevé attendu (pic), et non pour le débit moyen sur une journée, une semaine ou un mois.

Remarque : lors du dimensionnement de l’infrastructure, assurez-vous de commencer par le document le plus volumineux que la compétence doit gérer et le débit attendu.

Exemples

Exemple 1

La compétence ML doit traiter les éléments suivants à l’aide d’un extracteur 2023.10 :
  • Documents contenant un maximum de cinq pages.
  • Un pic maximum de 300 pages par heure.

Étant donné que le débit est inférieur et que la taille du document est petite, un GPU n’est pas nécessaire dans cet exemple. Deux à quatre répliques du niveau 0,5 CPU ou 1 CPU sont suffisantes.

Exemple 2

La compétence ML doit traiter les éléments suivants à l’aide d’un extracteur 2023.4 :
  • Documents contenant 80 pages maximum.
  • Un pic maximum de 900 pages par heure.

Pour cet exemple, trois répliques du niveau 4 du processeur ou un seul niveau du GPU sont suffisants.

Remarque : une réplique unique n’a pas une haute disponibilité, il est donc toujours recommandé d’utiliser au moins deux répliques pour les workflows de production critiques.

Exemple 3

La compétence ML doit traiter les éléments suivants à l’aide d’un extracteur 2023.10 :
  • Documents contenant 50 pages maximum.
  • Un pic maximum de 3 000 pages par heure.
Il y a deux façons de répondre à cette exigence :
  • Utiliser 3 répliques de GPU.
  • Utilisez 12 à 15 répliques du niveau 4 ou 6 processeurs.

Les deux options ont une haute disponibilité car il y a plus de deux répliques pour la compétence ML.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Logo Uipath blanc
Confiance et sécurité
© 2005-2024 UiPath. All rights reserved.