Considérations relatives à l'architecture de base

As with any multi-site deployment, the primary architecture considerations for Automation Suite account for infrastructure, latency, data source, management, Recovery Time Objective, Recovery Point Objective, etc.

Infrastructure

Nous vous recommandons d’utiliser le même matériel pour les deux clusters. Cependant, le cluster Automation Suite fonctionnera probablement avec des configurations matérielles similaires avec peu de différences. Un matériel hétérogène peut augmenter la complexité et ralentir le dépannage.

Latence

La latence est cruciale dans la conception d'un modèle Actif/Actif. Elle dénote du temps d'aller-retour (RTT) entre les deux clusters Automation Suite. Un niveau de latence minimum entre les deux sites est optimal car il réduit considérablement le risque de perte de données lors d'une panne. Le RTT doit être inférieur à un seuil de 10 ms.

Vous devez tester attentivement le RTT avant de passer au stade de production, en raison de son effet direct sur les indicateurs de performances. Si la latence dépasse la référence de 10 ms entre la paire de sites, nous vous recommandons d'envisager une configuration active/passive plutôt qu'une configuration active/active.

Remarque :

Tout composant nécessitant une synchronisation doit avoir un RTT inférieur à 10 ms. Cela inclut les serveurs SQL, HAA, le magasin d'objets, etc.

Gestion

The two Automation Suite clusters are independent and do not share any configuration. Therefore, any management or maintenance activity must be done individually on these clusters. For instance, you must update the SQL connection strings on both clusters, configure certificates separately, etc. In addition, you must monitor the two clusters independently, upgrade them individually, etc.

Source de données

Le magasin d'objets, combiné à la base de données SQL, forme l'état d'un produit installé sur Automation Suite.

SQL Server configuration plays a vital role in a multi-site deployment. Though SQL Server is a component external to Automation Suite, a few additional steps are required to ensure true HA when working with Automation Suite.

Le serveur SQL doit être configuré dans le groupe de disponibilité Always On ou dans les groupes d'échec. Il doit être réparti entre les deux sites pour garantir une haute disponibilité précise lorsqu'un site est en panne. Les deux clusters doivent utiliser le même point de terminaison d'écouteur SQL dans la chaîne de connexion. En outre, il est recommandé de définir la propriété MultiSubnetFailover=True dans la chaîne de connexion lorsque le serveur SQL/les bases de données sont répartis sur plusieurs sous-réseaux.

Pour plus de détails, consultez Groupes de disponibilité Always On et Prérequis, restrictions et recommandations pour Groupes de disponibilité Always On.

The external objectstore is immune to possible corruption due to node failure. Data replication and disaster recovery can be carried out independently of Automation Suite. Like SQL Server, the external objectstore must be configured in a highly available Disaster Recovery setup. The primary objectstore instance is physically located in the primary data center, and at least one secondary instance is located in the secondary data center with data sync enabled. You can configure a load balancer on the objectstore to ensure both Automation Suite clusters refer to the same endpoints. This makes the deployment independent of how the objectstore is configured internally.

Important :

Pour AWS S3, le point d'accès multi-région ne prend pas en charge toutes les API s3 requises par tous les produits s'exécutant dans Automation Suite. Pour plus de détails sur la liste des API de prise en charge, consultez Utilisation de points d'accès multi-régions avec des opérations d'API prises en charge.

Vous pouvez créer deux compartiments par produit/suite dans les deux régions et activer la synchronisation. Le cluster Automation Suite exécuté dans la même région fera référence aux compartiments de la même région.

Objectif de temps de récupération

La politique de votre organisation concernant les RTO est essentielle à la conception de votre cluster Automation Suite multi-sites. Pour atteindre le RTO souhaité, tenez compte des aspects suivants :

Conception du gestionnaire de trafic ;
Disponibilité des nœuds dans le cluster secondaire/passif ;
Disponibilité de la charge de travail dynamique sur le cluster secondaire ; par exemple, CompétenceML ;
Gestion de la configuration.

Gestionnaire de trafic

Pour libérer tout le potentiel des deux clusters, il est crucial de configurer le gestionnaire de trafic de manière appropriée. Dans l’idéal, la configuration devrait faciliter la répartition du trafic vers les deux clusters. Cette stratégie garantit non seulement une répartition équilibrée de la charge, mais garantit également la continuité des activités, en atténuant toute perturbation potentielle en cas d'arrêt complet de l'un ou l'autre des sites.

Disponibilité des nœuds

Dans le cas d'un sinistre qui rend un site entièrement non opérationnel, l'autre site doit avoir une capacité suffisante pour garantir que l'automatisation de l'entreprise n'est pas impactée. Une capacité insuffisante au niveau du site de fonctionnement peut avoir un impact négatif sur le fonctionnement de l'entreprise et entraîner potentiellement des problèmes opérationnels importants.

Disponibilité de la charge de travail dynamique

Quelques produits, tels qu'AI Center, déploient les compétences ML de manière dynamique au moment du runtime. Le déploiement des compétences dans un autre cluster est toujours asynchrone. Cela ne peut pas garantir leur disponibilité. Pour vous assurer que votre solution d'automatisation revient en ligne dans le délai souhaité, vous pouvez périodiquement synchroniser les compétences dans un autre cluster.

Gestion de la configuration

Since multi-site Automation Suite deployments consist of two distinct clusters, any operation performed on any cluster must be performed on the other cluster in time to reduce the drift. This ensures that both clusters possess similar configurations and that no additional effort is required during recovery.

Objectif du point de récupération

La politique de votre organisation concernant l'objectif du point de récupération (RPO) est essentielle à la conception de votre cluster Automation Suite multi-sites. Pour atteindre le RPO souhaité, vous devez prendre en compte les aspects suivants :

Synchronisation des données ;
Sauvegarde planifiée.

Synchronisation des données

When written to the primary data source, data must also be synced to the secondary cluster. However, there is a risk of data loss when the data center is down, and data is not synced. Exemplary network configurations, such as high bandwidth and low latency between the two data centers, can speed up synchronization.

Sauvegarde planifiée

La reprise après sinistre n'offre pas toujours une immunité totale contre la perte de données. Cependant, vous pouvez déployer une stratégie de sauvegarde régulière et périodique pour minimiser l'impact du sinistre sur la récupération des données. Pour plus de détails, voir Sauvegarder et restaurer le cluster.

À cette page