- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
基本架构注意事项
与任何多站点部署一样,Automation Suite 的主要架构注意事项涉及基础架构、延迟、数据源、管理、恢复时间目标、恢复点目标等。
两个 Automation Suite 集群相互独立,不共享任何配置。因此,必须在这些集群上单独完成任何管理或维护活动。例如,您必须更新两个集群上的 SQL 连接字符串,并且单独配置证书等。此外,您必须独立监控两个集群,并且单独升级它们等。
对象存储与 SQL 数据库一起构成 Automation Suite 上已安装产品的状态。
SQL Server 配置在多站点部署中起着至关重要的作用。尽管 SQL Server 是 Automation Suite 的外部组件,但在使用 Automation Suite 时,还需要一些其他步骤以确保真正的 HA。
MultiSubnetFailover=True
属性。
有关更多详细信息,请参阅“始终开启”可用性组和“始终开启”可用性组的先决条件、限制和建议。
外部对象存储不会因节点故障而可能发生损坏。数据复制和 Disaster Recovery 可以独立于 Automation Suite 执行。与 SQL Server 一样,必须在高可用性 Disaster Recovery 设置中配置外部对象存储。主对象存储实例在实际位于主数据中心,并且至少一个辅助实例位于辅助数据中心且已启用数据同步。您可以在对象存储上配置负载均衡器,以确保两个 Automation Suite 集群引用相同的端点。这使得部署独立于对象存储的内部配置方式。
对于 AWS S3,多区域访问点不支持 Automation Suite 中运行的所有产品所需的所有 s3 API。有关支持 API 列表的详细信息,请参阅将多区域接入点与受支持的 API 操作一起使用。
您可以在这两个区域中为每个产品/套件创建两个存储桶并启用同步。在同一区域中运行的 Automation Suite 集群将引用同一区域中的存储桶。
在设计多站点 Automation Suite 集群时,您组织的 RTO 策略至关重要。要实现所需的 RTO,请考虑以下方面:
- 流量管理器的设计;
- 辅助/被动集群中节点的可用性;
- 辅助集群上的动态工作负载可用性,例如,ML 技能;
- 配置管理。
您可以通过将流量管理器配置为始终在可用时将流量路由到主集群来减少恢复时间。仅当主集群关闭时,才必须重定向到辅助集群。这可确保自动切换流量,并减少手动切换的时间。您可以使用两个集群的运行状况端点来实现此操作。
一些产品(例如 AI Center)会在运行时动态部署 ML 技能。另一个集群中的技能部署始终为异步。这不能保证它们的可用性。为确保您的自动化解决方案在所需时间内恢复在线,您可以定期同步另一个集群中的技能。
在设计多站点 Automation Suite 集群时,您组织的恢复点目标 (RTO) 策略至关重要。要实现所需的 RPO,必须考虑以下方面:
- 数据同步;
- 计划的备份。
并非所有 Disaster Recovery 都可以完全防止数据丢失。但是,您可以部署定期备份策略,以最大程度地减少灾难对数据恢复的影响。有关详细信息,请参阅备份和还原集群。