Home » Blogue » Guide de configuration d’une grappe HPC dans le nuage

Guide de configuration d’une grappe HPC dans le nuage

Introduction

Les grappes de calcul haute performance (HPC) jouent un rôle essentiel dans l’avancement de la recherche scientifique et informatique, en alimentant des simulations, des analyses de données et des calculs complexes que les infrastructures informatiques traditionnelles peuvent avoir de la difficulté à gérer. Comme la demande pour des ressources informatiques plus rapides, plus évolutives et plus efficaces continue de croître, les chercheurs et les organisations se tournent de plus en plus vers les plateformes infonuagiques pour répondre à ces besoins. Au cours des dernières années, des plateformes infonuagiques comme AWS (Amazon Web Services), Azure (Microsoft Azure) et GCP (Google Cloud Platform) sont devenues des acteurs clés en offrant des ressources informatiques évolutives et à la demande. La flexibilité et l’agilité offertes par ces services en nuage en font des choix attrayants pour les charges de travail HPC, permettant aux utilisateurs d’accéder à une puissance de calcul immense sans avoir à investir massivement dans une infrastructure physique. La tendance à migrer les charges de travail HPC vers le nuage prend de l’ampleur. Traditionnellement, les grappes HPC étaient hébergées sur place ou dans des centres de données spécialisés, ce qui posait des défis en matière d’évolutivité, de gestion des ressources et de coûts. Les plateformes infonuagiques, avec leurs modèles de facturation à l’utilisation et leur large éventail de services, répondent à ces défis en offrant un environnement dynamique et évolutif pour les tâches HPC. Dans ce blogue, nous examinerons en détail la configuration des grappes HPC à l’aide de l’ordonnanceur Slurm, un ordonnanceur de tâches et gestionnaire de ressources largement adopté pour les environnements HPC. Nous mettrons l’accent sur la comparaison des processus de configuration et sur l’évaluation des avantages et inconvénients du déploiement de Slurm sur trois grandes plateformes infonuagiques : AWS, Azure et GCP.

HPC sur AWS

AWS propose des solutions pour les charges de travail HPC avec AWS ParallelCluster. Cet outil de gestion de grappes, pris en charge par AWS et en code source libre, vise à simplifier le déploiement et la gestion des grappes HPC sur le nuage AWS. Que vous préfériez l’interface en ligne de commande (CLI) pour son efficacité ou l’interface utilisateur ParallelCluster (UI) pour sa simplicité, AWS ParallelCluster répond aux deux besoins. Cette polyvalence rend la configuration des grappes accessible à un large éventail d’utilisateurs, des administrateurs chevronnés à ceux qui débutent dans les environnements HPC. L’interface ParallelCluster offre une interface graphique intuitive pour gérer les grappes, rendant les tâches administratives plus accessibles. De plus, AWS ParallelCluster peut être facilement intégré avec Cognito Pool pour la gestion des utilisateurs.

HPC sur Azure

Azure CycleCloud est un élément clé de l’écosystème Azure, conçu pour simplifier le déploiement, la gestion et l’optimisation des grappes HPC. Azure CycleCloud offre à la fois une CLI et un portail web convivial pour le déploiement et la gestion des grappes HPC. L’une de ses forces notables est son intégration fluide avec Slurm, un ordonnanceur de tâches largement adopté pour les environnements HPC. Cette intégration permet aux utilisateurs d’Azure CycleCloud de profiter des capacités robustes de planification de tâches, d’allocation de ressources et de gestion de charges de travail offertes par Slurm. Azure CycleCloud va au-delà de l’intégration avec Slurm, permettant aussi d’incorporer d’autres ordonnanceurs et des configurations personnalisées. Azure CycleCloud s’intègre également aux services Azure tels que les machines virtuelles Azure, Azure Blob Storage et Azure Networking, offrant un environnement complet pour les charges HPC. Les fonctionnalités avancées de gestion des ressources de CycleCloud assurent une utilisation optimale des ressources de calcul, minimisant le temps d’inactivité et maximisant l’efficacité.

HPC sur Google Cloud Platform

Le déploiement fluide de Slurm sur Google Cloud Platform est rendu possible par plusieurs options, incluant le Cloud HPC Toolkit, Terraform et le Google Cloud Marketplace.

Options de déploiement :

1. Cloud HPC Toolkit :

Le Cloud HPC Toolkit offre une approche simplifiée et conviviale pour déployer Slurm sur Google Cloud Platform. Cet ensemble d’outils propose des ressources et des configurations prédéfinies, garantissant un processus de configuration simplifié.

2. Intégration Terraform :

Pour les utilisateurs qui préfèrent l’infrastructure comme code, le déploiement de Slurm sur Google Cloud Platform peut être orchestré directement via Terraform. Cela permet l’automatisation et la gestion contrôlée par version des grappes HPC.

3. Google Cloud Marketplace :

Le Google Cloud Marketplace agit comme un hub centralisé pour découvrir, déployer et gérer des solutions logicielles. Les utilisateurs peuvent facilement trouver et déployer Slurm directement depuis le Marketplace, simplifiant ainsi le processus d’intégration.

Bien que Google Cloud Platform (GCP) offre des options de déploiement polyvalentes pour le HPC avec Slurm, il est important de noter que GCP ne fournit actuellement pas de composant UI dédié à la surveillance de ces déploiements. Ce blogue approfondit davantage la comparaison des solutions HPC sur ces fournisseurs de nuage, en mettant l’accent sur des aspects clés tels que les méthodes de déploiement, les options d’ordonnanceurs, la gestion des utilisateurs, l’intégration du stockage, la surveillance des coûts et la soumission des tâches.

Vue d’ensemble de l’ordonnanceur Slurm

L’ordonnanceur Slurm est un outil robuste et en code source libre conçu pour gérer les charges de travail HPC. À sa base, Slurm alloue efficacement les ressources, planifie les tâches et surveille l’activité de la grappe. Les concepts clés incluent : Nœuds de contrôle : Serveurs centraux qui gèrent l’ensemble de la grappe, hébergeant le démon slurmctld. Nœuds de calcul : Nœuds exécutant les tâches, chacun exécutant le démon slurmd. Planification des tâches : Attribution intelligente des tâches aux ressources selon la priorité, la disponibilité et les politiques. Partitions : Subdivisions logiques permettant de regrouper des nœuds selon des facteurs comme le matériel ou l’accès utilisateur. Les avantages incluent l’évolutivité, la flexibilité et le fort soutien de la communauté. Dans ce blogue, nous explorerons la configuration de Slurm sur AWS, Azure et GCP, en examinant comment chaque plateforme s’intègre avec Slurm pour une performance HPC optimale.

Comparaison de la configuration des grappes HPC sur AWS, Azure et GCP

Comparaison	AWS	Azure	GCP
Service/Outil utilisé	ParallelCluster	CycleCloud	Cloud HPC Toolkit
Ordonnanceur	Slurm ou ordonnanceur AWS Batch	Slurm, autres ordonnanceurs intégrés et possibilité d’ajouter des ordonnanceurs personnalisés	Seulement Slurm
Méthode de déploiement	CLI ou script CloudFormation	Azure Marketplace ou modèle ARM	Console Google uniquement
Support Interface Utilisateur	PCluster UI	CycleCloud UI	Aucun composant UI. Les utilisateurs se connectent en SSH directement au nœud principal.
Gestion des utilisateurs et intégration AD	Supporte l’intégration Active Directory (AD). Cognito Pool est utilisé pour l’accès administrateur à ParallelCluster UI	Supporte AD et Azure AD via des projets personnalisés. Possède aussi une configuration intégrée de gestion des utilisateurs via CycleCloud UI.	Aucune intégration directe de gestion des utilisateurs disponible. Les utilisateurs doivent être ajoutés via CLI en se connectant au nœud principal.
Intégration du stockage	Supporte les intégrations EFS et EBS.	Peut attacher un système de fichiers NFS lors de la création de la grappe.	Peut monter des systèmes de fichiers et serveurs NFS.
Surveillance des coûts	Le tableau de bord PCluster est utilisé pour la gestion des coûts, intégré via des étiquettes à Cost Explorer.	Le tableau de bord CycleCloud fournit des métriques pour la surveillance des coûts.	Aucun tableau de bord spécifique disponible. Utilise directement le Cost Explorer de GCP pour visualiser les coûts.
Alertes	Alarmes CloudWatch	Configurer des alertes pour des quotas d’utilisation spécifiques via CycleCloud UI.	Peut utiliser le service Budgets and Alerts de GCP pour recevoir des notifications lors de certains seuils.
Soumission de tâches	Connexion SSH au nœud principal pour soumettre les tâches	Connexion SSH au nœud principal pour soumettre les tâches	Connexion SSH au nœud principal pour soumettre les tâches

Conclusion

Le choix du bon fournisseur infonuagique et de la solution HPC dépend des besoins spécifiques et des préférences. AWS ParallelCluster offre un ensemble robuste de fonctionnalités avec un support d’interface utilisateur dédié et une intégration AD. Azure CycleCloud apporte de la flexibilité avec le support de multiples ordonnanceurs et une interface conviviale. Le Cloud HPC Toolkit de Google Cloud met l’accent sur la simplicité, avec une méthode de déploiement directe via la console. En fin de compte, la décision devrait s’aligner avec les priorités de votre organisation, vos considérations budgétaires et les exigences spécifiques de vos charges de travail HPC.