Calcul sur datacenter régional ou national - Version synthétique

Cette page présente un recensement (très synthétique) des centres de calcul régionaux et nationaux, avec un descriptif de leurs caractéristiques et les liens pour demander l’accès.

Pour un guide de prise en main des ressources du cluster MCIA : https://wikidoc.oasu.u-bordeaux.fr/books/divers/page/guide-de-prise-en-main-des-clusters-hpc-du-mcia

Clusters régionaux Nouvelle-Aquitaine (MCIA)

Voici une comparaison synthétique des 4 calculateurs (Curta, Jarvis, Pyrène, Cali V3), suivie d’un focus spécifique sur le stockage, afin de bien distinguer capacité de calcul, mémoire, GPU, et stratégie data.

Comparaison des calculateurs (puissance & usages)

Critère	Curta	Jarvis	Pyrène	Cali V3	Poudlard
Architecture	Cluster HPC classique distribué	Single System Image (SSI)	Cluster mémoire	Cluster orienté GPU	Cluster étudiant / mix CPU-GPU
Cœurs CPU	12 000	768	1 568	1 118	1 184
Mémoire max / nœud	3 To	6 To	1,5 To	variable	250 Go (CPU) / 64 Go (GPU)
GPU	8 × NVIDIA P100 (calcul) + 8 × Quadro P4000 (visualisation)	L40S (2 GPU)	X	89 GPU (H100, L40, RTX6000, GTX1080)	3 GPU (GTX Titan X, AMD MI210)
Scheduler	Slurm	Slurm	Slurm	Slurm	Slurm
Public cible	HPC généraliste massif	Data in-memory / gros graphes	Mémoire + CPU	IA / Deep Learning / GPU	Étudiants, apprentissage HPC et GPU
Point faible	Programmation distribuée nécessaire	Peu de GPU	Pas de GPU	Peu adapté aux gros jobs CPU ou mémoire unifiée	?

Comparaison du stockage (critique pour data & IA)

Vue d’ensemble rapide

Cluster	/home	/scratch	/tmp	Source
Curta	128 Go (soft) / 256 Go (hard) 20 Go par utilisateur	400 To (GPFS)	460 Go par nœud	https://redmine.mcia.fr/projects/cluster-curta/wiki/
Jarvis	10 To total / 200 Go par utilisateur	24 To total / 500 Go par utilisateur	Non spécifié	https://redmine.mcia.fr/projects/cluster-doremi-jarvis/wiki/Architecture_du_calculateur
Pyrène	200 Go par utilisateur	18 To partagés	Non spécifié	https://git.univ-pau.fr/num-as/pyrene-cluster/-/wikis/1-Environment/1.3-Disk-space
Cali V3	60 Go par utilisateur	1 To par utilisateur	400 Go à 1 To par nœud	https://redmine.mcia.fr/projects/cluster-cali3/wiki/Stockage

En gros

/scratch : les données déposées dans cet espace ne sont PAS sauvegardées et peuvent être supprimées automatiquement selon la politique du centre (ex. fichiers inactifs > 90 jours sur Curta). Il n’existe aucun moyen de récupération après suppression.
Attention aux quotas : les espaces /home, /scratch et /work sont soumis à des quotas par utilisateur. Un dépassement peut entraîner des erreurs d’écriture ou des échecs de jobs.
Sur Curta : les répertoires /home sont régulièrement sauvegardés via des snapshots accessibles à l’emplacement :
/gpfs/home/.snapshots/snap_curta-home-home_<date>-0000_daily/<username>/
Ces sauvegardes ont une rétention limitée et ne couvrent que l’espace /home.
/tmp : espace local au nœud de calcul, disponible uniquement pendant l’exécution d’un job. Les données sont supprimées à la fin du job.

Recommandations finales (choix rapide)

Besoin	Cluster recommandé
MPI massif / HPC classique	Curta
Données énormes en RAM, graphes	Jarvis
CPU + mémoire + stockage durable	Pyrène
Deep Learning / GPU / IA	Cali V3
Gros datasets temporaires parallèles	Curta / Pyrène
Prototypage data sans MPI	Jarvis

Notes communes aux clusters régionaux MCIA :

Authentification via compte MCIA : https://redmine.mcia.fr/projects/cluster-curta/wiki/Comptes_Utilisateurs
Accès via SSH ou portails Web (OpenOnDemand, TurboVNC, VirtualGL) selon cluster
Suivi conso : https://pandora.mcia.fr/grafana

Accès aux centres nationaux

1. Grid5000

Demande de création de compte utilisateur : https://www.grid5000.fr/w/Grid5000:Get_an_account Vous recevrez ensuite un lien expliquant comment créer votre mot de passe et renseigner votre clé SSH. Vous pourrez alors vous connecter à la plateforme via la ligne de commande :

ssh USER@access.grid5000.fr

où USER correspond à votre nom d’utilisateur.

Vous trouverez un guide de prise en main ici : https://www.grid5000.fr/w/Getting_Started et davantage d’informations dans la documentation officielle.

2. via eDARI

Les ressources nationales (CINES, IDRIS, TGCC) se demandent via le portail eDARI : https://www.edari.fr

Malgré les différences matérielles entre les plateformes, leur utilisation est globalement identique :

Accès via ligne de commande
Gestion des fichiers sur des espaces de stockage dédiés
Soumission des jobs via un ordonnanceur
Suivi de la consommation de l’allocation

La principale différence réside dans les ressources disponibles (CPU, GPU, mémoire, quotas).

L’utilisation d’eDARI se fait en plusieurs étapes

Demande d’allocation :
L’utilisateur doit d’abord déposer une demande d’allocation sur l’une des plateformes disponibles (CINES, Jean Zay, TGCC).
Ici : https://www.edari.fr
Cette demande précise le projet, les besoins en calcul (CPU, GPU, mémoire, durée, etc.).
Validation de la demande :
Après évaluation, la demande peut être acceptée et une allocation de ressources est accordée.
Rattachement du compte :
Une fois l’allocation validée, il est nécessaire de rattacher son compte eDARI à la demande acceptée afin de pouvoir consommer du temps de calcul.
Démarrage des calculs :
Le rattachement effectué, l’utilisateur peut se connecter aux machines et soumettre des calculs.

2.1. IDRIS – Centre de calcul du CNRS

Site : https://www.idris.fr/
Documentation accès : https://www.idris.fr/info/gestion/demandes-heures.html
Schéma de demande d'accès : https://www.edari.fr/schema/acces/ressource

Supercalculateur Jean Zay

Partitions CPU et GPU, puissance crête : 125,9 PFlop/s (juillet 2024)
CPUs Intel Xeon et GPUs Nvidia V100 / A100 selon partition
Scheduler : Slurm
Accès : via eDARI

Espaces disques majeurs sur Jean Zay

Espace	Capacité par défaut	Spécificité	Usage
$HOME	3 Go / 150k inodes par utilisateur	Accueil de connexion	Stockage de fichiers de configuration et de petits fichiers
$WORK	5 To* / 500k inodes par projet	• Stockage sur disques rotatifs• 350 Go/s en lecture• 300 Go/s en écriture	• Stockage des sources• Données d’entrée/sortie• Exécution en batch ou interactif
$SCRATCH	Quotas de sécurité très larges4,6 Po partagés	• Stockage SSD• 1,5 To/s en lecture• 1,1 To/s en écriture• Fichiers inutilisés supprimés après 30 jours	• Données d’entrée/sortie volumineuses• Exécution batch ou interactif• Performances optimales en I/O
$STORE	50 To* / 100k inodes* par projet	• Sauvegarde sur bandes magnétiques• Cache sur disques rotatifs	• Archivage long terme• Conservation pendant la durée du projet

Partage de données et augmentation du quota des espaces

• Pour partager des fichiers avec les membres de votre projet, il existe trois espaces communs :
- dans le $WORK : $ALL_CCFRWORK
- dans le $SCRATCH : $ALL_CCFRSCRATCH
- dans le $STORE : $ALL_CCFRSTORE

• Si vous travaillez avec des bases de données publiques volumineuses, l’IDRIS peut les installer pour vous dans l’espace disque $DSDIR. Cet espace est accessible en lecture à tous les utilisateurs. Cela permet de mutualiser les ressources et ne pas saturer vos espaces disques.

2.2 CINES – Supercalculateur Adastra

Site : https://www.cines.fr/
Architecture HPE-Cray EX, nœuds CPU AMD EPYC Genoa, GPU MI250X et MI300A
Documentation : https://dci.dci-gitlab.cines.fr/webextranet/architecture/

3.2.3 TGCC – Centre CEA

Site : https://hpc.cea.fr/
Nœuds AMD Rome, Intel Skylake/Cascadelake, GPUs V100 / P100 / A100
Scheduler : Slurm
Documentation : https://hpc.cea.fr/tgcc-public/en/html/tgcc-public.html

2.4 France Grilles

Accès à la grille de calcul distribuée et aux serveurs à la demande (Cloud)
Certification via HARICA : https://cm.harica.gr/
Portail : https://iam.mesonet.fr/
Documentation : https://github.com/FranceGrilles/documentation/blob/main/certificat_utilisateur/demande_certificat_personnel_cnrs.rst
Contact : info@france-grilles.fr

International

EGI (European Grid Infrastructure) : https://www.egi.eu/
Fournit une grille de calcul distribuée pour la recherche européenne.