Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
leria:centre_de_calcul:cluster [22/03/2019 11:20]
Chantrein Jean-Mathieu [CPLEX]
leria:centre_de_calcul:cluster [24/04/2019 19:03]
Chantrein Jean-Mathieu [Stockage des données]
Ligne 45: Ligne 45:
 |  Hostname ​           |  Modèle ​    ​| ​ Nombre de modèle identique ​ |  GPU         ​| ​ Nombre de GPU/​modèle ​ |  CPU                                                                                                            |  Nombre de CPU/​modèle ​ |  Nombre de cœurs/​CPU ​ |  Nombre de threads/​CPU ​ | Nombre de threads/​modèle ​ |  RAM      |  Espace de stockage local  |  Interconnection ​ | |  Hostname ​           |  Modèle ​    ​| ​ Nombre de modèle identique ​ |  GPU         ​| ​ Nombre de GPU/​modèle ​ |  CPU                                                                                                            |  Nombre de CPU/​modèle ​ |  Nombre de cœurs/​CPU ​ |  Nombre de threads/​CPU ​ | Nombre de threads/​modèle ​ |  RAM      |  Espace de stockage local  |  Interconnection ​ |
 |  star[254-253] ​      ​| ​ Dell R720  |  2                           ​| ​ Tesla K20m  |  2                     ​| ​ [[https://​ark.intel.com/​fr/​products/​75275/​Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]] ​ |  2                     ​| ​ 10                   ​| ​ 20                     ​| ​ 40                       ​| ​ 64 Go    |  1To                       ​| ​ 2*10Gb/​s ​        | |  star[254-253] ​      ​| ​ Dell R720  |  2                           ​| ​ Tesla K20m  |  2                     ​| ​ [[https://​ark.intel.com/​fr/​products/​75275/​Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]] ​ |  2                     ​| ​ 10                   ​| ​ 20                     ​| ​ 40                       ​| ​ 64 Go    |  1To                       ​| ​ 2*10Gb/​s ​        |
-|  star[245-244] ​      ​| ​ Dell R630  |  2                           ​| ​ X           ​| ​ 0                     ​| ​ [[https://​ark.intel.com/​fr/​products/​91316/​Intel-Xeon-Processor-E5-2695-v4-45M-Cache-2-10-GHz-|intel-E5-2695]] ​ |  2                     ​| ​ 18                   ​| ​ 36                     ​| ​ 72                       ​| ​ 128 Go   ​| ​ TODO                      |                   ​|+|  star[246-252] ​      ​| ​ Dell R620  |  7                           ​| ​ X           ​| ​ 0                     ​| ​ [[https://​ark.intel.com/​fr/​products/​75275/​Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]] ​ |  2                     ​| ​ 10                   ​| ​ 20                     ​| ​ 40                       ​| ​ 64 Go    |  1 To                      |  2*10Gb/​s ​        | 
 +|  star[245-244] ​      ​| ​ Dell R630  |  2                           ​| ​ X           ​| ​ 0                     ​| ​ [[https://​ark.intel.com/​fr/​products/​91316/​Intel-Xeon-Processor-E5-2695-v4-45M-Cache-2-10-GHz-|intel-E5-2695]] ​ |  2                     ​| ​ 18                   ​| ​ 36                     ​| ​ 72                       ​| ​ 128 Go   ​| ​ TODO                      |  ​2*10Gb/​s ​        |
 |  star243 ​            ​| ​ Dell R930  |  1                           ​| ​ X           ​| ​ 0                     ​| ​ [[https://​ark.intel.com/​fr/​products/​93806/​Intel-Xeon-Processor-E7-4850-v4-40M-Cache-2-10-GHz-|intel-E7-4850]] ​ |  4                     ​| ​ 16                   ​| ​ 32                     ​| ​ 128                      |  1500 Go  |  1To                       ​| ​ 2*10Gb/​s ​        | |  star243 ​            ​| ​ Dell R930  |  1                           ​| ​ X           ​| ​ 0                     ​| ​ [[https://​ark.intel.com/​fr/​products/​93806/​Intel-Xeon-Processor-E7-4850-v4-40M-Cache-2-10-GHz-|intel-E7-4850]] ​ |  4                     ​| ​ 16                   ​| ​ 32                     ​| ​ 128                      |  1500 Go  |  1To                       ​| ​ 2*10Gb/​s ​        |
-|  star242 ​            ​| ​ Dell R730  |  1                           ​| ​ Tesla P100  |  1                     ​| ​ [[https://​ark.intel.com/​fr/​products/​92986/​Intel-Xeon-Processor-E5-2620-v4-20M-Cache-2-10-GHz-|intel-E5-2620]] ​ |  2                     ​| ​ 8                    |  16                     ​| ​ 32                       ​| ​ 128 Go   ​| ​ 1 To                      |                   ​+|  star242 ​            ​| ​ Dell R730  |  1                           ​| ​ Tesla P100  |  1                     ​| ​ [[https://​ark.intel.com/​fr/​products/​92986/​Intel-Xeon-Processor-E5-2620-v4-20M-Cache-2-10-GHz-|intel-E5-2620]] ​ |  2                     ​| ​ 8                    |  16                     ​| ​ 32                       ​| ​ 128 Go   ​| ​ 1 To                      |  ​2*10Gb/​s ​        
-|  TODO star[199-195] ​ |  Dell R415  |  5                           ​| ​ X           ​| ​ 0                     ​| ​ [[https://​www.cpubenchmark.net/​cpu.php?​cpu=AMD+Opteron+6134&​id=1566|amd-opteron-6134]] ​                        ​| ​ 1                     ​| ​ 8                    |  16                     ​| ​ 16                       ​| ​ 32 Go    |  1 To                      |                   ​|+|  TODO star[199-195] ​ |  Dell R415  |  5                           ​| ​ X           ​| ​ 0                     ​| ​ [[https://​www.cpubenchmark.net/​cpu.php?​cpu=AMD+Opteron+6134&​id=1566|amd-opteron-6134]] ​                        ​| ​ 1                     ​| ​ 8                    |  16                     ​| ​ 16                       ​| ​ 32 Go    |  1 To                      |  ​2*1Gb/​s ​         ​|
 |  TODO star[194-190] ​ |  Dell R415  |  5                           ​| ​ X           ​| ​ 0                     ​| ​ [[https://​www.cpubenchmark.net/​cpu.php?​cpu=AMD+Opteron+4184&​id=278|amd-opteron-4184]] ​                         |  1                     ​| ​ 6                    |  12                     ​| ​ 12                       ​| ​ 32 Go    |  1 To                      |  2*1Gb/​s ​         | |  TODO star[194-190] ​ |  Dell R415  |  5                           ​| ​ X           ​| ​ 0                     ​| ​ [[https://​www.cpubenchmark.net/​cpu.php?​cpu=AMD+Opteron+4184&​id=278|amd-opteron-4184]] ​                         |  1                     ​| ​ 6                    |  12                     ​| ​ 12                       ​| ​ 32 Go    |  1 To                      |  2*1Gb/​s ​         |
 ==== Architecture logicielle ==== ==== Architecture logicielle ====
Ligne 276: Ligne 277:
 Voir aussi [[leria:​centre_de_calcul:​cluster#​architecture_globale|architecture globale]]. Voir aussi [[leria:​centre_de_calcul:​cluster#​architecture_globale|architecture globale]].
  
-Le cluster de calcul utilise un pool de serveurs de stockages distribués [[https://​www.beegfs.io/​content/​|beegfs]] . Ce stockage beegfs est indépendant des serveurs de calcul. Cette zone de stockage est accessible naturellement dans l’arborescence de n'​importe quel nœud de calcul sous /​home/​$USER. Étant donné que ce stockage est distant, toute lecture/​écriture dans votre home est dépendante du réseau. Notre stockage Beegfs et le réseau sous-jacent sont très performant, mais pour certains traitement lourd, vous gagneriez peut-être à vous servir des disques locaux des serveurs de calcul. Pour ce faire, vous pouvez utiliser le répertoire /​local_working_directory des serveurs de calculs. Ce répertoire fonctionne de la même manière que /tmp à la différence que les données sont persistante en cas de redémarrage du serveur.+  * Le cluster de calcul utilise un pool de serveurs de stockages distribués [[https://​www.beegfs.io/​content/​|beegfs]] . Ce stockage beegfs est indépendant des serveurs de calcul. Cette zone de stockage est accessible naturellement dans l’arborescence de n'​importe quel nœud de calcul sous /​home/​$USER. Étant donné que ce stockage est distant, toute lecture/​écriture dans votre home est dépendante du réseau. Notre stockage Beegfs et le réseau sous-jacent sont très performant, mais pour certains traitement lourd, vous gagneriez peut-être à vous servir des disques locaux des serveurs de calcul. Pour ce faire, vous pouvez utiliser le répertoire /​local_working_directory des serveurs de calculs. Ce répertoire fonctionne de la même manière que /tmp à la différence que les données sont persistante en cas de redémarrage du serveur.
  
 +  * Si vous souhaitez créer des groupes, merci d'​envoyer un email à technique.info [at] listes.univ-angers.fr avec le nom du groupe et les utilisateurs associés.
 +
 +  * Pour rappel, **par défaut**, les droits de votre home sont définis à 755, donc **tout le monde peut lire et exécuter vos données**.
 ===== Utilisation avancée ===== ===== Utilisation avancée =====
  
 ==== Array jobs ==== ==== Array jobs ====
  
-Vous devriez commencer par lire la [[https://​slurm.schedmd.com/​job_array.html|documentation officielle]].+Vous devriez commencer par lire la [[https://​slurm.schedmd.com/​job_array.html|documentation officielle]]. Cette [[http://​scicomp.aalto.fi/​triton/​tut/​array.html|page]] présente des cas d'​utilisations intéressants.
  
 Si vous avez un grand nombre de fichier ou de parametres à traiter avec un seul exécutable,​ vous devez utiliser un [[https://​slurm.schedmd.com/​job_array.html|array job]]. Si vous avez un grand nombre de fichier ou de parametres à traiter avec un seul exécutable,​ vous devez utiliser un [[https://​slurm.schedmd.com/​job_array.html|array job]].
Ligne 352: Ligne 356:
 ./​job_name_exec ${INSTANCES[$SLURM_ARRAY_TASK_ID]} ./​job_name_exec ${INSTANCES[$SLURM_ARRAY_TASK_ID]}
 </​code>​ </​code>​
 +
 +=== Job pour multiples instances avec multiples exécutions (Seed number) ===
 +
 +Parfois il faut lancer plusieurs fois l'​exécution sur une instance en modifiant la graine qui permet de générer des nombres aléatoire.
 +
 +Soit l'​arborescence suivante:
 +<​code>​
 +job_name
 +├── error
 +├── instances
 +│   ​├── bench1.txt
 +│   ​├── bench2.txt
 +│   ​└── bench3.txt
 +├── job_name_exec
 +├── output
 +├── submit_instances_dir_with_seed.slurm
 +└── submit.sh
 +</​code>​
 +
 +Il suffit d’exécuter la commande suivante:
 +
 +  ./submit.sh
 +
 +avec le fichier submit.sh suivant (pensez à modifier la variable NB_SEED):
 +
 +<code bash>
 +#!/bin/bash
 +
 +readonly NB_SEED=50
 +
 +for instance in $(ls instances)
 +do
 +  sbatch --output output/​${instance}_%A-%a --error error/​${instance}_%A-%a --array 0-${NB_SEED} submit_instances_dir_with_seed.slurm instances/​${instance}
 +done
 +exit 0
 +</​code>​
 +
 +et le batch submit_instances_dir_with_seed.slurm suivant:
 +
 +<code bash>
 +#!/bin/bash
 +#SBATCH --mail-type=END,​FAIL
 +#SBATCH --mail-user=YOUR-EMAIL
 +
 +echo "#######​ INSTANCE:​ ${1}"
 +echo "#######​ SEED NUMBER: ${SLURM_ARRAY_TASK_ID}"​
 +echo
 +srun echo nomApplication ${1} ${SLURM_ARRAY_TASK_ID}
 +</​code>​
 +
 +Avec cette méthode, la variable SLURM_ARRAY_TASK_ID contient la graine. Et vous soumettez autant de array job que ce qu'il y a d'​instance dans le répertoire instance.
 +Vous retrouvez facilement vos sortie qui sont nommées comme ceci:
 +
 +  output/​nom_instance-ID_job-graine ​
 +
  
 === Dépendances entre job === === Dépendances entre job ===
Ligne 498: Ligne 557:
 Le chemin pour la bibliothèque Cplex est le chemin par défaut /​opt/​ibm/​ILOG/​CPLEX_Studio129 (version 12.9) Le chemin pour la bibliothèque Cplex est le chemin par défaut /​opt/​ibm/​ILOG/​CPLEX_Studio129 (version 12.9)
 ===== FAQ ===== ===== FAQ =====
 +
 +  * Comment savoir quelles sont les ressources d'une partition, exemple avec la partition std:
 +
 +  user@stargate~#​ scontrol show Partition std
  
   * Comment obtenir un prompt shell interactif dans un nœud de calcul de votre partition par défaut ?   * Comment obtenir un prompt shell interactif dans un nœud de calcul de votre partition par défaut ?
leria/centre_de_calcul/cluster.txt · Dernière modification: 10/10/2019 11:44 par Chantrein Jean-Mathieu
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0