V1 : Diffusion des données, visualisation et nuage informatique

 

Consultez les actualités du projet !

 

  • Réaliser le meilleur profit de l’effort scientifique: le projet de valorisation

     

    Les expériences spatiales et de sismologie sont confrontées au challenge du traitement de jeux de données dont le volume et la complexité croient sans discontinuer. Les synergies entre le Centre François Arago (FACe), structure associée au laboratoire APC, et les Centres de Données et d’Analyse de Données (S-CAPAD), structures associées au laboratoire IPGP, connectés à travers une infrastructure de réseau haut débit, nous fait prendre conscience d’un environnement avec des données uniques. L’instrumentation en terme d’implémentation d’approches nouvelles et innovantes pour l’intégration et l’analyse de données est nécessaire afin de pouvoir pleinement explorer la corne d’abondance des observations modernes.

    Dans les deux premières années, ce projet se concentrera sur l’harmonisation de l’utilisation des centres de données pour différents types de projets scientifiques dans le but de permettre une utilisation optimale des ressources. De plus, les différents aspects des besoins en calcul seront examinés en fonction des exigences nécessaires à leur traitement. La finalité de ce travail sera un plan de travail, où chaque processus pourra être traité localement, qui portera sur la ferme de calcul du FACe, sur l’environnement de grande capacité du CC-IN2P3 et pour n’importe quel processus pouvant être exécuté de manière optimale en utilisant l’infrastructure de Grille ou celle de Cloud. À la fin de ce travail, une méthodologie efficace sera fournie en ce qui concerne l’accès à des ressources variées et un avis détaillé sera donné sur les ressources qui sont les plus adaptées pour les différentes taches rencontrées par les observatoires d’IPGP, LISA, LISA-Pathfinder, Euclid et d’autres projets possibles utilisant les centres de données de l’IPGP et du FACe.

  •  

    Volker Beckmann (APC, François Arago Centre)

    Cécile Cavet (APC, François Arago Centre)

    Michele Detournay (APC)

    Ludmila Klenov (IPGP)

    Constanza Pardo (IPGP)

    Nikolai Shapiro (IPGP)

    Eleonore Stutzmann (IPGP)

  •  

    A l’APC, le cloud a atteint sa maturité et il est maintenant utilisé dans différents projets comme eLISA et Euclid. La fédération française de clouds académiques regroupe à présent une dizaine de laboratoires et donne accès à ce service de clouds fédérés via le groupement France Grille. Une nouvelle technologie qui est compatible avec le cloud et plus performante que la virtualisation (technologie utilisée pour instancier des machines virtuelles) est disponible : Docker. L’ère du Big Data (gestion et modélisation des grands volumes de données) est arrivée et les cluster Hadoop (cluster de calcul et de données) apparaissent physiquement ou virtuellement (créer sur le cloud avec des outils comme SlipStream).

    Plus d’informations techniques : Wiki du Centre François Arago (FACe) sur le cloud computing

    À l’IPGP, l’effort principal durant la première année du projet a porté sur la consolidation du système informatique et des bases de données du centre de calcul de l’IPGP. Un effort particulièrement important, visant à homogénéiser les données en provenance des observatoires de volcanologie, a été réalisé. Dans ce contexte, nous organisons un atelier en janvier 2012 pendant lequel les ingénieurs du centres de calcul de l’IPGP et des observatoires vont définir ensemble l’architecture des bases de données, la nature des flots de données et les outils permettant le remplissage des bases de données déterminées précédemment. L’équipe du centre de calcul travaille actuellement sur l’implémentation de ces solutions et également sur les premiers relevés volcanologiques devenus accessibles à la distribution et à l’analyse. Pour accélérer ce travail, nous sommes en train de recruter un Ingénieur de Recherche qui commencera sa mission en janvier 2013.

    À l’APC, afin d’étudier les opportunités qu’offre le « Cloud computing » (calcul dans le nuage informatique), par rapport aux infrastructures plus anciennes que sont la Grille de calcul (« Grid computing ») ou encore le « Cluster computing » (Grappe de calcul), Mme Cécile Cavet a été embauchée en mars 2012 comme Ingénieur de Recherche classe 2 (IR-2). En collaboration avec l’équipe informatique de l’APC, elle a évalué les performances de l’infrastructure de Cloud en comparaison avec le Cluster local et cela dans le contexte des applications scientifiques de type Calcul de Haute Performance (« High Performance Computing » (HPC)). Un des aspects étudiés portait sur la détermination de l’accélération d’un calcul en fonction du nombre d’éléments de calcul (nœuds de calcul, processeurs, cœurs…) qui permet de quantifier l’extensibilité (« scaling ») d’une application/infrastructure. Idéalement, l’accélération devrait être fortement proportionnelle avec le nombre d’éléments de calcul. En réalité, l’utilisation croissante du réseau d’interconnexion des processeurs par les communications de type MPI diminue les performances.

    Plus précisément, pour évaluer les performances du Cloud computing, l’étude réalisée permet une comparaison points par points entre un environnement de Cloud et un Cluster local. L’infrastructure de Cloud qui a été utilisée est le Cloud public IaaS (« Infrastructure-as-a-Service ») StratusLab qui est un projet européen démarré en 2010. Les machines physiques supportant le Cloud sont localisées au Laboratoire d’Accélération Linéaire (LAL) et constituent 10 nœuds de calcul, 240 cœurs de calcul, 360 Go de mémoire et une interconnexion Ethernet à 1 GbE/s. Le logiciel de gestion du Cloud (gestionnaire d’infrastructure virtuelle) est OpenNebula. Les tests de performance effectués sur le Cluster virtuel du Cloud StratusLab (Grappe de calcul constituée de plusieurs machines virtuelles) ont été comparés à ceux réalisés sur le Cluster classique installé au Centre François Arago (FACe) de l’APC à Paris. Ce Cluster a une capacité de 11 nœuds de calcul, 176 cœurs de calcul, 528 Go de mémoire et une interconnexion Ethernet à 10 GbE/s.

    L’étude comparative montre en effet que, quand on utilise un grand nombre de cœurs de calcul, l’accélération est bien moins bonne dans l’environnement de Cloud que dans celle du Cluster local. Par exemple, l’utilisation de 40 cœurs de calcul au lieu d’un seul permet, dans un cas idéal, une accélération de facteur 40. À cause de la perte de performance dans l’infrastructure due au réseau d’interconnexion Ethernet, le Cluster local permet seulement une accélération de facteur 25. Mais dans le Cluster virtuel du Cloud StratusLab, l’accélération présente seulement un facteur 9 et, de plus, augmenter le nombre de cœurs au dessus de ~30 n’améliore pas l’accélération du calcul, tandis que le Cluster local présente une accélération significative jusqu’à 80 cœurs dans cet exemple. Bien que ces comportements sont dépendants de l’expérience (conditions initiales de l’application scientifique), la finalité générale de l’étude est claire : bien que le Cloud permet une meilleure flexibilité en terme de nombre de processeurs, quantité de mémoire, … pour des applications parallèles mettant en jeu des communications MPI, l’infrastructure de Cloud atteint rapidement des limites de performance.

     

    Test de l’extensibilité. Quand le nombre de cœurs de calcul augmente, l’exécution d’une application de type HPC n’est pas autant accélérée sur Cluster virtuel du Cloud que sur le Cluster classique.

    Test de la bande passante de la mémoire (RAM). Les performances de transfert de données internes sont similaires sur les deux infrastructures. (Cavet et al. 2012)

  •  

    Publications:

     

    • Scientific Data Preservation 2014, publication CNRS
    • Utilisation du Cloud StratusLab : tests de performance des clusters virtuels, proceedings Journées scientifiques mésocentres et France Grilles, IPG, Paris, 1 – 3 October 2012
    • Bonaime S., Stutzmann E., Maggi A., Vallée M., Pardo C., and the GEOSCOPE group,
      « The GEOSCOPE network »,
      AGU, fall meeting, 2012
    • Stutzmann E., Maggi A., Bonaime S., Pardo C.,
      30th Anniversary of the GEOSCOPE”,
      American Geophysical Union Fall Meeting, San Francisco, California, 2012
    • Lemarchand A., Tait S., Beauducel F., Bouin M.P., Brenguier F., de Chabalier J. B., Clouard V., Di Muro A., Ferrazzini V., Shapiro N., and the IPGP observatories’ teams,
      Significant breakthroughs in monitoring networks of the volcanological and seismological French observatories”,
      American Geophysical Union Fall Meeting, San Francisco, California, 2013
    • M. Airaj, C. Cavet, V. Hamar, M. Jouvin, C. Loomis, A. Lopez Garcia, G. Mathieu, V. Mendez, J. Pansanel, J.-M. Pierson, M. Puel, F. Thiebolt, A. Tsaregorodtsev,
      « Vers une fédération de Cloud académique dans France Grilles« ,
      Journées SUCCES 2013, Paris : France, hal-00927506 (2013)
    • M. Poncet, T. Faure, C. Cavet, A. Petiteau, P.-M. Brunet, E. Keryell-Even, S.
      Gadioux, M. Burgaud
      Enabling collaboration between space agencies using private and cloud based clusters
      BiDS’16 (2016) http://hal.archives-ouvertes.fr/hal
    • M. Airaj, C. Biscarat, C. Cavet, N. Clémentin, S. Geiger, C. Gondrand, V. Hamar,
      M. Jouvin, V. Legoll, S. Li, C. Loomis, M. Marquillie, G. Mathieu, J. Pansanel, G.
      Philippon, J.-M. Pierson, M. Puel, G. Romier, F. Thiebolt, A. Tsaregorodtsev
      FG-Cloud : Cloud communautaire distribué à vocation scientifique
      JRes, Montpellier (2015)
      http://hal.in2p3.fr/in2p3-01285123
    • C. Cavet, M. Le Jeune, F. Dodu, M. Detournay
      Utilisation du Cloud StratusLab : tests de performance des clusters virtuels.
      Journées scientifiques mésocentres et France Grilles 2012, Paris : France, hal-00766067 (2012).
      http://hal.archives-ouvertes.fr/hal-00766067

    Communication

     

    1. Séminaires

     

     

    2. Oraux

     

    3. Posters

     

    4. Tutoriels

     

     

    Autres activités

     

     Valorisation

     

    Diffusion

     

    Projets

     

     

Enregistrer