V1 : Diffusion des données, visualisation et nuage informatique
> Lire les articles connectés au projet.
-
Réaliser le meilleur profit de l’effort scientifique: le projet de valorisation
Les expériences spatiales et de sismologie sont confrontées au challenge du traitement de jeux de données dont le volume et la complexité croient sans discontinuer. Les synergies entre le Centre François Arago (FACe), structure associée au laboratoire APC, et les Centres de Données et d’Analyse de Données (S-CAPAD), structures associées au laboratoire IPGP, connectés à travers une infrastructure de réseau haut débit, nous fait prendre conscience d’un environnement avec des données uniques. L’instrumentation en terme d’implémentation d’approches nouvelles et innovantes pour l’intégration et l’analyse de données est nécessaire afin de pouvoir pleinement explorer la corne d’abondance des observations modernes.
Dans les deux premières années, ce projet se concentrera sur l’harmonisation de l’utilisation des centres de données pour différents types de projets scientifiques dans le but de permettre une utilisation optimale des ressources. De plus, les différents aspects des besoins en calcul seront examinés en fonction des exigences nécessaires à leur traitement. La finalité de ce travail sera un plan de travail, où chaque processus pourra être traité localement, qui portera sur la ferme de calcul du FACe, sur l’environnement de grande capacité du CC-IN2P3 et pour n’importe quel processus pouvant être exécuté de manière optimale en utilisant l’infrastructure de Grille ou celle de Cloud. À la fin de ce travail, une méthodologie efficace sera fournie en ce qui concerne l’accès à des ressources variées et un avis détaillé sera donné sur les ressources qui sont les plus adaptées pour les différentes taches rencontrées par les observatoires d’IPGP, LISA, LISA-Pathfinder, Euclid et d’autres projets possibles utilisant les centres de données de l’IPGP et du FACe.
-
POSITION NOM LABORATOIRE GRADE, EMPLOYEUR WP leader Cécile CAVET APC IR2, CNRS/IN2P3 WP co-leader Volker BECKMANN IN2P3 IR1, CNRS/IN2P3 WP co-leader Nikolai SHAPIRO IPGP DR, CNRS WP membre Michèle DETOURNAY APC IRHC, CNRS/IN2P3 WP membre Constanza PARDO IPGP IR1, CNRS WP membre Eleonore STUTZMANN IPGP PHY, CNAP WP membre Jean-Marc COLLEY APC IR1, CNRS/IN2P3 WP membre Jean-Pierre VILOTTE IPGP CNAP WP membre Alexandre FOURNIER IPGP Professor membre Geneviève MOGUILNY IPGP IR, CNRS -
A l’APC, le cloud a atteint sa maturité et il est maintenant utilisé dans différents projets comme eLISA et Euclid. La fédération française de clouds académiques regroupe à présent une dizaine de laboratoires et donne accès à ce service de clouds fédérés via le groupement France Grille. Une nouvelle technologie qui est compatible avec le cloud et plus performante que la virtualisation (technologie utilisée pour instancier des machines virtuelles) est disponible : Docker. L’ère du Big Data (gestion et modélisation des grands volumes de données) est arrivée et les cluster Hadoop (cluster de calcul et de données) apparaissent physiquement ou virtuellement (créer sur le cloud avec des outils comme SlipStream).
Plus d’informations techniques : Wiki du Centre François Arago (FACe) sur le cloud computing
À l’IPGP, l’effort principal durant la première année du projet a porté sur la consolidation du système informatique et des bases de données du centre de calcul de l’IPGP. Un effort particulièrement important, visant à homogénéiser les données en provenance des observatoires de volcanologie, a été réalisé. Dans ce contexte, nous organisons un atelier en janvier 2012 pendant lequel les ingénieurs du centres de calcul de l’IPGP et des observatoires vont définir ensemble l’architecture des bases de données, la nature des flots de données et les outils permettant le remplissage des bases de données déterminées précédemment. L’équipe du centre de calcul travaille actuellement sur l’implémentation de ces solutions et également sur les premiers relevés volcanologiques devenus accessibles à la distribution et à l’analyse. Pour accélérer ce travail, nous sommes en train de recruter un Ingénieur de Recherche qui commencera sa mission en janvier 2013.
À l’APC, afin d’étudier les opportunités qu’offre le « Cloud computing » (calcul dans le nuage informatique), par rapport aux infrastructures plus anciennes que sont la Grille de calcul (« Grid computing ») ou encore le « Cluster computing » (Grappe de calcul), Mme Cécile Cavet a été embauchée en mars 2012 comme Ingénieur de Recherche classe 2 (IR-2). En collaboration avec l’équipe informatique de l’APC, elle a évalué les performances de l’infrastructure de Cloud en comparaison avec le Cluster local et cela dans le contexte des applications scientifiques de type Calcul de Haute Performance (« High Performance Computing » (HPC)). Un des aspects étudiés portait sur la détermination de l’accélération d’un calcul en fonction du nombre d’éléments de calcul (nœuds de calcul, processeurs, cœurs…) qui permet de quantifier l’extensibilité (« scaling ») d’une application/infrastructure. Idéalement, l’accélération devrait être fortement proportionnelle avec le nombre d’éléments de calcul. En réalité, l’utilisation croissante du réseau d’interconnexion des processeurs par les communications de type MPI diminue les performances.
Plus précisément, pour évaluer les performances du Cloud computing, l’étude réalisée permet une comparaison points par points entre un environnement de Cloud et un Cluster local. L’infrastructure de Cloud qui a été utilisée est le Cloud public IaaS (« Infrastructure-as-a-Service ») StratusLab qui est un projet européen démarré en 2010. Les machines physiques supportant le Cloud sont localisées au Laboratoire d’Accélération Linéaire (LAL) et constituent 10 nœuds de calcul, 240 cœurs de calcul, 360 Go de mémoire et une interconnexion Ethernet à 1 GbE/s. Le logiciel de gestion du Cloud (gestionnaire d’infrastructure virtuelle) est OpenNebula. Les tests de performance effectués sur le Cluster virtuel du Cloud StratusLab (Grappe de calcul constituée de plusieurs machines virtuelles) ont été comparés à ceux réalisés sur le Cluster classique installé au Centre François Arago (FACe) de l’APC à Paris. Ce Cluster a une capacité de 11 nœuds de calcul, 176 cœurs de calcul, 528 Go de mémoire et une interconnexion Ethernet à 10 GbE/s.
L’étude comparative montre en effet que, quand on utilise un grand nombre de cœurs de calcul, l’accélération est bien moins bonne dans l’environnement de Cloud que dans celle du Cluster local. Par exemple, l’utilisation de 40 cœurs de calcul au lieu d’un seul permet, dans un cas idéal, une accélération de facteur 40. À cause de la perte de performance dans l’infrastructure due au réseau d’interconnexion Ethernet, le Cluster local permet seulement une accélération de facteur 25. Mais dans le Cluster virtuel du Cloud StratusLab, l’accélération présente seulement un facteur 9 et, de plus, augmenter le nombre de cœurs au dessus de ~30 n’améliore pas l’accélération du calcul, tandis que le Cluster local présente une accélération significative jusqu’à 80 cœurs dans cet exemple. Bien que ces comportements sont dépendants de l’expérience (conditions initiales de l’application scientifique), la finalité générale de l’étude est claire : bien que le Cloud permet une meilleure flexibilité en terme de nombre de processeurs, quantité de mémoire, … pour des applications parallèles mettant en jeu des communications MPI, l’infrastructure de Cloud atteint rapidement des limites de performance.
-
Publications:
2018 :
C. Cavet, A. Bailly-Reyre, D. Chamont, O. Dadoun, P. Hennion, O. Lodygensky, G.Marchal-Duval, E. Medernach, V. Mendoza, J. Pansanel, A. Sartirana, M. Souchal, J. Tugler
ComputeOps : container for High Performance Computing
CHEP 2018 Conference (2018) In prep.C. Cavet, A. Petiteau, M. Le Jeune
Prototyping for the Distributed Data Processing Center of LISA
12th International LISA Symposium (2018) In prep.2017 :
Cavet, A. Petiteau, M. Le Jeune, E. Plagnol, E. Marin-Martholaz, J-B. Bayle, A proto-Data Processing Center for LISA, 11th International LISA Symposium, Journal of Physics : Conference Series, Volume 840, conference 1 (2017): http://iopscience.iop.org/article/10.1088/1742-6596/840/1/012045
P. Amaro-Seoane et al.
LISA mission proposal
arXiv:1702.00786 (2017)Cavet, V. Legoll, J. Pansanel, S. Pop, A. Ramparison, G. Romier, F. Thiebolt, FG-Cloud : un service de cloud computing fédéré pour le calcul scientifique, JRES 2017 (2017)
2016 :
M. Poncet, T. Faure, C. Cavet, A. Petiteau, P.-M. Brunet, E. Keryell-Even, S.
Gadioux, M. Burgaud
Enabling collaboration between space agencies using private and cloud based clusters
BiDS’16 (2016) http://hal.archives-ouvertes.fr/hal2015 :
M. Airaj, C. Biscarat, C. Cavet, N. Clémentin, S. Geiger, C. Gondrand, V. Hamar,
M. Jouvin, V. Legoll, S. Li, C. Loomis, M. Marquillie, G. Mathieu, J. Pansanel, G.
Philippon, J.-M. Pierson, M. Puel, G. Romier, F. Thiebolt, A. Tsaregorodtsev
FG-Cloud : Cloud communautaire distribué à vocation scientifique
JRes, Montpellier (2015)
http://hal.in2p3.fr/in2p3-012851232014 :
Scientific Data Preservation 2014, publication CNRS2013 :
M. Airaj, C. Cavet, V. Hamar, M. Jouvin, C. Loomis, A. Lopez Garcia, G. Mathieu, V. Mendez, J. Pansanel, J.-M. Pierson, M. Puel, F. Thiebolt, A. Tsaregorodtsev,
« Vers une fédération de Cloud académique dans France Grilles«
Journées SUCCES 2013, Paris : France, hal-00927506 (2013)Lemarchand A., Tait S., Beauducel F., Bouin M.P., Brenguier F., de Chabalier J. B., Clouard V., Di Muro A., Ferrazzini V., Shapiro N., and the IPGP observatories’ teams,
“Significant breakthroughs in monitoring networks of the volcanological and seismological French observatories”,
American Geophysical Union Fall Meeting, San Francisco, California, 20132012 :
C. Cavet, M. Le Jeune, F. Dodu, M. Detournay
Utilisation du Cloud StratusLab : tests de performance des clusters virtuels,
Journées scientifiques mésocentres et France Grilles 2012, Paris : France, hal-00766067 (2012).
http://hal.archives-ouvertes.fr/hal-00766067Bonaime S., Stutzmann E., Maggi A., Vallée M., Pardo C., and the GEOSCOPE group,
« The GEOSCOPE network »,
AGU, fall meeting, 2012Stutzmann E., Maggi A., Bonaime S., Pardo C.,
“30th Anniversary of the GEOSCOPE”,
American Geophysical Union Fall Meeting, San Francisco, California, 20121. Séminaires
- Conteneurs (Docker, Singularity) pour le HPC, Activités et vision pour le domaine HTC / HPC, Siège social du CNRS, Paris, 22 Février, 2017
https://indico.in2p3.fr/event/14008/session/2/contribution/6/material/slides/0.pdf - Webinaire Docker : retour d’expérience, Webinaire du RI3, 16 Juin 2016.
https://indico.in2p3.fr/event/13287/material/slides/1.pdf
- Cloud computing : a new computing infrastructure for scientific applications, Campus Paris Diderot, Paris, 2 Décembre 2013.
http://www.apc.univ-paris7.fr/~beckmann/common/pres_big_computing_13.pdf
- Cloud computing : a new computing infrastructure for scientific applications, Laboratoire APC, Paris, 10 Décembre 2012.
2. Oraux
- Un cas d’étude en astrophysique, Journée de sensibilisation aux moyens mutualisés d’accès au calcul intensif, INRA, Paris, 11 Janvier 2016.
http://cascisdi.inra.fr/sites/cascisdi.inra.fr/files/journeeCalcul_11janv2016_
cloud_Cavet.pdf - Présentation du cloud, Journée de sensibilisation aux moyens mutualisés d’accès au calcul intensif, INRA, Paris, 11 Janvier 2016.
http://cascisdi.inra.fr/sites/cascisdi.inra.fr/files/journeeCalcul_11janv2016_
astro_Cavet.pdf - Review on distributed computing,Workshop distributed computing in astrophysics, FACe, APC, Paris, 10 – 11 Décembre 2015.
https://indico.in2p3.fr/event/12042/contribution/1/material/slides/0.pdf - Etude des ondes gravitationnelles : de l’espace au cloud, Journées SUCCES, IPGP, Paris, 5 – 6 Novembre 2015.
http://succes2015.sciencesconf.org/conference/succes2015/C_cavet.pdf - Cloud technology for algorithm preservation, Atelier PREDONx, Laboratoire APC, Paris, 5 – 6 Novembre 2014.
https://indico.cern.ch/event/338461/session/3/contribution/5/material/slides/0.pdf
- Retour d’expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales, École informatique IN2P3 2014 : Maîtriser le Cloud, Centre Jean Bosco / Centre de calcul de l’IN2P3, Lyon, 1 – 5 Juillet 2014.
https://indico.in2p3.fr/getFile.py/access?contribId=37&sessionId=22&resId=0&
materialId=slides&confId=9852
https://hal.archives-ouvertes.fr/hal-01132587
- Big Data : utilisation d’un cluster Hadoop, Atelier Big Data du LabEx UnivEarths, FACe, Paris, 14 Janvier 2014.
http://www.apc.univ-paris7.fr/~beckmann/common/Cavet_BigData_01_14.pdf
- Tests de SlipStream au LAL et au CC-IN2P3 : vers la fédération du Cloud Computing, Rencontres France-Grilles – LCG-France, CC-IN2P3, Lyon, 26 – 28 Novembre 2013.
https://indico.in2p3.fr/getFile.py/access?contribId=20&sessionId=3&resId=0&
materialId=slides&confId=8867
https://hal.archives-ouvertes.fr/hal-01132540
- Vers une fédération de Cloud académique dans France Grilles, Journées SUCCES, IPGP, Paris, 13 – 14 Novembre 2013.
http://succes2013.sciencesconf.org/conference/succes2013/FG_Cloud_20131112.pdf
- Flexible Data Processing Solutions for Space Missions, SCIOPS, ESAC, Madrid, Espagne, 10 – 13 Septembre 2013.
http://www.rssd.esa.int/SYS/CONF2013/include/SCIOPS2013/docs/presentations/
20130912-0930-Beckmann_Flexible_SDC_SciOps2013.pdf - Utilisation de StratusLab dans le cadre des applications astroparticules à l’APC, Rencontre LCG-France, LLR, Palaiseau, 28 Mai 2013.
https://indico.in2p3.fr/getFile.py/access?contribId=44&sessionId=5&resId=0&
materialId=slides&confId=8140
https://hal.archives-ouvertes.fr/hal-01132552
- Retour d’expérience d’utilisation d’un Cloud en Astrophysique : le projet BOSS, Journées Clouds pour le Calcul Scientifique, LAL, Orsay, 27 Novembre 2012.
http://indico2.lal.in2p3.fr/indico/getFile.py/access?contribId=8&sessionId=0&
resId=0&materialId=slides&confId=1897
- Utilisation du Cloud Computing de type IaaS («Infrastructure-as-a-Service) : tests de clusters virtuels dans le cadre d’applications astroparticules, 8ème Journées Informatique de l’IN2P3 – IRFU, La Londe Les Maures, 22 – 25 Octobre 2012.
https://indico.in2p3.fr/getFile.py/access?contribId=4&sessionId=13&resId=0&
materialId=slides&confId=6514
3. Posters
- Docker for space missions, Journées nationales du Développement Logiciel, Marseille, 4 – 7 Juillet 2017
http://devlog.cnrs.fr/_media/jdev2017/poster_jdev2017_dockerspatial_cecile_
cavet.pdf?id=jdev2017%3Aposters&cache=cache - Docker for space missions, EGI Conference and INDIGO Summit 2017, Catane, Italie, 9 – 12 Mai 2017
https://indico.egi.eu/indico/event/3249/contribution/0/material/poster/0.pdf
- A proto-data processing centre, 11th International LISA Symposium, Irchel Campus of University
of Zurich, Zurich, Suisse, 5 – 9 Septembre, 2016
http://www.physik.uzh.ch/events/lisa2016/uploads/082/poster_lisa_16.pdf - Hadoop on the Cloud : the SlipStream deployment tool, Journées nationales du Développement Logiciel, INP – ENSEIRB-MATMECA, Bordeaux, 30 Juin – 3 Juillet 2015.
http://devlog.cnrs.fr/_media/jdev2015/poster_jdev15_hadooponcloud_cecile_cavet.
pdf?id=jdev2015%3Aposters&cache=cache - Hadoop on the Cloud : the SlipStream deployment tool, EGI Conference, Lisbon, Portugal, 18 – 22 May 2015.
http://indico.egi.eu/indico/contributionDisplay.py?contribId=0&confId=2443
- Cloud computing for Astroscience applications, École d’automne du Labex UnivEarthS, Villa Finaly, Florence, Italie, 27 – 31 Octobre 2014.
https://hal.archives-ouvertes.fr/hal-01132523
4. Tutoriels
- Interfaces PaaS, Formation Utilisateur FG-Cloud, CC-IN2P3, Lyon, 27 – 29 Avril 2016.
https://indico.in2p3.fr/event/12720/session/8/contribution/14/material/slides/0.
pdf
- Hadoop hands-on : using MapReduce / Spark on the cloud, Workshop distributed computing in astrophysics, FACe, APC, Paris, 10 – 11 Décembre 2015.
https://indico.in2p3.fr/event/12042/contribution/7/material/slides/0.pdf
- SlipStream : un outil de déploiement automatique pour le cloud fédéré France Grilles, Démonstration, Journées SUCCES, IPGP, Paris, 5 – 6 Novembre 2015.
http://webcast.in2p3.fr/videos-demonstration_slipstream
- TP développeurs : introduction et présentation, École informatique IN2P3 2014 : Maîtriser le Cloud, Centre Jean Bosco / Centre de calcul de l’IN2P3, Lyon, 1 – 5 Juillet 2014.
https://indico.in2p3.fr/contributionDisplay.py?sessionId=23&contribId=9&confId=
9852
- Hands-on tutorial on StratusLab Cloud, Laboratoire APC, Paris, 31 Mai 2013.
http://www.apc.univ-paris7.fr/FACe/content/tutoriel-cloud-sur-stratuslab
Autres activités
Valorisation
- Lettre informatique de l’IN2P3, n34, Juillet 2016.
http://informatique.in2p3.fr/li/spip.php?article440
- Interview France Grilles chercheur-ingénieur
http://idgc.in2p3.fr/fr/e-toiles/cecile-cavet-et-antoine-petiteau/ - Lettre informatique de l’IN2P3, n32, Novembre 2015.
http://informatique.in2p3.fr/li/spip.php?article405
- Wiki du Centre François Arago (FACe) sur le Cloud computing.
https://www.apc.univ-paris7.fr/FACeWiki/pmwiki.php?n=Cloud.Cloud
- LabEx UnivEarths (WP V1) : Diffusion des données, visualisation et nuage informatique.
http://www.univearths.fr/fr/projets-du-labex-univearths/projet-valorisation/v1-diffusion-des-donnees-visualisation-et-nuage-informatique/
Diffusion
- PREDON book : Scientific Data Preservation, document de synthèse, 2015.
- PREDON book : Scientific Data Preservation, document de synthèse, 2014.
https://martwiki.in2p3.fr/twiki/pub/PREDON/WebHome/PREDON-VECTO-BD.pdf
http://hal.in2p3.fr/in2p3-00959072
Projets
- MLDC-webapp : application Web basée sur le framework Django pour le Mock LISA Data challenge (code source et documentation sur dépôt Git : https ://gitlab.in2p3.fr/elisadpc/elisadpctools)
- Pyraeus : outils en Python pour la reconstruction des décalages spectraux photométriques des Galaxies (code source sur dépôt Git : https ://gitlab.in2p3.fr/photoz/photoz ; documentation en ligne : http ://www.apc.univ-paris7.fr/ lejeune/pyraeus/html/index.html).
- Conteneurs (Docker, Singularity) pour le HPC, Activités et vision pour le domaine HTC / HPC, Siège social du CNRS, Paris, 22 Février, 2017