-
Notifications
You must be signed in to change notification settings - Fork 14
/
journee_2016_04.html
87 lines (85 loc) · 5.72 KB
/
journee_2016_04.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
---
layout: default
no_sidebar: true
title: 7 avril 2016 - 9ième Journée LoOPS
navbar-events: active
---
<p>
La neuvième journée de rencontres et d'échanges organisée
par le réseau LoOPS aura lieu le <strong>jeudi 7 avril 2016</strong> au
<a href="http://projets.lal.in2p3.fr/www-v2/8/spip.php?rubrique257">LAL Grand Amphi - Salle 203 (ateliers)</a>. Elle aura pour thème:
</p>
<center>
<p><strong> Apache Spark : la distribution de calculs selon Hadoop
</strong></p>
</center>
<p>
<i>
Journée LoOPS soutenue par le réseau national de développeurs <a href="http://devlog.cnrs.fr/">DevLOG</a>.
</i>
</p>
<p>
Merci à nos intervenants : Julien Nauroy (DI, U-PSUD), Prosper Burq (CMAP Polytechnique), Maryan Morel (CMAP Polytechnique), André Schaaff (CDS Strasbourg)
</p>
<h2>Programme</h2>
<ul>
<li><strong>9h00-9h30</strong> Accueil</li>
<li><strong>9h30-10h10</strong> Le paradigme MapReduce - J. Nauroy [Présentation: <a href="presentations/9ieme_journee/PresentationMapReduce.pdf">PDF</a>]</li>
<li><strong>10h10-10h45</strong> Présentation de <a href="https://spark.apache.org">Spark</a> - J. Nauroy [Présentation: <a href="presentations/9ieme_journee/PresentationSpark.pdf">PDF</a>]</li>
<li><strong>10h45-11h00</strong> REX : Architectures Matérielles (retour Hardware) - P. Burq [Présentation: <a href="presentations/9ieme_journee/BigDataetInfrastructures.pdf">PDF</a>]</li>
<li><strong>11h00-11h20</strong> Pause </li>
<li><strong>11h20-11h50</strong> REX : Ecosystème - P. Burq [Présentation: <a href="presentations/9ieme_journee/BigDataetInfrastructures.pdf">PDF</a>]</li>
<li><strong>11h50-12h20</strong> REX : Machine Learning with Spark - M. Morel [Présentation: <a href="presentations/9ieme_journee/REX-MachineLearningwithSpark.pdf">PDF</a>]</li>
<li><strong>12h20-12h45</strong> REX : Application en Astrophysique : Cross Match de catalogues de sources - A. Schaaff [Présentation: <a href="presentations/9ieme_journee/Loops-9eme-Spark-CDS-final.pdf">PDF</a>]</li>
<li><strong>12h45-13h45</strong> Déjeuner </li>
<li><strong>13h45-15h00</strong> Atelier Spark Tronc Commun - J. Nauroy</li>
<li><strong>15h00-15h15</strong> Pause </li>
<li><strong>15h15-17h30</strong> Atelier Spark avancé - J. Nauroy [TP: <a href="presentations/9ieme_journee/TPSpark.tar">Exercices</a>] [TP: <a href="presentations/9ieme_journee/TPSparkSoluce.tar">Solutions</a>]</li>
<li>ou</li>
<li><strong>15h15-17h30</strong> Atelier Machine Learning - M. Morel [TP: <a href="https://github.com/MaryanMorel/LOOPS_ML_practical">Github</a>]</li>
<li><strong>17h30-17h45</strong> Bilan et discussions </li>
</ul>
<h2>Videos des présentations</h2>
<a href="http://webcast.in2p3.fr/events-journee_loops">Les 6 vidéos</a>
<h2>Détail des interventions</h2>
<uli>
Durant la matinée, vous découvrirez le paradigme de distribution MapReduce, qui est à la base de la majorité des outils estampillés Hadoop et Big Data.
Vous seront ensuite présentés le framework Apache Spark, qui se libère de l'aspect "Big Data" pour offrir un modèle de distribution de calculs beaucoup plus générique, ainsi qu'un retour d'expérience de l'utilisation de Spark en laboratoire.
Des retours d'expériences vous seront donnés sur les architectures matérielles, l'écosystème (vendeurs commerciaux qui distribuent la solution Open-Source, projets apache connexes et grands acteurs du milieu), l'utilisation des librairies de Machine learning ainsi que sur l'application de Spark pour résoudre une problématique en astrophysique.
<br>
<br>
L'après-midi, un atelier vous permettra de réaliser vos premiers programmes en Spark, vous permettant de distribuer de façon extrêmement simple vos calculs et vos données sur un cluster.
<br>
Vous aurez ensuite la possibilité de choisir un atelier Machine Learning, ou bien de continuer avec des exercices de complexité croissante vous amenant à manipuler la plupart des primitives de Spark.
<br>
<br>
S’agissant du TP de ML, il est très largement basé sur l’exercice du <a href="http://ampcamp.berkeley.edu/5/exercises/movie-recommendation-with-mllib.html">AMPCAMP 5</a>.
</ul>
<h2>Installation soft pour l'atelier</h2>
<p>
Deux options s'offrent à vous pour préparer l'atelier :
<br>
<br>
- Si vous êtes référencé-e dans l'annulaire Adonis de Paris-Sud, vous pouvez demander un compte d'accès à la plate-forme Hadoop à l'adresse suivante : <a href="http://www.informatique-scientifique.u-psud.fr/">Compte accès plate-forme</a>
<br>
Le formulaire d'inscription est dans la section "Demander un compte". Cet accès vous permettra d'utiliser la plate-forme à l'issue de la formation sans limite de temps.
<br>
Pour les personnes non enregistrées dans l'annuaire, un compte temporaire à cette plate-forme vous sera fourni le jour de la formation. Il restera valide quelques jours seulement.
<br>
<br>
- Si vous souhaitez installer Hadoop sur votre machine, le plus simple est de télécharger l'image de la distribution Cloudera via l'adresse suivante : <a href="http://www.cloudera.com/downloads/quickstart_vms/5-5.html">Cloudera Distribution</a>
Télécharger CDH 5.5.
<br>
Vous aurez également besoin de télécharger des données utilisées dans le TP à l'adresse suivante : <a href="http://www.informatique-scientifique.u-psud.fr/Hadoop/ncdc.zip">Données TP_Spark Avancé</a>
<br>
Pour le TP Machine Learning, c'est ici : <a href="http://grouplens.org/datasets/movielens/ ">Données TP_Machine Learning</a>
</p>
<h2>Inscriptions</h2>
<p>
L'inscription est <b>gratuite mais obligatoire</b> pour nous permettre
de préparer au mieux cette journée. Veillez également à obtenir un ordre de mission
(éventuellement sans frais) auprès de votre unité ou de votre tutelle.
</p>
<p>
<a href="https://indico.lal.in2p3.fr/event/3137/registration/register#/register">Formulaire</a>.
</p>