Skip to content
François edited this page Jul 5, 2015 · 36 revisions
  1. Prise en main : tout ce qu'il faut pour installer R, importer des données, les reformater avant analyse, et savoir trouver de l'aide : la base pour être capable de faire n'importe quoi sur un dataset par la suite
  2. Analyse : deux parties, non modélisée (univariée, bivariée, avec une partie statistique et une partie visualisation à chaque fois) et modélisée
  3. Avancé : tout le reste, avec des astuces, des cas d'étude

Prise en main

  • Installation
  • Où trouver de l'aide

Analyse

Partie 1. Statistiques introductives

Principes (à discuter) :
P1. mix de données micro et macro, principalement non libellées et non pondérées (sauf sur la fin)
P2. utiliser la classe data_frame pour rentabiliser l'apprentissage de dplyr ? quel bénéfice réel à ce stade ?
P3. ne rien inclure qui suppose une connaissance des distributions théoriques, laisser ça pour les deux premiers chapitres de stats. intermédiaires

  • Statistiques univariées
    • auteur(s) : fb, jl
    • données : questionr::hdv2003 (individus)
    • classe : data.frame
    • contenu : distributions (histogrammes, proportions), one-tailed tests
  • Graphiques univariés (avec R base)
    • auteur(s) : fb, jl
    • données : questionr::rp99 (communes)
    • classe : data.frame
    • contenu : distributions (kernel density, ecdf), export via R et via RStudio
  • Statistiques bivariées
    • auteur(s) : fb, jl
    • données : questionr::hdv2003
    • classe : data.frame
    • contenu : corrélation, tableaux croisés
  • Graphiques bivariés (avec R base + ggplot2) : discussion
    • auteur(s) : fb
    • données : debt (pays-années)
    • classe : data_frame (mais en fait pas nécessaire)
    • contenu : démo de ggplot2 avec geom_point, geom_line, geom_smooth, aes, scale, facet
  • Données libellées (importées via haven)
    • auteur(s) :
    • données :
    • classe :
    • contenu : exemples de factor, relevel, etc.
  • Graphiques de données libellées (avec ggplot2)
    • auteur(s) :
    • données :
    • classe :
    • contenu : graphiques de mesures nominales/ordinales
  • Données pondérées (avec survey)
    • auteur(s) : jl
    • données : questionr::hdv2003
    • classe : survey
    • contenu :
  • Graphiques d'objets pondérés (avec survey + ggplot2)
    • auteur(s) :
    • données :
    • classe :
    • contenu : geom_pointrange

Partie 2. Statistiques intermédiaires

Principes (à discuter) :
P1. faire des "paires" de chapitres
P2. utiliser broom et survey partout où c'est possible

  • Comparaisons 1. Moyennes
    • auteur(s) :
    • données :
    • classe :
    • contenu : tests paramétriques
  • Comparaisons 2. Proportions
    • auteur(s) :
    • données :
    • classe :
    • contenu : tests non paramétriques (khi-deux, odds ratios)
  • Régression 1. linéaire simple et multiple (avec lm + broom)
    • auteur(s) :
    • données :
    • classe : lm, survey
    • contenu : lm + broom, diagnostics
  • Régression 2. logistique (avec glm + broom, puis svyglm)
    • auteur(s) :
    • données :
    • classe : glm, survey
    • contenu : glm + broom, svyglm
  • Clustering 1. CA, PCA
    • auteur(s) :
    • données :
    • classe :
    • contenu : analyse de correspondances, composantes principales
  • Clustering 2. MCA
    • auteur(s) :
    • données :
    • classe :
    • contenu : variables supplémentaires

Partie 3. Statistiques avancées

  • modèles mixtes : lmer
  • modèles GEE : discussion
  • survie
  • séquences
  • séries temporelles : discussion

2 chapitres cartographie : discussion

  • carto simple
  • carto/modèles (carto/réseaux ?)

2 chapitres réseaux :

  • réseaux statiques (one-mode et two-mode)
  • réseaux/modèles
  • réseaux dynamiques : cf. extras

Extras

Astuces

  • calcul de l'âge
  • conversion de dates : discussion

Syntaxe

  • programmation de base/control flow : if/else, for/while, stopifnot/message/warning/error… : discussion
  • notation “équation”
  • utiliser reshape2 et tidyr
  • expressions régulières : discussion
  • récupération de données Web (i.e. scraping HTML/XML avec XPath + fichiers JSON) : discussion
  • data.table : discussion

Graphiques

  • diagrammes : discussion
  • exemples d'extensions ggplot2 : ggfortify (avec exemples), GGally
  • réseaux dynamiques :
    • avec Gephi + Sigma.js
    • avec R + .gif (animation)
    • avec d3 ou ndtv
  • graphiques interactifs
    • ggvis
    • Shiny : ex. l'appli "Prénoms" de Baptiste Coulmont ?
Clone this wiki locally