Maintenant, on change un peu la formule
- Les R Projects demeurent.
- Au lieu de travailler dans des R scripts, nous allons travailler dans des fichiers R Markdown.
Notre cerveau peut nous jouer des tours quand on regarde des graphiques (Healy 2018). - L’oeil humain ne voit pas toutes les formes, couleurs et contrastes aussi efficacement les uns que les autres. - Certaines tendances de la cognition peuvent nous permettre de comprendre pourquoi c’est le cas.
Healy (et Arel-Bundock, 2020) décrit certaines tendances de la cognition (“Gestalt principles”) qui peuvent affecter notre interprétation des éléments visuels:
Un des plus grands du domaine de la visualisation des données, Edward Tufte, souligne quatre principes fondamentaux de la visualisation:
Il est possible de suivre certains guides pour s’inspirer, comme:
Voir le livre.
Voir ici.
Voir ici.
ici.
mean()
ou read_csv()
par exemple.install.packages()
. On ajoute le nom du paquet entre guillemets.library()
.install.packages()
, c’est comme si vous étiez allé.e acheter un livre (le package en question).library()
).tidyverse
.dplyr
, qui est très utile pour manipuler les banques de données et ggplot2
, qui sert à créer des graphiques.%>%
.
select()
permet de sélectionner des variables (colonnes).filter()
permet de sélectionner des observations (lignes).mutate()
permet d’ajouter des variables.recode()
permet de recoder une variable existante.mutate()
.##
## Quebec Mississippi
## 42 42
ifelse()
est aussi très utile pour recoder des variables.as.numeric()
, as.character()
, as.factor()
, etc. permettent de faire cela.## [1] "numeric"
## [1] "character"
group_by()
permet de faire groupes.##
## nonchilled chilled
## 42 42
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.70 17.90 28.30 27.21 37.12 45.50
## # A tibble: 2 × 2
## Treatment moyenne
## <fct> <dbl>
## 1 nonchilled 30.6
## 2 chilled 23.8
## # A tibble: 2 × 2
## Treatment somme
## <fct> <dbl>
## 1 nonchilled 1287
## 2 chilled 999.
iris
, qui se trouve de facto dans R, dans un objet nommé banque
.mutate()
et recode()
, recodez la variable Species
pour que la catégorie setosa
se nomme Setosa
. Enregistrez cette nouvelle banque de données dans un objet nommé nouvelle_banque
.select()
, supprimez la variable Sepal.Length
de nouvelle_banque
.Petal.Length
pour chaque groupe de la variable Species
. Appelez ce total total_petal
.iris
, qui se trouve de facto dans R, dans un objet nommé banque
.mutate()
et recode()
, recodez la variable Species
pour que la catégorie setosa
se nomme Setosa
et que la catégorie versicolor
se nomme Versicolor
. Enregistrez cette nouvelle banque de données dans un objet nommé nouvelle_banque
.##
## setosa versicolor virginica
## 50 50 50
select()
, supprimez la variable Sepal.Length
de nouvelle_banque
.Petal.Length
pour chaque groupe de la variable Species
. Appelez ce total total_petal
.nouvelle_banque = nouvelle_banque %>%
group_by(Species) %>%
summarise(total_petal = sum(Petal.Length)) %>%
ungroup()
nouvelle_banque
## # A tibble: 3 × 2
## Species total_petal
## <fct> <dbl>
## 1 Setosa 73.1
## 2 Versicolor 213
## 3 virginica 278.
Appuyez sur le bouton “knit”.
Comment choisir le bon type de graphique?
Il n’y a pas de règles strictes pour choisir le bon type de graphique. Or, il aide de se poser les questions suivantes: