##
## Downloading file 1 of 1: `pumpkins.csv`
La fonction distinct()
permet de sélectionner les lignes qui ont des valeurs uniques aux colonnes spécifiées.
drop_na()
supprime les lignes qui ont des valeurs manquantes à la colonne spécifiée.
reorder()
permet de placer les éléments en ordre croissant (ou décroissant).
city
dans la banque de données citrouilles
?seed_mother
?city
?## [1] 3219
seed_mother
?## [1] 8537
stringr
Pour calculer le nombre de caractères dans un string.
## [1] 4
Détecter certaines lettres, mots, expressions, patterns.
## [1] TRUE
## [1] FALSE
citrouille3 = citrouilles %>%
mutate(festival_b = ifelse(str_detect(gpc_site, "Fest|Festival"),
1, 0))
table(citrouille3$festival_b)
##
## 0 1
## 24263 3802
Retirer des éléments d’un string.
## [1] "alo"
## [1] "ao"
Remplacer un élément d’un string par un autre.
## [1] "4llo"
## [1] "ayyo"
Extraire un élément d’un string.
## [1] "a"
## [1] NA
Mettre tout en majuscules ou en minuscules.
## [1] "ALLO"
Voir la documentation du package.
https://cran.r-project.org/web/packages/stringr/vignettes/stringr.html
id
par des barres de soulignement (_). Enregistrez le résultat dans une nouvelle variable.ott
. Enregistrez le résultat dans une nouvelle variable.id
par des barres de soulignement (_). Enregistrez le résultat dans une nouvelle variable.grower_name
) se nomme “Jack”.ott
. Enregistrez le résultat dans une nouvelle variable.Les chiffres et les lettres
# chiffres (digits)
regex = citrouilles %>%
mutate(seed_mother_n = str_remove_all(seed_mother, "\\d"),
seed_mother_n2 = str_remove_all(seed_mother, "[0-9]"))
# lettres
regex2 = citrouilles %>%
mutate(seed_mother_n = str_remove_all(seed_mother, "[aA-zZ]"),
seed_mother_n2 = str_remove_all(seed_mother, "[:alpha:]"))
“Avant” ou “après” un certain caractère
Pluriels
## [1] TRUE TRUE FALSE
“Échapper” un caractère
geom_bar()
geom_col()
geom_histogram()
geom_point()
geom_density()
geom_boxplot()
geom_violin()
Barres empilées
dat_can_united_self_open = citrouilles %>%
mutate(pollinator_father = str_to_lower(pollinator_father)) %>%
filter(str_detect(country, "Canada|United States"),
str_detect(pollinator_father, "open|self")) %>%
mutate(pollinator_father = ifelse(str_detect(pollinator_father, "self"), "self", "open"),
weight_lbs = as.numeric(weight_lbs))
Barres empilées
Barres groupées
geom_area()
geom_density_ridges
##
## 2013-F 2013-L 2013-P 2013-S 2013-T 2013-W 2014-F 2014-L 2014-P 2014-S 2014-T
## 276 163 1388 121 260 244 296 154 1543 154 258
## 2014-W 2015-F 2015-L 2015-P 2015-S 2015-T 2015-W 2016-F 2016-L 2016-P 2016-S
## 252 282 167 1626 158 279 250 269 196 1434 148
## 2016-T 2016-W 2017-F 2017-L 2017-P 2017-S 2017-T 2017-W 2018-F 2018-L 2018-P
## 290 261 255 141 1301 151 311 240 257 153 1460
## 2018-S 2018-T 2018-W 2019-F 2019-L 2019-P 2019-S 2019-T 2019-W 2020-F 2020-L
## 129 312 277 234 168 1387 135 352 236 196 158
## 2020-P 2020-S 2020-T 2020-W 2021-F 2021-L 2021-P 2021-S 2021-T 2021-W
## 1073 100 257 223 198 130 1032 89 259 201
dat_can_united = dat_can_united %>%
mutate(annee = str_remove_all(id, "[aA-zZ]|-"),
ott = as.numeric(ott))
table(dat_can_united$annee)
##
## 2013 2014 2015 2016 2017 2018 2019 2020 2021
## 2452 2657 2762 2598 2399 2588 2512 2007 1909
## [1] "character"
dat = citrouilles %>%
filter(str_detect(state_prov, "Washington|New York|Oregon|Pennsylvania")) %>%
mutate(annee = str_remove_all(id, "[aA-zZ]|-"),
annee = as.numeric(annee))
ggplot(data = dat, aes(x = annee, y = state_prov))+
geom_density_ridges(fill = "darkorange") +
scale_x_continuous(breaks = c(2011, 2013, 2015, 2017, 2019, 2021)) +
theme_minimal() +
labs(y = "",
x = "",
title = "Nombre de citrouilles participantes par année")