Atelier Scientifique Vilgénis
Des datas pour #pollubike
Pour cette étude nous allons utiliser R.
1) On trie les données :
par Pollubike, on nomme PBK la variable. PBK001, PBK002, PBK003, PBK004
par période, on nomme la variable confin. avant, pendant, apres
par particules grossières PM10 et PM25 (Rappel ce sont des particules de plus de 1 et 2,5 microns)

3) Corrélation des deux types de particlues ?
Spearman's rank correlation rho
data: PM10 and PM25
S = 2.5665e+11, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.5921078
Qu'est ce Spearman : La corrélation de Spearman est étudiée lorsque deux variables statistiques semblent corrélées sans que la relation entre les deux variables soit de type affine. Elle consiste à trouver un coefficient de corrélation, non pas entre les valeurs prises par les deux variables mais entre les rangs de ces valeurs. Elle estime à quel point la relation entre deux variables peut être décrite par une fonction monotone. S'il n'y a pas de données répétées, une corrélation de Spearman parfaite de +1 ou -1 est obtenue quand l'une des variables est une fonction monotone parfaite de l'autre.
4) Si on ne s'intéresse à la corrélation qu'avant le confinement ?
> cor.test(PM10[Confin=="Avant"],PM25[Confin=="Avant"])
Pearson's product-moment correlation
Pearson's ?
In statistics, the Pearson product-moment correlation coefficient (PPMCC), or the bivariate correlation, is a measure of linear correlation between two sets of data. It is the covariance of two variables, divided by the product of their standard deviations; thus it is essentially a normalised measurement of the covariance, such that the result always has a value between -1 and 1. As with covariance itself, the measure can only reflect a linear correlation of variables, and ignores many other types of relationship or correlation. As a simple example, one would expect the age and height of a sample of teenagers from a high school to have a Pearson correlation coefficient significantly greater than 0, but less than 1 (as 1 would represent an unrealistically perfect correlation).
data: PM10[Confin == "Avant"] and PM25[Confin == "Avant"]
t = 40.078, df = 7896, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3926522 0.4293084
sample estimates:
cor
0.4111465
5) On regarde de plus près la corrélation PM10/PM25 pour le PBK004 avant le confinement On le fera plutôt avec PBK2
Spearman's rank correlation rho
data: PM10[Confin == "Avant" & PBK == "PBK004"] and PM25[Confin == "Avant" & PBK == "PBK004"]
S = 24607940, p-value < 2.2e-16
alternative hypothesis: true rho is greater than 0
sample estimates:
rho
0.6060677
les p-valeurs sont toutes très faibles : les mesures PM10 et PM25 sont toujours significativement (positivement) corrélées
2) On exprime PM 25 en fonction de PM10
Une couleur par PBK :
bleu pour le 1, rouge pour le 2, vert pour le 3 et orange pour le 4.

6) Comparaison des moyennes des PM10 de PBK001 et PBK 002
Welch Two Sample t-test
En statistique, le test t de Welch est une adaptation du test t de Student. Il peut être utilisé notamment pour tester statistiquement l’hypothèse d’égalité de deux moyennes avec deux échantillons de variances inégales. I
data: PM10[PBK == "PBK001"] and PM10[PBK == "PBK002"]
t = 7.3248, df = 5006.5, p-value = 1.387e-13
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
7.039259 Inf
sample estimates:
mean of x mean of y
50.01429 40.93605
p-valeur 1.4e-13: la moyenne de PM10 pour PBK001 est significativement supérieure à la moyenne de PM10 pour PBK002
> # continue vs discrete : différences en localisation
Wilcoxon rank sum test with continuity correction
data: PM10[PBK == "PBK001"] and PM10[PBK == "PBK002"]
W = 12659478, p-value < 2.2e-16
alternative hypothesis: true location shift is greater than 0
p-valeur faible : le test non-paramétrique confirme (mieux car les données son très déséquilibrées à droite (valeurs extrêmes))
7) Comparaison des moyennes des PM10 de PBK001 et PBK 002
Two-sample Kolmogorov-Smirnov test
data: PM10[PBK == "PBK001"] and PM10[PBK == "PBK002"]
D^- = 0.26006, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies below that of y
p-valeur faible, la première fonction de répartition est au-dessous, donc les valeurs sont supérieures en distribution, ce qui est cohérent
p-valeur faible: il y a des différences significatives en moyenne
8) Influence du confinement sur nos PBK 2 , c'est celui qui a le plus de valeurs
Welch Two Sample t-test
data: PM10[PBK == "PBK002" & Confin == "Avant"] and PM10[PBK == "PBK002" & Confin == "Pendant"]
t = -7.4526, df = 5757.3, p-value = 5.252e-14
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -8.172032
sample estimates:
mean of x mean of y
36.25312 46.74009
p-valeur 5.2e-14: la moyenne de PM10 pour PBK002 Avant est significativement inférieure à la moyenne de PM10 pour PBK002 Pendant
9) Afin de voir à quoi est du l'écart entre les deux moyennes.
Wilcoxon rank sum test with continuity correction
data: PM10[PBK == "PBK002" & Confin == "Avant"] and PM10[PBK == "PBK002" & Confin == "Pendant"]
W = 3996969, p-value = 0.3737
alternative hypothesis: true location shift is less than 0
p-valeur 0.37 : le test non-paramétrique conclut au contraire: pas de différence significative. Cela signifie que la différence en moyenne était due aux valeurs extrêmes
Two-sample Kolmogorov-Smirnov test
data: PM10[PBK == "PBK002" & Confin == "Avant"] and PM10[PBK == "PBK002" & Confin == "Pendant"]
D^+ = 0.10793, p-value = 8.229e-15
alternative hypothesis: the CDF of x lies above that of y
p-valeur faible, la première fonction de répartition est au-dessus, donc les valeurs sont supérieures en distribution, ce qui est cohérent avec le premier résultat
Welch Two Sample t-test
data: log(PM10[PBK == "PBK002" & Confin == "Avant"]) and log(PM10[PBK == "PBK002" & Confin == "Pendant"])
t = -1.0326, df = 5505, p-value = 0.1509
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf 0.01894373
sample estimates:
mean of x mean of y
3.022517 3.054450
p-valeur = 0.15, pas de différence significative. Ceci confirme que les différences observées sont principalement dues aux valeurs extrêmes.