Etude statistique | ateliersiencesvilge

Des datas pour #pollubike

Pour cette étude nous allons utiliser R.

1) On trie les données :

par Pollubike, on nomme PBK la variable. PBK001, PBK002, PBK003, PBK004

par période, on nomme la variable confin. avant, pendant, apres

par particules grossières PM10 et PM25 (Rappel ce sont des particules de plus de 1 et 2,5 microns)

Capture d’écran 2021-02-23 à 15.00.28.

3) Corrélation des deux types de particlues ?

Spearman's rank correlation rho

data: PM10 and PM25
S = 2.5665e+11, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.5921078

Qu'est ce Spearman : La corrélation de Spearman est étudiée lorsque deux variables statistiques semblent corrélées sans que la relation entre les deux variables soit de type affine. Elle consiste à trouver un coefficient de corrélation, non pas entre les valeurs prises par les deux variables mais entre les rangs de ces valeurs. Elle estime à quel point la relation entre deux variables peut être décrite par une fonction monotone. S'il n'y a pas de données répétées, une corrélation de Spearman parfaite de +1 ou -1 est obtenue quand l'une des variables est une fonction monotone parfaite de l'autre.

4) Si on ne s'intéresse à la corrélation qu'avant le confinement ?
> cor.test(PM10[Confin=="Avant"],PM25[Confin=="Avant"])

Pearson's product-moment correlation

Pearson's ?

In statistics, the Pearson product-moment correlation coefficient (PPMCC), or the bivariate correlation, is a measure of linear correlation between two sets of data. It is the covariance of two variables, divided by the product of their standard deviations; thus it is essentially a normalised measurement of the covariance, such that the result always has a value between -1 and 1. As with covariance itself, the measure can only reflect a linear correlation of variables, and ignores many other types of relationship or correlation. As a simple example, one would expect the age and height of a sample of teenagers from a high school to have a Pearson correlation coefficient significantly greater than 0, but less than 1 (as 1 would represent an unrealistically perfect correlation).

data: PM10[Confin == "Avant"] and PM25[Confin == "Avant"]
t = 40.078, df = 7896, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3926522 0.4293084
sample estimates:
cor
0.4111465

5) On regarde de plus près la corrélation PM10/PM25 pour le PBK004 avant le confinement On le fera plutôt avec PBK2
Spearman's rank correlation rho

data: PM10[Confin == "Avant" & PBK == "PBK004"] and PM25[Confin == "Avant" & PBK == "PBK004"]
S = 24607940, p-value < 2.2e-16
alternative hypothesis: true rho is greater than 0
sample estimates:
rho
0.6060677

les p-valeurs sont toutes très faibles : les mesures PM10 et PM25 sont toujours significativement (positivement) corrélées

2) On exprime PM 25 en fonction de PM10

Une couleur par PBK :

bleu pour le 1, rouge pour le 2, vert pour le 3 et orange pour le 4.

Capture d’écran 2021-02-22 à 08.59.30.

6) Comparaison des moyennes des PM10 de PBK001 et PBK 002

Welch Two Sample t-test

En statistique, le test t de Welch est une adaptation du test t de Student. Il peut être utilisé notamment pour tester statistiquement l’hypothèse d’égalité de deux moyennes avec deux échantillons de variances inégales. I

data: PM10[PBK == "PBK001"] and PM10[PBK == "PBK002"]
t = 7.3248, df = 5006.5, p-value = 1.387e-13
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
7.039259 Inf
sample estimates:
mean of x mean of y
50.01429 40.93605

p-valeur 1.4e-13: la moyenne de PM10 pour PBK001 est significativement supérieure à la moyenne de PM10 pour PBK002
> # continue vs discrete : différences en localisation

Wilcoxon rank sum test with continuity correction

data: PM10[PBK == "PBK001"] and PM10[PBK == "PBK002"]
W = 12659478, p-value < 2.2e-16
alternative hypothesis: true location shift is greater than 0

p-valeur faible : le test non-paramétrique confirme (mieux car les données son très déséquilibrées à droite (valeurs extrêmes))

7) Comparaison des moyennes des PM10 de PBK001 et PBK 002

Two-sample Kolmogorov-Smirnov test

data: PM10[PBK == "PBK001"] and PM10[PBK == "PBK002"]
D^- = 0.26006, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies below that of y

p-valeur faible, la première fonction de répartition est au-dessous, donc les valeurs sont supérieures en distribution, ce qui est cohérent
p-valeur faible: il y a des différences significatives en moyenne

8) Influence du confinement sur nos PBK 2 , c'est celui qui a le plus de valeurs

Welch Two Sample t-test

data: PM10[PBK == "PBK002" & Confin == "Avant"] and PM10[PBK == "PBK002" & Confin == "Pendant"]
t = -7.4526, df = 5757.3, p-value = 5.252e-14
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -8.172032
sample estimates:
mean of x mean of y
36.25312 46.74009

p-valeur 5.2e-14: la moyenne de PM10 pour PBK002 Avant est significativement inférieure à la moyenne de PM10 pour PBK002 Pendant

9) Afin de voir à quoi est du l'écart entre les deux moyennes.

Wilcoxon rank sum test with continuity correction

data: PM10[PBK == "PBK002" & Confin == "Avant"] and PM10[PBK == "PBK002" & Confin == "Pendant"]
W = 3996969, p-value = 0.3737
alternative hypothesis: true location shift is less than 0

p-valeur 0.37 : le test non-paramétrique conclut au contraire: pas de différence significative. Cela signifie que la différence en moyenne était due aux valeurs extrêmes

Two-sample Kolmogorov-Smirnov test

data: PM10[PBK == "PBK002" & Confin == "Avant"] and PM10[PBK == "PBK002" & Confin == "Pendant"]
D^+ = 0.10793, p-value = 8.229e-15
alternative hypothesis: the CDF of x lies above that of y

p-valeur faible, la première fonction de répartition est au-dessus, donc les valeurs sont supérieures en distribution, ce qui est cohérent avec le premier résultat

Welch Two Sample t-test

data: log(PM10[PBK == "PBK002" & Confin == "Avant"]) and log(PM10[PBK == "PBK002" & Confin == "Pendant"])
t = -1.0326, df = 5505, p-value = 0.1509
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf 0.01894373
sample estimates:
mean of x mean of y
3.022517 3.054450

p-valeur = 0.15, pas de différence significative. Ceci confirme que les différences observées sont principalement dues aux valeurs extrêmes.