Atelier Scientifique Vilgénis
Test Kolmogorov- Smirnov
Présentation du test de Kolmogorov
Le test de Kolmogorov Smirnov est très utile car il fonctionne quelque soit le nombre de données (dans la limite du raisonnable)
Avant de réaliser le test pour valider des hypothèses avec Pollubike, nous allons expliquer cela à partir d'un exemple.
Généralement on réalise ce test avec une série de données et une loi (une fonction). Mais ici on comparera deux séries de test. On se permet cette erreur car une de nos série possède plus de 14000 données, donc la marche de sa courbe d’intégration est donc extrêmement petite, si bien que cette série peut être assimilé a une loi/représenter par une fonction.
Nous allons expliquer cela à partir d'un exemple
Données : 1 1 3 14 7 1 5 14 9 0 0 4Données : 3 5 4 4
On note que le nombre de données est très différent (et il pourrait l’être d’avantage ça n’aurait aucun impact sur la fiabilité du test)
Pour chacune des données :
On les met dans l’ordre croissant et on regarde la probabilité de chacun des résultats (c’est la distribution empirique)
On va établir et tracer les fonctions de répartition avec les données
Le test va regarder l’écart entre les 2 courbes d’intégration et va sélectionner la plus grande distance entre les 2 courbes. (IF-GI max) on note cette distance D
On accepte généralement 5% d’erreur qu’on notera α=0,05, notre distance D est finalement recensée dans un tableau qu’on va comparer avec une valeur « p-value » (accordé avec notre nombre de données min cette valeur nous permet de dire si le système a changé significativement (s’est amélioré ou non) (si D<p-value pas de changement, si D>p-value changement)
On a tracé les fonctions de répartition avec les données. La fonction de répartition est définie par f(x)=P(X≤x). Plus précisément dans une suite de données a n nombre et k fois le nombre x, la fonction augmentera à la valeur x de k/n.
La plus grande distance et qu’elle vaut 7/12 soit 0,583
Soit : D=583
Toujours pour 5% d’erreur, on repère pour n=4 : p-value (la distance max critique) égale à 0,624
On compare D et p value :
0,624>0,583 donc il n’y a pas de changement/ d’amélioration significative car p-value>D
En admettant qu’on ait eu d’autre mesures avec 15 valeurs min et qu’on trouvait D=0,4
0,338<0,4 donc il y a un réel changement car p-value<D
Application de ce test :
1) On se demande si l'apport du condensateur à notre Pollubike est significatif.
La orange c'est le test sans condensateur (environ 25 tests)
La bleu c'est le test après le condensateur (environ 14000)
Des les premières valeurs on voit que l'écart est très grand, donc on peut dire que l'ajout du condensateur a "transformé" la loi que suivait Pollubike. (Ça c'est ce que montre kolmogorov). Ensuite seulement on regarde nos deux courbes et on voit qu'on a des valeurs bien plus importante sur l'ajout du condensateur, MAIS SURTOUT beaucoup moins d'allumage tels que : nombre de donné = 0. Donc le condensateur a permis une valeur des données plus précise mais surtout un meilleur taux d'allumage
2) Le confinement a-t-il modifié les données de PM de notre Pollubike de manière significative.🚧
Travail de Mathieu
Le test de Kolmogorov sert à comparer deux séries de données, même si elles n’ont pas le même nombre de données. On peut comparer une série ayant 50 données avec une autres ayant 1000 données.
Pour cela on trace les deux courbes avec les fréquences cumulées des différentes séries de données.
Ensuite il faut trouver les valeurs les plus écartées des deux séries. On va nommer ce nombre « q »
Pour trouver le nombre « p » on prend le nombre de valeurs de la série qui a le moins de valeurs « N ». Comme le veux la norme, on défini notre marge d’erreur à 5%, le calcul sera alors p=1,36/sqrt(N)
Si q est supérieur à p, alors on peut constater une différence entre les deux séries : Les séries ne suivent pas la même loi. Dans le cas contraire, on ne peut pas dire qu’il y ait une réel différence entre les deux séries : Puisque la loi n’a pas changée d’une série à l’autre.
Le test de Kolmogorov nous à servi à lorsque bous voulions savoir si il y avait une réel différence entre les données de PolluBike avant le confinement (13000 valeurs, courbe rouge) et durant le confinement(650 valeurs courbe bleu). Le problème résidait sur la différence de valeur entre nos deux séries, c’est pourquoi nous avons utilisé le test de Kolmogorov Smirnov
Nous avons trouvé que la plus grande distance entre les deux courbes était de 0,61
Nous avons ensuite fait le calcul 1,36/sqrt(650). Ce calcul nous a donner 0,05 comme résultat.
Comme 0,61est supérieur à 0,05 nous en avons déduis qu’il y avait une réel différence entre les données de PolluBike durant et hors confinement.
3) Cela change-t-il quelquechose d'orienter l'ouverture de Pollubike dans le sens de roulement ou dans le sens contraire.
Hypothèse H0 :Cela ne change pas de mettre le pollubike dans un sens ou dans un autre
Il y a 450 données dans un cas et 700 dans l'autre.
L'écart est légèrement supérieur à la valeur limite. Mais vu la précision de nos mesures, nous pouvons en déduire que la position avant ou arrière ne change rien à nos mesures.