En statistique, une valeur aberrante ou « outlier » est une donnée qui s'écarte très loin de toute autre donnée au sein d'un échantillon ou d'un ensemble de données (l'ensemble de données est appelé données). Souvent, une valeur aberrante dans un ensemble de données peut servir d'avertissement au statisticien d'une anomalie ou d'une erreur expérimentale dans les mesures prises, ce qui pourrait conduire le statisticien à supprimer la valeur aberrante de l'ensemble de données. Si le statisticien supprime les valeurs aberrantes de l'ensemble de données, les conclusions tirées de l'étude peuvent être très différentes. Par conséquent, savoir comment calculer et analyser les valeurs aberrantes est très important pour assurer la bonne compréhension d'un ensemble de données statistiques.
Étape
Étape 1. Apprenez à identifier les données potentiellement aberrantes
Avant de décider de supprimer ou non les datums aberrants de l'ensemble de datums, nous devons bien entendu identifier les datums susceptibles de devenir aberrants. En général, une valeur aberrante est une donnée qui s'écarte très loin des autres données d'un jeu de données, en d'autres termes, une valeur aberrante est « en dehors » des autres données. Il est généralement facile de détecter des valeurs aberrantes dans un tableau de données ou (en particulier) un graphique. Si un ensemble de références est décrit visuellement à l'aide d'un graphique, la référence aberrante semblera être "très éloignée" des autres références. Si, par exemple, la plupart des références d'un jeu de références forment une ligne droite, la référence aberrante ne sera pas raisonnablement interprétée comme formant cette ligne.
Regardons un ensemble de données représentant les températures de 12 objets différents dans une pièce. Si 11 objets ont une température d'environ 70 Fahrenheit (21 degrés Celsius), mais que le 12e objet, un four, a une température de 300 Fahrenheit (150 degrés Celsius), on peut voir immédiatement que la température du four est très susceptible d'être une valeur aberrante
Étape 2. Disposez les références dans un ensemble de références du plus bas au plus élevé
La première étape du calcul des valeurs aberrantes dans un jeu de références consiste à trouver la médiane (valeur médiane) de ce jeu de références. Cette tâche devient très simple si les références d'un ensemble de références sont disposées du plus petit au plus grand. Donc, avant de continuer, organisez les références dans un tel jeu de références.
Continuons l'exemple ci-dessus. Il s'agit de notre jeu de données représentant les températures de plusieurs objets dans une pièce: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Si nous rangeons les datums du plus bas au plus haut, l'ordre des datums devient: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Étape 3. Calculez la médiane de l'ensemble de référence
La médiane d'un jeu de références est une référence où l'autre moitié de la référence est au-dessus de cette référence et la moitié restante est en dessous. Si le nombre de références dans un jeu de références est impair, il est très facile à trouver: la médiane est la référence qui a le même nombre au-dessus et en dessous. Cependant, si le nombre de références dans l'ensemble de références est pair, alors, comme aucune référence ne correspond au milieu, les 2 références au milieu sont moyennées pour trouver la médiane. Il convient de noter que, lors du calcul des valeurs aberrantes, la médiane est généralement affectée de la variable Q2-ni car Q2 est compris entre Q1 et Q3, le quartile inférieur et supérieur, dont nous parlerons plus tard.
- A ne pas confondre avec un jeu de références où le nombre de références est pair - la moyenne des 2 références centrales renvoie souvent un nombre qui n'est pas dans le jeu de références lui-même - ce n'est pas grave. Cependant, si les 2 références médianes sont le même nombre, la moyenne, bien sûr, sera également le même nombre, ce qui est également très bien.
- Dans l'exemple ci-dessus, nous avons 12 références. Les 2 références médianes sont respectivement les 6ème et 7ème références-70 et 71. Ainsi, la médiane de notre jeu de références est la moyenne de ces 2 nombres: ((70 + 71) / 2), = 70.5.
Étape 4. Calculez le quartile inférieur
Cette valeur, que nous donnons à la variable Q1, est la donnée qui représente 25 pour cent (ou un quart) des données. En d'autres termes, c'est le datum qui coupe en deux les datums inférieurs à la médiane. Si le nombre de datums en dessous de la médiane est pair, vous devez à nouveau faire la moyenne des 2 datums du milieu pour trouver Q1, tout comme vous le feriez pour trouver la médiane elle-même.
Dans notre exemple, il y a 6 références situées au-dessus de la médiane et 6 références situées en dessous de la médiane. Cela signifie que, pour trouver le quartile inférieur, nous devrons faire la moyenne des 2 références au milieu des 6 références en dessous de la médiane. Les 3e et 4e points de référence des 6 points de référence en dessous de la médiane sont tous les deux de 70. Ainsi, la moyenne est ((70 + 70) / 2), = 70. 70 devient notre Q1.
Étape 5. Calculez le quartile supérieur
Cette valeur, que nous donnons à la variable Q3, est la donnée sur laquelle il y a 25 pour cent des données dans le jeu de données. Trouver Q3 est à peu près la même chose que trouver Q1, sauf que, dans ce cas, nous regardons les références au-dessus de la médiane, pas en dessous de la médiane.
Poursuivant notre exemple ci-dessus, les 2 références au milieu des 6 références au dessus de la médiane sont 71 et 72. La moyenne de ces 2 références est ((71 + 72)/2), = 71, 5. 71, 5 étant notre Q3.
Étape 6. Trouvez la distance interquartile
Maintenant que nous avons trouvé Q1 et Q3, nous devons calculer la distance entre ces deux variables. La distance de Q1 à Q3 est trouvée en soustrayant Q1 de Q3. Les valeurs que vous obtenez pour les distances interquartiles sont très importantes pour définir les limites des références non aberrantes dans votre jeu de références.
- Dans notre exemple, nos valeurs de Q1 et Q3 sont 70 et 71, 5. Pour trouver la distance interquartile, on soustrait Q3 - Q1 = 71,5 - 70 = 1, 5.
- Il convient de noter que cela est également vrai même si Q1, Q3 ou les deux sont des nombres négatifs. Par exemple, si notre valeur Q1 était de -70, notre distance interquartile correcte serait 71,5 - (-70) = 141, 5.
Étape 7. Trouvez le « guide intérieur » dans le jeu de références
Les valeurs aberrantes sont trouvées en vérifiant si la donnée se situe dans les limites numériques appelées « clôture intérieure » et « barrière extérieure ». Une donnée qui tombe à l'extérieur de la clôture intérieure de l'ensemble de références est appelée « valeur aberrante mineure », tandis qu'une donnée qui tombe à l'extérieur de la clôture extérieure est appelée « valeur aberrante majeure ». Pour trouver la clôture intérieure dans votre jeu de références, multipliez d'abord la distance interquartile par 1, 5. Ensuite, ajoutez le résultat par Q3 et soustrayez-le également de Q1. Les deux valeurs que vous obtenez sont les limites intérieures de la clôture de votre jeu de références.
-
Dans notre exemple, la distance interquartile est (71,5 - 70) ou 1,5. Multipliez 1,5 par 1,5, ce qui donne 2,25. Nous ajoutons ce nombre à Q3 et soustrayons Q1 de ce nombre pour trouver les limites de la clôture intérieure comme suit:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Ainsi, les limites de notre clôture intérieure sont 67, 75 et 73, 75.
-
Dans notre ensemble de références, seule la température du four, 300 degrés Fahrenheit, est en dehors de ces limites et cette donnée est donc une valeur aberrante mineure. Cependant, nous n'avons toujours pas calculé si cette température est une valeur aberrante majeure, alors ne sautez pas aux conclusions avant d'avoir fait nos calculs.
Étape 8. Trouvez la « clôture extérieure » dans le jeu de références
Cela se fait de la même manière que pour trouver la clôture intérieure, sauf que la distance interquartile est multipliée par 3 au lieu de 1,5. Le résultat est ensuite ajouté à Q3 et soustrait de Q1 pour trouver les limites supérieure et inférieure de la clôture extérieure.
-
Dans notre exemple, multiplier la distance interquartile par 3 donne (1, 5 x 3), ou 4, 5. On retrouve les limites de la clôture extérieure de la même manière que précédemment:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Les limites de la clôture extérieure sont 65,5 et 76.
-
Les références qui se trouvent à l'extérieur de la limite de la clôture extérieure sont appelées valeurs aberrantes majeures. Dans cet exemple, la température du four, 300 degrés Fahrenheit, est clairement à l'extérieur de la clôture extérieure, donc cette donnée est « définitivement » une valeur aberrante majeure.
Étape 9. Utilisez un jugement qualitatif pour déterminer s'il faut ou non « rejeter » la donnée aberrante
En utilisant la méthode décrite ci-dessus, il peut être déterminé si une donnée est une donnée mineure, une donnée majeure ou pas du tout une donnée aberrante. Cependant, ne vous y trompez pas: trouver une donnée comme valeur aberrante marque uniquement cette donnée comme un « candidat » à supprimer de l'ensemble de données, et non comme une donnée qui « devrait » être rejetée. La "raison" qui fait qu'une donnée aberrante s'écarte des autres références d'un jeu de références est très importante pour déterminer s'il faut l'écarter ou non. En général, une valeur aberrante causée par une erreur de mesure, d'enregistrement ou de planification expérimentale, par exemple, peut être rejetée. D'un autre côté, les valeurs aberrantes qui ne sont pas causées par une erreur et qui indiquent de nouvelles informations ou tendances qui n'avaient pas été prédites auparavant ne sont généralement « pas » rejetées.
- Un autre critère à considérer est de savoir si la valeur aberrante a un effet important sur la moyenne d'un ensemble de données, c'est-à-dire si la valeur aberrante la confond ou la fait paraître fausse. Ceci est très important à considérer si vous avez l'intention de tirer des conclusions à partir de la moyenne de votre ensemble de données.
-
Étudions notre exemple. Dans cet exemple, puisqu'il semble « hautement » improbable que le four ait atteint 300 degrés Fahrenheit par des forces naturelles imprévisibles, nous pouvons conclure avec presque certitude que le four a été accidentellement laissé allumé, entraînant une anomalie de référence de température élevée. De plus, si nous ne supprimons pas les valeurs aberrantes, notre moyenne d'ensemble de données est (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheit (32 degrés Celsius), tandis que la moyenne si nous supprimons les valeurs aberrantes est (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 degrés Celsius).
Étant donné que ces valeurs aberrantes ont été causées par une erreur humaine et parce qu'il serait incorrect de dire que la température ambiante moyenne atteint près de 90 degrés Fahrenheit (32 degrés Celsius), nous ferions mieux de choisir de « jeter » nos valeurs aberrantes
Étape 10. Connaître l'importance (parfois) de maintenir les valeurs aberrantes
Bien que certaines valeurs aberrantes doivent être supprimées de l'ensemble de données car elles provoquent des erreurs et/ou rendent les résultats inexacts ou erronés, certaines valeurs aberrantes doivent être conservées. Si, par exemple, une valeur aberrante semble être acquise naturellement (c'est-à-dire non le résultat d'une erreur) et/ou offre une nouvelle perspective sur le phénomène étudié, la valeur aberrante ne doit pas être supprimée de l'ensemble de données. La recherche scientifique est généralement une situation très sensible en ce qui concerne les valeurs aberrantes - une suppression incorrecte des valeurs aberrantes peut signifier la suppression d'informations indiquant une nouvelle tendance ou découverte.