Statistiques descriptives : moyenne, médiane, écart-type, quartiles
Les statistiques descriptives résument une série de données par quelques indicateurs : moyenne, médiane, écart-type, quartiles. Indispensables pour interpréter sondages, résultats scolaires, séries économiques. Cet article présente les principaux indicateurs, leur calcul et leur interprétation, avec exemples concrets.
Vocabulaire de base
Une série statistique est un ensemble de valeurs numériques (les observations).
Notation : x₁, x₂, ..., x_n (n valeurs).
Exemple : notes obtenues par 8 élèves : [12, 14, 8, 16, 11, 13, 15, 10].
La moyenne
Indicateur central le plus connu :
x̄ = (x₁ + x₂ + ... + x_n) / n
Pour notre exemple : (12+14+8+16+11+13+15+10) / 8 = 99 / 8 = 12,375.
Moyenne pondérée
Si chaque valeur a un poids w_i :
x̄ = (Σ w_i × x_i) / (Σ w_i)
Utilisée pour les notes scolaires avec coefficients.
La médiane
Valeur qui sépare la série en deux moitiés égales (autant de valeurs au-dessus que en dessous).
Méthode
- Trier les valeurs par ordre croissant
- Si n impair : médiane = valeur centrale (rang (n+1)/2)
- Si n pair : médiane = moyenne des deux valeurs centrales (rangs n/2 et n/2+1)
Exemple
Notes triées : [8, 10, 11, 12, 13, 14, 15, 16] (n=8 pair).
Médiane = (12 + 13) / 2 = 12,5.
Moyenne vs médiane : quand utiliser quoi ?
La moyenne est sensible aux valeurs extrêmes. La médiane est plus robuste.
Exemple éclairant
Salaires de 5 personnes dans une entreprise : [1 800, 2 000, 2 200, 2 400, 50 000].
- Moyenne : 11 680 €
- Médiane : 2 200 €
La médiane reflète mieux la situation typique. La moyenne est tirée vers le haut par le PDG à 50 000 €.
Conseil : pour les salaires, prix de l'immobilier, ou toute distribution asymétrique, privilégier la médiane.
Le mode
Valeur la plus fréquente dans la série.
Exemple : [4, 6, 6, 7, 8, 9, 9, 9, 10]. Mode = 9 (apparaît 3 fois).
Une série peut avoir :
- Un mode (unimodale)
- Deux modes (bimodale)
- Plusieurs modes (multimodale)
- Aucun mode (toutes valeurs uniques)
Étendue, quartiles et écart interquartile
Étendue
Différence entre la plus grande et la plus petite valeur.
Exemple : [8, 10, ..., 16]. Étendue = 16 - 8 = 8.
Quartiles
Q1, Q2 (= médiane), Q3 divisent la série en 4 parties égales.
- Q1 : 25 % des valeurs sont en dessous
- Q2 : 50 % (médiane)
- Q3 : 75 % en dessous
Méthode de calcul (convention française)
Pour Q1 : rang ≥ n/4, prendre la première valeur après ce rang.
Pour Q3 : rang ≥ 3n/4.
Exemple : 8 notes
[8, 10, 11, 12, 13, 14, 15, 16]
- Q1 : rang 2 (8/4=2) → 10
- Q2 : médiane = 12,5
- Q3 : rang 6 (3×8/4=6) → 14
Écart interquartile (IQR)
IQR = Q3 - Q1 = 14 - 10 = 4.
Mesure de dispersion robuste (50 % des valeurs centrales).
La variance et l'écart-type
Variance
Moyenne des carrés des écarts à la moyenne :
V = (1/n) × Σ (x_i - x̄)²
Pour notre série :
- Écarts au carré : (12-12,375)² + (14-12,375)² + ... = 0,141 + 2,641 + 19,141 + ...
- Somme : 48,875
- Variance : 48,875 / 8 ≈ 6,11
Écart-type σ
Racine carrée de la variance :
σ = √V
Pour notre série : σ = √6,11 ≈ 2,47.
Avantage : même unité que les données originales (notes ici).
Interprétation
L'écart-type mesure la dispersion autour de la moyenne. Plus σ est grand, plus les valeurs sont dispersées.
Variance d'échantillon vs population
Distinction subtile :
- Variance de population (n) : division par n. Formule ci-dessus.
- Variance d'échantillon (n-1) : division par n-1. Utilisé quand on estime la variance d'une population à partir d'un échantillon (correction de Bessel).
En Excel : VAR.P (population), VAR.S (échantillon).
La règle des 68-95-99,7
Pour une distribution normale (cloche de Gauss) :
- ~68 % des valeurs sont dans [x̄ - σ, x̄ + σ]
- ~95 % dans [x̄ - 2σ, x̄ + 2σ]
- ~99,7 % dans [x̄ - 3σ, x̄ + 3σ]
Au-delà de 3σ : valeur « aberrante » statistiquement.
Coefficient de variation
Pour comparer la dispersion de deux séries d'échelles différentes :
CV = σ / x̄ × 100 %
Exemple : note moyenne 12 (σ=2) vs salaire moyen 30 000 € (σ=5 000).
- CV notes : 2/12 ≈ 17 %
- CV salaires : 5000/30000 ≈ 17 %
Dispersion relative similaire malgré des échelles très différentes.
Boîte à moustaches (boxplot)
Représentation graphique synthétique d'une série :
- Trait central : médiane
- Boîte : du Q1 au Q3 (50 % des valeurs)
- Moustaches : valeurs extrêmes (souvent Q1 - 1,5×IQR à Q3 + 1,5×IQR)
- Points isolés : valeurs aberrantes
Histogramme
Découper l'intervalle des valeurs en classes (intervalles égaux), compter le nombre d'occurrences dans chaque classe.
Permet de visualiser la distribution :
- Distribution normale (cloche symétrique)
- Distribution asymétrique (queue à gauche ou à droite)
- Distribution bimodale (deux pics)
- Distribution uniforme
Corrélation et coefficient de Pearson
Pour deux séries (X, Y) :
r = Σ((x_i - x̄)(y_i - ȳ)) / √(Σ(x_i - x̄)² × Σ(y_i - ȳ)²)
r ∈ [-1, 1] :
- r = 1 : corrélation positive parfaite
- r = -1 : corrélation négative parfaite
- r = 0 : aucune corrélation linéaire
Exemple
Notes en maths et en physique d'élèves : r ≈ 0,8. Forte corrélation positive — un bon élève en maths est généralement bon en physique.
Attention
Corrélation n'implique pas causalité. Deux variables corrélées peuvent dépendre d'un facteur commun (« variable confondante »).
Régression linéaire
Trouver la droite y = ax + b qui ajuste au mieux les données.
Méthode des moindres carrés : minimiser Σ(y_i - (a × x_i + b))².
Solution :
a = Σ((x_i - x̄)(y_i - ȳ)) / Σ(x_i - x̄)²
b = ȳ - a × x̄
R² = r² indique la part de variance expliquée par le modèle linéaire.
Applications
Sondages
Intervalle de confiance à 95 % :
IC = x̄ ± 1,96 × σ / √n
Pour un échantillon de 1 000 personnes, marge d'erreur typique : ±3 points de pourcentage.
Bourse
L'écart-type des rendements quotidiens mesure la volatilité d'une action ou d'un fonds.
Médecine
Comparaison d'un traitement vs placebo : tests statistiques basés sur moyennes et écarts-types.
Calculs sur la calculatrice
Pour calculer rapidement :
- Moyenne : somme / n
- Variance : Σ(x_i - x̄)² / n
- Écart-type : √variance
Notre Calculatrice scientifique permet ces calculs. Notre calculatrice de moyenne automatise les indicateurs principaux.
Conclusion
Les statistiques descriptives sont essentielles pour résumer et comparer des séries de données. Maîtriser moyenne, médiane, écart-type, et savoir choisir l'indicateur adapté à chaque situation (médiane pour les distributions asymétriques) est une compétence cruciale en sciences expérimentales, économie et data science. Pour les calculs, utilisez nos outils dédiés.
🧮 Utilisez l'outil : Calculatrice scientifique — calcul instantané avec explication pas à pas.