La régression quantile est un type de régression (c’est-à-dire de prévision) qui introduit délibérément un biais dans le résultat. Au lieu de chercher la moyenne de la variable à prédire, une régression quantile cherche la médiane et tout autre quantile (parfois appelés percentiles). Les quantiles sont particulièrement utiles pour l’optimisation des stocks en tant que méthode directe pour calculer le point de commande.
La notion de régression quantile est un sujet statistique relativement avancé, l’objectif de cet article n’est pas d’entrer dans un traitement rigoureux de ce sujet, mais plutôt de donner une introduction (relativement) intuitive au sujet pour les praticiens du commerce de détail ou de la fabrication.
Illustration visuelle des quantiles
Le graphique ci-dessus illustre 3 prévisions distinctes :
- en rouge, une prévision de quantile à 75 %.
- en noir, une prévision de la moyenne.
- en vert, une prévision de quantile à 25 %.
Visuellement, les quantiles se comportent presque comme des intervalles de confiance. Cependant, en pratique, le quantile n’est nécessaire que pour un seul pourcentage cible.
Quantiles (ou percentiles) de la demande future
La prévision classique, et la plus intuitive, est la prévision de la moyenne : les poids respectifs de la sur-prévision et de la sous-prévision doivent être égaux, sinon la prévision est biaisée (plus précisément biaisée contre la moyenne).
Un premier affinement de cette vision est la prévision de la médiane : la fréquence respective de la sur-prévision et de la sous-prévision doit être égale, sinon les prévisions sont biaisées contre la médiane.
À ce stade, nous avons déjà déplacé la notion de prévisions non biaisées des poids égaux vers les chances égales. Ce changement est subtil, mais dans certaines situations, il peut avoir un impact numérique important.
Illustration : Revenu moyen par foyer aux États-Unis
Le revenu des ménages illustre la différence profonde entre la moyenne et la médiane.
Cette disparité s’explique par les revenus élevés (comparativement) des ménages les plus riches aux États-Unis par rapport au reste de la population. Une telle disparité entre la moyenne et la médiane se retrouvera dans toutes les distributions qui ne sont pas symétriques, typiquement toutes les distributions qui ne suivent pas une distribution normale.
Généralisation de la médiane
La médiane représente le seuil où la distribution est divisée en chances de 50/50. Cependant, il est possible de considérer d’autres ratios de fréquence. Par exemple, nous pouvons considérer 80/20 ou 90/10 ou tout autre ratio où le total reste à 100 %.
Les quantiles représentent une généralisation de la médiane pour un pourcentage donné. Pour τ, une valeur entre 0 et 1, la régression quantile Q(τ) représente le seuil où la probabilité d’observer une valeur inférieure au seuil est exactement τ.
Prévisions quantiles
Les prévisions classiques et quantiles prennent toutes deux une série chronologique en entrée. La série chronologique représente les données d’entrée. En plus des données, une prévision classique moyenne de la série chronologique nécessite deux paramètres structurels supplémentaires :
- la période, telle que jour, semaine ou mois.
- l’horizon, un entier représentant le nombre de périodes à prévoir.
Implicitement, la série chronologique est agrégée selon la période, et l’horizon est choisi suffisamment grand pour être d’une utilité pratique, généralement supérieur au délai d’approvisionnement.
Les prévisions moyennes bénéficient d’une propriété très pratique : il est mathématiquement correct de sommer les prévisions. Par exemple, si y1, y2, y3 et y4 représentent la prévision à 4 semaines à l’avance, alors si nous avons besoin de la demande prévue uniquement pour les deux prochaines semaines, nous pouvons faire la somme de y1+y2.
Cependant, la somme des prévisions quantiles est mathématiquement incorrecte, ou plus précisément, la somme des quantiles ne donne pas le quantile de la somme (somme des segments).
Étant donné que les prévisions quantiles ne peuvent pas être sommées, les prévisions de séries chronologiques quantiles doivent reconsidérer la notion même d’agrégation par période. En effet, produire des prévisions quantiles par période est inutile, car ces prévisions élémentaires ne peuvent pas être combinées pour produire des quantiles corrects sur des segments.
Ainsi, la prévision de séries chronologiques quantile présente une structure distincte :
- τ le quantile ciblé, en pourcentage.
- λ l’horizon exprimant une durée (généralement en jours).
Par exemple, si la série chronologique représente les ventes d’un produit A, et que nous avons les paramètres τ=0.90 et λ=14 jours, alors la prévision quantile (τ, λ) renverra la valeur de la demande qui a exactement 90% de chances d’être supérieure à la demande totale observée sur 14 jours (respectivement 10% de chances d’être inférieure à la demande sur les mêmes 14 jours).
Contrairement aux prévisions classiques, les prévisions quantiles produisent une et une seule valeur par série chronologique, indépendamment de l’horizon. Dans une certaine mesure, les prévisions quantiles sont plus indépendantes de la période que leurs homologues classiques.
Attention chez Lokad
À première vue, les prévisions quantiles semblent un peu plus compliquées que les prévisions classiques. Néanmoins, dans de nombreuses situations réelles, les praticiens finissent par produire d’abord des prévisions moyennes afin de les extrapoler immédiatement en prévisions quantiles, en supposant généralement que les prévisions suivent une distribution normale. Cependant, cette étape d’extrapolation représente souvent le maillon faible du processus et peut considérablement dégrader le résultat final. La technologie de prévision doit s’adapter aux exigences pratiques, c’est-à-dire fournir des prévisions quantiles natives, et non l’inverse.
Pour aller plus loin
- Point de commande, comment les quantiles s’appliquent à l’optimisation des stocks.
- Fonction de perte du flippeur, comment mesurer la précision d’une prévision quantile.
- Roger Koenker, Kevin F. Hallock, (2001) Régression quantile, Journal of Economic Perspectives, 15 (4), 143–156
- Ichiro Takeuchi, Quoc V. Le, Timothy D. Sears, Alexander J. Smola, (2006), Estimation quantile non paramétrique, Journal of Machine Learning Research 7 1231–1264