La regresión cuantil es un tipo de regresión (es decir, pronóstico) que introduce a propósito un sesgo en el resultado. En lugar de buscar la media de la variable a predecir, una regresión cuantil busca la mediana y cualquier otro cuantil (a veces llamados percentiles). Los cuantiles son particularmente útiles para la optimización de inventario como un método directo para calcular el punto de reorden.
La noción de regresión cuantil es un tema estadístico relativamente avanzado, el objetivo de este artículo no es entrar en un tratamiento riguroso de este tema, sino dar una introducción (relativamente) intuitiva al tema para los profesionales del comercio minorista o la fabricación.
Ilustración visual de los cuantiles
El gráfico anterior ilustra 3 pronósticos distintos:
- en rojo, un pronóstico del 75% de cuantil.
- en negro, un pronóstico medio.
- en verde, un pronóstico del 25% de cuantil.
Visualmente, los cuantiles se comportan de manera muy similar a los intervalos de confianza. Sin embargo, en la práctica, solo se necesita el cuantil para un porcentaje objetivo único.
Cuantiles (o percentiles) de la demanda futura
El pronóstico clásico y más intuitivo es el pronóstico medio: los respectivos pesos de la sobreestimación y la subestimación deben ser iguales, de lo contrario el pronóstico está sesgado (más precisamente sesgado en contra de la media).
Una primera refinación de esta visión es el pronóstico de la mediana: la frecuencia respectiva de la sobreestimación y la subestimación deben ser iguales, de lo contrario los pronósticos están sesgados en contra de la mediana.
En este punto, ya hemos desplazado la noción de pronósticos no sesgados desde pesos iguales hacia probabilidades iguales. Este cambio es sutil, pero en algunas situaciones puede tener un gran impacto numérico.
Ilustración: Ingresos medios vs. medianos de los hogares en los EE. UU.
Los ingresos de los hogares ilustran la profunda diferencia entre la media y la mediana.
Esta discrepancia se explica por los altos ingresos (comparativamente) de los hogares más ricos de los Estados Unidos en comparación con el resto de la población. Esta discrepancia entre la media y la mediana se encontrará en todas las distribuciones que no sean simétricas, típicamente todas las distribuciones que no siguen una distribución normal.
Generalización de la mediana
La mediana representa el umbral donde la distribución se divide en probabilidades de 50/50. Sin embargo, es posible considerar otras relaciones de frecuencia. Por ejemplo, podemos considerar 80/20 o 90/10 u otras relaciones donde el total se mantenga en 100%.
Los cuantiles representan una generalización de la mediana para cualquier porcentaje dado. Para τ, un valor entre 0 y 1, la regresión de cuantiles Q(τ) representa el umbral donde la probabilidad de observar un valor menor que el umbral es exactamente τ.
Pronósticos de cuantiles
Tanto los pronósticos clásicos como los pronósticos de cuantiles toman una serie de tiempo como entrada. La serie de tiempo representa los datos de entrada. Además de los datos, un pronóstico clásico de media de la serie de tiempo requiere dos configuraciones estructurales adicionales:
- el período, como día, semana o mes.
- el horizonte, un número entero que representa la cantidad de períodos a pronosticar.
Implícitamente, la serie de tiempo se agrega según el período, y el horizonte se elige lo suficientemente grande como para ser de utilidad práctica, típicamente mayor que el tiempo de entrega.
Los pronósticos de media se benefician de una propiedad muy útil: es matemáticamente correcto sumar los pronósticos. Por ejemplo, si y1, y2, y3 y y4 representan el pronóstico a 4 semanas, entonces si solo necesitamos la demanda esperada para las próximas dos semanas, podemos sumar y1+y2.
Sin embargo, sumar pronósticos de cuantiles es matemáticamente incorrecto, o más precisamente, la suma de los cuantiles no produce el cuantil de la suma (suma de los segmentos).
Dado que los pronósticos de cuantiles no se pueden sumar, los pronósticos de series de tiempo de cuantiles deben reconsiderar la noción misma de agregación por período. De hecho, producir pronósticos de cuantiles por período no tiene sentido, porque esos pronósticos elementales no se pueden combinar para producir cuantiles correctos sobre segmentos.
Por lo tanto, el pronóstico de series de tiempo de cuantil tiene una estructura distinta:
- τ el cuantil objetivo, un porcentaje.
- λ el horizonte que expresa una duración (típicamente en días).
Por ejemplo, si la serie de tiempo representa las ventas de un producto A, y tenemos los ajustes τ=0.90 y λ=14 días, entonces el pronóstico de cuantil (τ, λ) devolverá el valor de demanda que tiene exactamente un 90% de probabilidad de ser mayor que la demanda total observada durante 14 días (respectivamente un 10% de probabilidad de ser menor que la demanda durante los mismos 14 días).
A diferencia de los pronósticos clásicos, los pronósticos de cuantiles producen un único valor por serie de tiempo, independientemente del horizonte. En cierto sentido, los pronósticos de cuantiles son más independientes del período que sus contrapartes clásicas.
Cuidado con Lokad
A primera vista, los pronósticos de cuantiles parecen algo más complicados que los clásicos. Sin embargo, en muchas situaciones de la vida real, los profesionales terminan produciendo primero pronósticos de media para extrapolarlos inmediatamente como pronósticos de cuantiles, asumiendo típicamente que los pronósticos siguen una distribución normal. Sin embargo, este paso de extrapolación representa con frecuencia el eslabón más débil del proceso y puede degradar significativamente el resultado final. La tecnología de pronóstico debe adaptarse a los requisitos prácticos, es decir, proporcionar pronósticos de cuantiles nativos, y no al revés.
Lecturas adicionales
- Punto de reorden, cómo se aplican los cuantiles a la optimización de inventario.
- Función de pérdida de pinball, cómo medir la precisión de un pronóstico de cuantil.
- Roger Koenker, Kevin F. Hallock, (2001) Regresión de cuantiles, Journal of Economic Perspectives, 15 (4), 143–156
- Ichiro Takeuchi, Quoc V. Le, Timothy D. Sears, Alexander J. Smola, (2006), Estimación de cuantiles no paramétricos, Journal of Machine Learning Research 7 1231–1264