Los pronósticos probabilísticos asignan una probabilidad a cada posible futuro. Sin embargo, no todos los pronósticos probabilísticos son igualmente precisos, y se necesitan métricas para evaluar la precisión respectiva de distintos pronósticos probabilísticos. Métricas de precisión simples como el MAE (Error Absoluto Medio) o el MAPE (Error Porcentual Absoluto Medio) no son directamente aplicables a los pronósticos probabilísticos. El Continuous Ranked Probability Score (CRPS) generaliza el MAE al caso de los pronósticos probabilísticos. Junto con la entropía cruzada, el CPRS es una de las métricas de precisión más utilizadas en los pronósticos probabilísticos.
Descripción general
El CRPS se utiliza con frecuencia para evaluar la precisión respectiva de dos modelos de pronóstico probabilístico. En particular, esta métrica se puede combinar con un proceso de backtesting para estabilizar la evaluación de precisión mediante el aprovechamiento de múltiples mediciones sobre el mismo conjunto de datos.
Esta métrica difiere notablemente de métricas más simples como el MAE debido a su expresión asimétrica: mientras que los pronósticos son probabilísticos, las observaciones son determinísticas. A diferencia de la función de pérdida pinball, el CPRS no se centra en ningún punto específico de la distribución de probabilidad, sino que considera la distribución de los pronósticos en su conjunto.
Definición formal
Sea $${X}$$ una variable aleatoria.
Sea $${F}$$ la función de distribución acumulativa (CDF) de $${X}$$, tal que $${F(y)=\mathbf{P}\left[X \leq y\right]}$$.
Sea $${x}$$ la observación y $${F}$$ la CDF asociada con un pronóstico probabilístico empírico.
El CRPS entre $${x}$$ y $${F}$$ se define como:
donde $${𝟙}$$ es la función escalón de Heaviside y denota una función escalón a lo largo de la recta real que alcanza:
- el valor de 1 si el argumento real es positivo o cero,
- el valor de 0 en caso contrario.
El CRPS se expresa en la misma unidad que la variable observada (por ejemplo, si la demanda de un producto se pronosticó en unidades, el CRPS también se expresará en unidades).
El CRPS generaliza el error absoluto medio (MAE). De hecho, se reduce al MAE si el pronóstico es determinista. Este punto se ilustra en el gráfico D a continuación.
Propiedades conocidas
Gneiting y Raftery (2004) muestran que el puntaje de probabilidad continua clasificado se puede escribir de manera equivalente como:
donde
- $${X}$$ y $${X^*}$$ son copias independientes de una variable aleatoria lineal,
- $${X}$$ es la variable aleatoria asociada con la función de distribución acumulativa $${F}$$,
- $${\mathbf{E}[X]}$$ es el valor esperado de $${X}$$.
Evaluación numérica
Desde una perspectiva numérica, una forma sencilla de calcular CPRS consiste en descomponer la integral original en dos integrales en límites bien elegidos para simplificar la función escalón de Heaviside, lo que da:
En la práctica, dado que $$F$$ es una distribución empírica obtenida a través de un modelo de pronóstico, la variable aleatoria correspondiente $${X}$$ tiene un soporte compacto, lo que significa que solo hay un número finito de puntos donde $${\mathbf{P}[X = x] \gt 0}$$. Además, todos los valores de $$x$$ son números discretos. Por lo tanto, las integrales se pueden convertir en sumas finitas discretas como se ilustra en la fórmula a continuación y en el gráfico B en la siguiente sección.
En la fórmula (4), un índice $$n$$ representa el último elemento de la cola derecha de una distribución de probabilidad (por ejemplo, el valor de demanda más alto que tiene una probabilidad distinta de cero).
Finalmente, como el cálculo del CRPS se realiza para un punto en el tiempo, para calcular el CRPS durante cierto período de evaluación de interés (por ejemplo, para la ventana de responsabilidad, que es la suma del tiempo de entrega del proveedor y el período de reabastecimiento) debemos tomar un promedio de los valores de CRPS respectivos calculados para ese período.
Intuición visual
Para ilustrar el cálculo del CRPS, consideremos el siguiente ejemplo (consulte los gráficos a continuación):
A: Inicialmente, construimos un pronóstico de demanda probabilístico utilizando una distribución binomial negativa y truncando sus colas con probabilidades inferiores al 0.1% (lo que representa eventos extremadamente improbables, como aquellos que ocurren una vez cada tres años aproximadamente). Los valores de demanda pronosticados con probabilidades distintas de cero abarcaron el rango de 1 a 26 unidades. Más tarde, resultó que la demanda real fue de 15 unidades (como se muestra mediante la línea roja vertical punteada).
B: Calculamos el CRPS de acuerdo con la cuarta fórmula anterior (ver “Evaluación numérica”). El valor resultante del CRPS representa la suma de dos áreas llenas de color rojo claro.
C: Igual que el gráfico A pero con un pronóstico puntual agregado para comparación.
D: La computación del CRPS aplicada al pronóstico puntual demuestra que cuando se aplica el CRPS a un pronóstico puntual, el resultado es una métrica de precisión MAE. De hecho, los pronósticos puntuales son formas triviales de pronósticos probabilísticos donde asignamos implícitamente una probabilidad del 100% a un solo valor. Luego, un gráfico de probabilidad acumulada para el CRPS estará representado por dos funciones escalonadas: una para los pronósticos puntuales y otra para la demanda real. Esto significa que, dependiendo de las posiciones relativas del pronóstico puntual frente al valor real, una de las dos sumas en la fórmula del CRPS (4) se volverá cero: la primera suma para las sobreestimaciones y la segunda suma para las subestimaciones.
Para el ejemplo proporcionado a través de estos 4 gráficos, los valores resultantes del CRPS para el pronóstico probabilístico y para el pronóstico puntual son 3.32 y 3, respectivamente. Al observar los números, uno podría concluir que el pronóstico puntual es más preciso porque su métrica de precisión es más pequeña (mejor) que la del pronóstico probabilístico. Sin embargo, esta conclusión es incorrecta.
En el ejemplo anterior, solo consideramos un valor de demanda real, sin embargo, cuando el pronóstico probabilístico se aprende utilizando datos históricos, las probabilidades se ajustan según las frecuencias de ocurrencia de los valores de demanda respectivos (considerando los valores disponibles en el conjunto de datos de aprendizaje). Si se eligen adecuadamente, entonces el valor promedio del CRPS para el conjunto de datos de prueba será comparable al del conjunto de datos de entrenamiento/validación, ya que el pronóstico representará adecuadamente las frecuencias de ocurrencia de diferentes valores de demanda en los datos de prueba.
El gráfico a continuación demuestra la superioridad de los pronósticos probabilísticos en comparación con los pronósticos puntuales.
Observe cómo cambia suavemente el CRPS según diferentes valores reales. Además, observe que, aparte de una pequeña región (donde el pronóstico puntual está muy cerca del valor real), en todas las demás áreas el CRPS de los pronósticos probabilísticos es menor que el del pronóstico puntual.
Si tuviéramos múltiples pronósticos puntuales diferentes, esta observación seguiría siendo válida. Uno tendría que mover mentalmente la curva roja hacia la izquierda o hacia la derecha según la predicción puntual, pero la superioridad de los pronósticos probabilísticos seguiría siendo válida.
Referencias
Gneiting, T. y Raftery, A. E. (2004). Strictly proper scoring rules, prediction, and estimation. Informe técnico no. 463, Departamento de Estadística, Universidad de Washington, Seattle, Washington, EE. UU.