Una previsione si dice probabilistica, invece che deterministica, se contiene un insieme di probabilità associate a tutti i possibili risultati futuri, anziché individuare un singolo risultato come “la” previsione. Le previsioni probabilistiche sono importanti ogni volta che l’incertezza è irriducibile, il che è quasi sempre il caso quando si tratta di sistemi complessi. Per le supply chain, le previsioni probabilistiche sono essenziali per prendere decisioni robuste in condizioni future incerte. In particolare, la domanda e il tempo di consegna, due aspetti chiave dell’analisi della supply chain, sono entrambi meglio affrontati tramite previsioni probabilistiche. La prospettiva probabilistica si presta naturalmente alla prioritizzazione economica delle decisioni in base ai loro rendimenti attesi ma incerti. Una grande varietà di modelli statistici fornisce previsioni probabilistiche. Alcuni sono strutturalmente simili ai loro corrispettivi deterministici, mentre altri sono molto diversi. La valutazione dell’accuratezza di una previsione probabilistica richiede metriche specifiche, che differiscono dai loro corrispettivi deterministici. Lo sfruttamento delle previsioni probabilistiche richiede strumenti specializzati che si discostano dai loro corrispettivi deterministici.
Previsioni deterministiche vs. probabilistiche
L’ottimizzazione delle supply chain si basa sull’anticipazione corretta degli eventi futuri. Numericamente, questi eventi vengono anticipati tramite le previsioni, che comprendono una grande varietà di metodi numerici utilizzati per quantificare questi eventi futuri. A partire dagli anni ‘70, la forma di previsione più utilizzata è stata la previsione deterministica delle serie temporali: una quantità misurata nel tempo - ad esempio la domanda in unità di un prodotto - viene proiettata nel futuro. La sezione passata della serie temporale è costituita dai dati storici, la sezione futura della serie temporale è la previsione.
Queste previsioni delle serie temporali sono definite deterministiche perché per ogni punto nel futuro, la previsione fornisce un singolo valore che si prevede corrisponda il più possibile all’evento futuro. Infatti, sebbene la previsione sia univoca, è ampiamente compreso che la previsione ha poche possibilità di essere perfettamente corretta. Gli eventi futuri si discosteranno dalla previsione. L’aderenza della previsione deterministica ai suoi eventi futuri viene valutata quantitativamente attraverso metriche di accuratezza, come ad esempio l’errore quadratico medio (MSE).
Le previsioni probabilistiche adottano una prospettiva diversa sull’anticipazione degli eventi futuri. Invece di produrre un valore come risultato “migliore”, la previsione probabilistica consiste nell’assegnare una probabilità a ogni possibile risultato. In altre parole, tutti gli eventi futuri rimangono possibili, ma non sono tutti ugualmente probabili. Di seguito è riportata la visualizzazione di una previsione probabilistica delle serie temporali che mostra l’“effetto fucile a pallettoni”, che è tipicamente osservato nella maggior parte delle situazioni del mondo reale. Torneremo su questa visualizzazione in maggiori dettagli in seguito.
Le serie temporali, una quantità misurata nel tempo, sono probabilmente il modello di dati più conosciuto e più utilizzato. Questo modello di dati può essere previsto sia attraverso metodi deterministici che probabilistici. Tuttavia, ci sono molti modelli di dati alternativi, tipicamente più ricchi, che si prestano anche a previsioni di entrambi i tipi. Ad esempio, un’azienda che ripara motori a reazione potrebbe voler anticipare l’elenco esatto dei pezzi di ricambio che saranno necessari per un’operazione di manutenzione imminente. Questa anticipazione può assumere la forma di una previsione, ma non sarà una previsione delle serie temporali. La previsione deterministica associata a questa operazione è l’elenco esatto dei pezzi e delle loro quantità. Al contrario, la previsione probabilistica è la probabilità per ogni combinazione di pezzi (inclusa la quantità) che questa specifica combinazione sarà quella necessaria per effettuare le riparazioni.
Inoltre, mentre il termine “previsione” enfatizza un’anticipazione di qualche tipo, l’idea può essere generalizzata a qualsiasi tipo di affermazione statisticamente inferita su un sistema, comprese le sue proprietà passate (ma sconosciute). La pratica della previsione statistica è emersa nel corso del XX secolo, prima dell’avvento della prospettiva più moderna di apprendimento statistico, che comprende tutte le estrapolazioni basate sui dati che possono essere eseguite, indipendentemente da qualsiasi dimensione temporale. Per chiarezza, continueremo a utilizzare il termine “previsione” di seguito, anche se l’aspetto temporale non equivale sempre al passato conosciuto e al futuro sconosciuto. Ad esempio, un’azienda potrebbe voler stimare le vendite che si sarebbero verificate per un prodotto in un negozio se il prodotto non fosse stato esaurito in questo giorno. La stima è utile per quantificare l’entità del problema in termini di qualità del servizio. Tuttavia, poiché l’evento è passato, la cifra di vendita “reale” non sarà mai osservata. Tuttavia, assumendo che non sia ancora stata osservata banalmente, la stima statistica della domanda passata è un problema molto simile alla stima della domanda futura.
Le previsioni probabilistiche sono più ricche - in termini di informazioni - rispetto alle loro controparti deterministiche. Mentre la previsione deterministica fornisce una “migliore supposizione” del risultato futuro, non dice nulla sulle alternative. Infatti, è sempre possibile convertire una previsione probabilistica nella sua controparte deterministica prendendo la media, la mediana, la moda, … della distribuzione di probabilità. Tuttavia, il contrario non è vero: non è possibile recuperare una previsione probabilistica da una deterministica.
Tuttavia, mentre le previsioni probabilistiche sono statisticamente superiori alle previsioni deterministiche, rimangono poco utilizzate nella supply chain. Tuttavia, la loro popolarità è aumentata costantemente nell’ultimo decennio. Storicamente, le previsioni probabilistiche sono emerse in seguito, in quanto richiedono risorse di calcolo significativamente maggiori. Sfruttare le previsioni probabilistiche per scopi legati alla supply chain richiede anche strumenti software specializzati, che spesso non sono disponibili.
Casi d’uso nella supply chain
Ottimizzare una supply chain consiste nel prendere la “giusta” decisione - nel punto temporale attuale - che affronterà in modo più redditizio una situazione futura che è solo imperfettamente stimata. Tuttavia, l’incertezza associata agli eventi futuri è in gran parte irriducibile. Pertanto, l’azienda ha bisogno che la decisione sia robusta se l’anticipazione dell’evento futuro - ovvero la previsione - è imperfetta. Questo è stato fatto minimamente a partire dalla metà del XX secolo attraverso l’analisi delle scorte di sicurezza. Tuttavia, come vedremo di seguito, oltre all’interesse storico, non c’è più alcun motivo per favorire le scorte di sicurezza rispetto alle previsioni probabilistiche “native” ricette numeriche.
La prospettiva delle previsioni probabilistiche adotta una posizione radicale nei confronti dell’incertezza: questo approccio cerca di quantificare l’incertezza nella massima misura possibile. Nella supply chain, i costi tendono a concentrarsi sugli estremi statistici: è la domanda inaspettatamente alta che crea la mancanza di scorte, è la domanda inaspettatamente bassa che crea la cancellazione delle scorte. Nel frattempo, l’inventario ruota tranquillamente. Le previsioni probabilistiche sono - in parole povere - un tentativo di gestire queste situazioni a bassa frequenza e alto costo che sono onnipresenti nelle moderne supply chain. Le previsioni probabilistiche possono e dovrebbero essere considerate come un ingrediente fondamentale di qualsiasi pratica di gestione del rischio all’interno della supply chain.
Molti aspetti delle supply chain sono particolarmente adatti per le previsioni probabilistiche, come ad esempio:
- domanda: abbigliamento, accessori, pezzi di ricambio; così come molti altri tipi di prodotti, tendono ad essere associati a una domanda erratica e/o intermittente. I lanci di prodotti possono essere un successo o un fallimento. Le promozioni dei concorrenti possono temporaneamente e erraticamente cannibalizzare grandi porzioni delle quote di mercato.
- tempo di consegna: le importazioni d’oltremare possono subire una serie di ritardi in qualsiasi punto della catena (produzione, trasporto, dogana, ricezione, ecc). Anche i fornitori locali possono occasionalmente avere tempi di consegna lunghi se affrontano un problema di mancanza di scorte. I tempi di consegna tendono ad essere distribuzioni “fat tailed”.
- residuo (cibo fresco): la quantità e la qualità della produzione di molti prodotti freschi dipendono da condizioni, come il tempo, che sono al di fuori del controllo dell’azienda. La previsione probabilistica quantifica questi fattori per l’intera stagione e offre la possibilità di andare oltre l’orizzonte di rilevanza delle classiche previsioni meteorologiche.
- resi (ecommerce): quando un cliente ordina lo stesso prodotto in tre diverse taglie, è probabile che due di quelle taglie verranno restituite. In generale, sebbene esistano forti differenze regionali, i clienti tendono a sfruttare politiche di reso favorevoli quando queste esistono. La probabilità di reso per ogni ordine dovrebbe essere valutata.
- scarti (aviazione): le parti di aeromobili riparabili - spesso indicate come rotables - talvolta non riescono a essere riparate. In questo caso, la parte viene scartata, in quanto non è adatta ad essere montata nuovamente su un aeromobile. Sebbene di solito non sia possibile sapere in anticipo se una parte sopravviverà alla sua riparazione o meno, è possibile stimare la probabilità che la parte venga scartata.
- scorte (vendita al dettaglio B2C): i clienti possono spostare, danneggiare o addirittura rubare merci da un negozio al dettaglio. Pertanto, il livello di scorte elettroniche è solo un’approssimazione della reale disponibilità sugli scaffali percepita dai clienti. Il livello di scorte, percepito dai clienti, dovrebbe essere stimato attraverso una previsione probabilistica.
- …
Questo breve elenco illustra che gli angoli idonei per una previsione probabilistica superano di gran lunga gli unici angoli tradizionali di “previsione della domanda”. L’ottimizzazione ben progettata di una supply chain richiede di considerare tutte le fonti rilevanti di incertezza. Sebbene sia talvolta possibile ridurre l’incertezza - come sottolineato dalla produzione snella - di solito ci sono compromessi economici coinvolti e, di conseguenza, una certa quantità di incertezza rimane irriducibile.
Le previsioni, tuttavia, sono solo opinioni informate sul futuro. Sebbene le previsioni probabilistiche possano essere considerate opinioni notevolmente dettagliate, non sono fondamentalmente diverse dai loro corrispettivi deterministici in questo senso. Il valore, dal punto di vista della supply chain, delle previsioni probabilistiche si trova nel modo in cui questa struttura dettagliata viene sfruttata per prendere decisioni più redditizie. In particolare, di solito non ci si aspetta che le previsioni probabilistiche siano più accurate dei loro corrispettivi deterministici se vengono utilizzate metriche di accuratezza deterministiche per valutare la qualità delle previsioni.
In difesa della variabilità
Contrariamente a quanto sostengono molte approcci alla supply chain, la variabilità è qui per restare - da qui la necessità di previsioni probabilistiche. Il primo fraintendimento è che la variabilità sia necessariamente una cosa negativa per una supply chain; non lo è. Il secondo fraintendimento è che la variabilità possa essere eliminata con l’ingegneria; non può.
La variabilità ha implicazioni positive per le supply chain in molteplici situazioni. Ad esempio, sul lato della domanda, la maggior parte dei settori è guidata dalla novità, come la moda, i prodotti culturali, il lusso morbido e duro - così come le attività “colpo o miss”. La maggior parte dei nuovi prodotti non sono successi (miss), ma quelli che hanno successo (hit) generano rendimenti enormi. Una maggiore variabilità è positiva perché aumenta la probabilità di rendimenti straordinari, mentre i downside rimangono limitati (nel peggiore dei casi, l’intero inventario viene cancellato). Il flusso infinito di nuovi prodotti spinti sul mercato assicura il costante rinnovamento dei “successi”, mentre quelli vecchi stanno declinando.
Sul lato dell’offerta, un processo di approvvigionamento che garantisce offerte con prezzi molto variabili è superiore - tutto considerato uguale - a un processo alternativo che genera prezzi molto più consistenti (cioè meno variabili). Infatti, viene selezionata l’opzione con il prezzo più basso mentre le altre vengono scartate. Non importa se il prezzo medio dell’approvvigionamento è basso, ciò che conta è scoprire fonti con prezzi più bassi. Pertanto, il buon processo di approvvigionamento dovrebbe essere progettato per aumentare la variabilità, ad esempio enfatizzando l’esplorazione routinaria di nuovi fornitori anziché limitare il processo di approvvigionamento a quelli consolidati.
A volte, la variabilità può essere vantaggiosa per motivi più sottili. Ad esempio, se un marchio è troppo prevedibile per quanto riguarda le sue operazioni promozionali, i clienti identificano il pattern e iniziano a ritardare l’acquisto perché sanno che sta arrivando una promozione e quando. La variabilità - anche l’erraticità - delle attività promozionali mitiga in qualche misura questo comportamento.
Un altro esempio è la presenza di fattori di confusione all’interno della stessa supply chain. Se i nuovi prodotti vengono sempre lanciati con una campagna televisiva e una campagna radiofonica, diventa statisticamente difficile distinguere gli impatti rispettivi della TV e della radio. Aggiungere variabilità all’intensità delle rispettive campagne a seconda del canale assicura che dalle operazioni possano essere estratte più informazioni statistiche, che possono poi essere trasformate in conoscenze per una migliore allocazione delle risorse di marketing.
Naturalmente, non tutta la variabilità è positiva. La produzione snella ha ragione nel sottolineare che, sul lato della produzione della supply chain, la variabilità di solito è dannosa, soprattutto quando si tratta di ritardi variabili. Infatti, possono insorgere processi LIFO (last-in first-out) in modo accidentale, il che, a sua volta, accentua la variabilità dei tempi di consegna. In queste situazioni, la variabilità accidentale dovrebbe essere eliminata tramite un processo migliore, a volte tramite attrezzature o strutture migliori.
La variabilità - anche quando dannosa - è spesso irriducibile. Come vedremo nella sezione successiva, le supply chain si attengono alla legge dei piccoli numeri. È illusorio pensare che il livello del negozio possa mai essere previsto in modo affidabile - da una prospettiva deterministica - mentre i clienti stessi non sanno sempre cosa stanno per acquistare. Più in generale, ridurre la variabilità comporta sempre un costo (e ridurla ulteriormente costa ancora di più), mentre la riduzione marginale della variabilità porta solo a rendimenti decrescenti. Pertanto, anche quando la variabilità può essere ridotta, per tutti gli scopi pratici, molto raramente può essere completamente eliminata a causa delle implicazioni economiche.
La legge dei piccoli numeri
La legge dei piccoli numeri della supply chain può essere enunciata come: i piccoli numeri prevalgono ovunque lungo la catena. Questa legge osservativa deriva dalle economie di scala e da alcune altre forze che guidano la maggior parte degli aspetti strutturali delle supply chain:
- un fornitore che fornisce decine di migliaia di unità di materiali al giorno avrà probabilmente quantità minime d’ordine (MOQ) o sconti che impediscono di effettuare ordini troppo frequentemente. Il numero di ordini di acquisto trasmessi in un determinato giorno a un fornitore raramente supera un numero a una sola cifra.
- una fabbrica che produce decine di migliaia di unità al giorno probabilmente opera attraverso grandi lotti di migliaia di unità. La produzione è probabilmente confezionata in interi pallet. Il numero di lotti durante un determinato giorno è al massimo un numero a due cifre.
- un magazzino che riceve decine di migliaia di unità al giorno probabilmente viene consegnato da camion, ciascun camion scarica l’intero carico nel magazzino. Il numero di consegne di camion in un determinato giorno raramente supera un numero a due cifre, anche per magazzini molto grandi.
- un negozio al dettaglio che può contenere decine di migliaia di unità in magazzino probabilmente distribuisce la sua assortimento in migliaia di distinti riferimenti di prodotto. Il numero di unità detenute in magazzino per ogni prodotto raramente supera un numero a una sola cifra.
- …
Naturalmente, cambiando l’unità di misura, è sempre possibile gonfiare i numeri. Ad esempio, se invece di contare il numero di pallet contiamo il numero di grammi di pallet, o il loro valore monetario in centesimi di dollaro statunitense, appaiono grandi numeri. Tuttavia, la legge dei piccoli numeri dovrebbe essere compresa con la nozione di contare le cose da una sensata prospettiva di supply chain. Sebbene, in teoria, questo principio possa sembrare abbastanza soggettivo, non è il caso nella pratica, a causa delle ovvie praticità discrete delle moderne supply chain: bundle, scatole, pallet, container, camion …
Questa legge è di grande rilevanza per la prospettiva della previsione probabilistica. Innanzitutto, essa sottolinea che le previsioni discrete dominano nelle situazioni di supply chain, ovvero l’esito da anticipare (o decidere) è un numero intero, e non un numero frazionario. Le previsioni probabilistiche sono particolarmente adatte alle situazioni discrete, perché è possibile stimare una probabilità per ciascun risultato discreto. Al contrario, le previsioni deterministiche hanno difficoltà con i risultati discreti. Ad esempio, cosa si suppone che significhi che le vendite giornaliere previste di un prodotto siano pari a 1,3 unità? Le unità non vengono vendute in modo frazionario. Mentre da questa affermazione possono essere dedotte interpretazioni “discrete” più sensate, il suo corrispettivo probabilistico (ad esempio, una probabilità del 27% di 0 unità di domanda, una probabilità del 35% di 1 unità di domanda, una probabilità del 23% di 2 unità di domanda, ecc.) è molto più diretto, perché abbraccia la natura discreta del fenomeno di interesse.
In secondo luogo, sebbene le previsioni probabilistiche possano sembrare radicalmente più impegnative in termini di risorse di calcolo grezze, questo non è realmente il caso nella pratica, proprio a causa della legge dei piccoli numeri. Infatti, tornando alle vendite giornaliere del prodotto discusse in precedenza, non ha senso valutare numericamente le probabilità in cui la domanda supererà 100 in un dato giorno. Queste probabilità possono essere arrotondate a zero - o a un valore arbitrariamente piccolo. L’impatto sull’accuratezza numerica del modello di supply chain rimane trascurabile. Come regola generale, è ragionevole considerare che le previsioni probabilistiche richiedono circa tre ordini di grandezza in più di risorse di calcolo rispetto alle loro controparti deterministiche. Tuttavia, nonostante questo sovraccarico, i benefici in termini di prestazioni della supply chain superano di gran lunga il costo delle risorse di calcolo.
Metriche di accuratezza per le previsioni probabilistiche
Qualunque cosa accada, una previsione probabilistica ragionevolmente ben progettata indica che c’era effettivamente una probabilità non nulla che questo risultato si verificasse. Questo è intrigante perché a prima vista potrebbe sembrare che le previsioni probabilistiche fossero in qualche modo immuni alla realtà, proprio come un indovino che fa affermazioni profetiche estremamente ambigue che non possono mai essere dimostrate sbagliate, poiché l’indovino può sempre evocare una spiegazione successiva sul modo corretto di interpretare le profezie dopo il fatto. In realtà, esistono molteplici modi per valutare quantitativamente la qualità di una previsione probabilistica. Alcuni di questi modi sono metriche simili nello spirito alle metriche utilizzate per valutare l’accuratezza delle previsioni deterministiche. Altri modi divergono in modi più radicali e più profondi rispetto alla prospettiva deterministica.
Vediamo brevemente quattro approcci distinti per valutare l’accuratezza di una previsione probabilistica:
- la funzione di perdita pinball
- il punteggio di probabilità classificato continuo (CRPS)
- la verosimiglianza bayesiana
- la prospettiva generativa avversaria
La funzione di perdita pinball fornisce una metrica di accuratezza per una stima del quantile da derivare da una previsione probabilistica. Ad esempio, se desideriamo valutare la quantità di stock che ha il 98% di probabilità di essere maggiore o uguale alla domanda del cliente in un negozio per un determinato prodotto, questa quantità può essere ottenuta direttamente dalle previsioni probabilistiche semplicemente sommando le probabilità a partire da 0 unità di domanda, 1 unità di domanda, … fino a quando la probabilità supera appena il 98%. La funzione di perdita pinball fornisce una misura diretta della qualità di questa stima distorta della domanda futura. Può essere considerata come uno strumento per valutare la qualità di qualsiasi punto della funzione di densità cumulativa della previsione probabilistica.
Il punteggio di probabilità classificato continuo (CRPS) fornisce una metrica, che può essere interpretata come la “quantità di spostamento” della massa di probabilità necessaria per spostare tutta la massa di probabilità all’evento osservato. È la generalizzazione più diretta dell’errore medio assoluto (MAE) verso una prospettiva probabilistica. Il valore CRPS è omogeneo all’unità di misura dell’evento stesso. Questa prospettiva può essere generalizzata a spazi metrici arbitrari, invece che solo situazioni unidimensionali, attraverso ciò che è noto come “teoria del trasporto” e distanza di Monge-Kantorovich (che va oltre lo scopo del presente documento).
La verosimiglianza e il suo cugino entropia incrociata adottano la prospettiva bayesiana del grado minimo di sorpresa: maggiore è la probabilità degli eventi osservati, meglio è. Ad esempio, abbiamo due modelli probabilistici A e B: il modello A afferma che la probabilità di osservare 0 unità di domanda è del 50% per ogni giorno; il modello B afferma che la probabilità di osservare 0 unità di domanda è dell'1% per ogni giorno. Osserviamo la domanda per 3 giorni e otteniamo le seguenti osservazioni: 0, 0, 1. Il modello A aveva approssimativamente il 10% di probabilità di generare queste osservazioni, mentre per il modello B era solo un’approssimativa probabilità dello 0,01%. Quindi, il modello B è nettamente meno probabile di essere il modello corretto rispetto al modello A. La verosimiglianza si discosta dalla prospettiva deterministica di avere un criterio assoluto significativo per valutare i modelli. Invece, fornisce un meccanismo per confrontare i modelli, ma numericamente, il meccanismo non può essere realmente utilizzato per altro che per confrontare i modelli.
La prospettiva generativa avversaria è la prospettiva più moderna sulla questione (Ian Goodfellow et al., 2014). Essenzialmente, questa prospettiva afferma che il “miglior” modello probabilistico è quello che può essere utilizzato per generare risultati - in stile monte-carlo - indistinguibili dai risultati reali. Ad esempio, se considerassimo l’elenco storico delle transazioni presso un ipermercato locale, potremmo troncare questa storia in un punto arbitrario nel passato e utilizzare il modello probabilistico per generare transazioni fittizie ma realistiche in avanti. Il modello sarebbe considerato “perfetto” se fosse impossibile, attraverso l’analisi statistica, recuperare il punto in cui l’insieme di dati passa da dati “reali” a dati “falsi”. Lo scopo dell’approccio generativo avversario è “imparare” le metriche che esacerbano il difetto di qualsiasi modello probabilistico. Invece di concentrarsi su una metrica particolare, questa prospettiva utilizza in modo ricorsivo tecniche di apprendimento automatico per “imparare” le metriche stesse.
La ricerca di modi migliori per valutare la qualità delle previsioni probabilistiche è ancora un’area attiva di ricerca. Non c’è una chiara delimitazione tra le due domande “Come produrre una previsione migliore?” e “Come capire se una previsione è migliore?”. Lavori recenti hanno considerevolmente sfumato le linee tra le due, ed è probabile che le prossime scoperte comporteranno ulteriori cambiamenti nel modo stesso in cui vengono considerate le previsioni probabilistiche.
Probabilità infinitamente piccole e verosimiglianza logaritmica
Le probabilità molto piccole si presentano naturalmente quando si osserva una situazione multidimensionale attraverso il prisma delle previsioni probabilistiche. Queste piccole probabilità sono problematiche perché i computer non elaborano numeri indefinitamente precisi. I valori di probabilità grezzi sono spesso “infinitamente” piccoli nel senso che vengono arrotondati a zero a causa dei limiti sulla precisione numerica. La soluzione a questo problema non è quella di aggiornare il software verso calcoli a precisione arbitraria - che è molto inefficiente in termini di risorse di calcolo - ma di utilizzare il “trucco del logaritmo”, che trasforma le moltiplicazioni in addizioni. Questo trucco viene sfruttato - in un modo o nell’altro - praticamente da ogni applicativo che si occupa di previsioni probabilistiche.
Supponiamo di avere $$X_1, X_2, \ldots, X_n$$ variabili casuali che rappresentano la domanda del giorno per tutti i $$n$$ prodotti distinti serviti in un determinato negozio. Sia $$\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n$$ la domanda empirica osservata alla fine della giornata per ciascun prodotto. Per il primo prodotto - governato da $$X_1$$ - la probabilità di osservare $$\hat{x}_1$$ è scritta come $$P(X_1=\hat{x}_1)$$ . Ora, supponiamo, in modo un po’ abusivo ma per chiarezza, che tutti i prodotti siano indipendenti l’uno dall’altro per quanto riguarda la domanda. La probabilità per l’evento congiunto di osservare $$\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n$$ è:
Se $$P(X_k=\hat{x}_k) \approx \tfrac{1}{2}$$ (approssimazione grossolana) e $$n=10000$$, allora la probabilità congiunta sopra è dell’ordine di $$\tfrac{1}{{2^{10000}}} \approx 5 \times 10^{-3011}$$, che è un valore molto piccolo. Questo valore va sotto il limite inferiore rappresentabile, ossia scende al di sotto del numero rappresentabile più piccolo, anche considerando i numeri in virgola mobile a 64 bit che vengono tipicamente utilizzati per il calcolo scientifico.
Il “trucco del logaritmo” consiste nel lavorare con il logaritmo dell’espressione, ovvero:
Il logaritmo trasforma la serie di moltiplicazioni in una serie di addizioni, il che si rivela molto più stabile dal punto di vista numerico rispetto a una serie di moltiplicazioni.
L’uso del “trucco del logaritmo” è frequente quando sono coinvolti pronostici probabilistici. La log-verosimiglianza è letteralmente il logaritmo della verosimiglianza (introdotto in precedenza) proprio perché la verosimiglianza grezza sarebbe di solito non rappresentabile numericamente considerando i tipi comuni di numeri in virgola mobile.
Varianti algoritmiche dei pronostici probabilistici
La questione della generazione di pronostici probabilistici guidati dal computer è quasi vasta quanto il campo dell’apprendimento automatico stesso. Le delimitazioni tra i due campi, se presenti, sono per lo più una questione di scelte soggettive. Tuttavia, questa sezione presenta un elenco piuttosto selettivo di approcci algoritmici notevoli che possono essere utilizzati per ottenere pronostici probabilistici.
All’inizio del XX secolo, forse alla fine del XIX secolo, è emersa l’idea delle scorte di sicurezza, in cui l’incertezza della domanda è modellata secondo una distribuzione normale. Poiché le tabelle precalcolate della distribuzione normale erano già state stabilite per altre scienze, in particolare la fisica, l’applicazione delle scorte di sicurezza richiedeva solo una moltiplicazione di un livello di domanda per un coefficiente di “scorte di sicurezza” estratto da una tabella preesistente. Curiosamente, molti manuali di gestione della catena di approvvigionamento scritti fino agli anni ‘90 contenevano ancora tabelle della distribuzione normale nei loro allegati. Purtroppo, il principale svantaggio di questo approccio è che le distribuzioni normali non sono una proposta ragionevole per le catene di approvvigionamento. Primo, per quanto riguarda le catene di approvvigionamento, è lecito presumere che nulla sia mai distribuito normalmente. Secondo, la distribuzione normale è una distribuzione continua, che è in contrasto con la natura discreta degli eventi della catena di approvvigionamento (vedi “Legge dei piccoli numeri” sopra). Pertanto, sebbene tecnicamente le “scorte di sicurezza” abbiano un componente probabilistico, la metodologia sottostante e le ricette numeriche sono decisamente orientate alla prospettiva deterministica. Tuttavia, questo approccio è elencato qui per chiarezza.
Veloce avanzamento fino agli anni 2000, i metodi di apprendimento ensemble - i cui rappresentanti più noti sono probabilmente le foreste casuali e gli alberi potenziati con il gradiente - sono relativamente semplici da estendere dalle loro origini deterministiche alla prospettiva probabilistica. L’idea chiave dietro l’apprendimento ensemble è quella di combinare numerosi predittori deterministici deboli, come gli alberi decisionali, in un predittore deterministico superiore. Tuttavia, è possibile regolare il processo di miscelazione per ottenere probabilità anziché solo un singolo aggregato, trasformando così il metodo di apprendimento ensemble in un metodo di previsione probabilistica. Questi metodi sono non parametrici e capaci di adattarsi a distribuzioni a code grasse e/o multimodali, come comunemente si trovano nella catena di approvvigionamento. Questi metodi tendono ad avere due svantaggi notevoli. Primo, per costruzione, la funzione di densità di probabilità prodotta da questa classe di modelli tende a includere molti zeri, il che impedisce qualsiasi tentativo di sfruttare la metrica della log-verosimiglianza. Più in generale, questi modelli non si adattano davvero alla prospettiva bayesiana, poiché le nuove osservazioni vengono frequentemente dichiarate “impossibili” (cioè probabilità zero) dal modello. Tuttavia, questo problema può essere risolto mediante metodi di regolarizzazione1. Secondo, i modelli tendono ad essere grandi quanto una frazione considerevole dell’insieme di dati di input, e l’operazione di “previsione” tende ad essere quasi altrettanto costosa dal punto di vista computazionale quanto l’operazione di “apprendimento”.
I metodi iper-parametrici collettivamente noti con il nome di “deep learning”, che sono esplosi in modo esplosivo negli anni 2010, erano, quasi “per caso”, probabilistici. Infatti, mentre la stragrande maggioranza dei compiti in cui il deep learning brilla davvero (ad esempio, la classificazione delle immagini) si concentra solo su previsioni deterministiche, si scopre che la metrica dell’entropia incrociata - una variante della verosimiglianza logaritmica discussa in precedenza - presenta gradienti molto ripidi che sono spesso adatti per la discesa del gradiente stocastico (SGD), che è alla base dei metodi di deep learning. Pertanto, i modelli di deep learning si rivelano essere progettati come probabilistici, non perché le probabilità fossero di interesse, ma perché la discesa del gradiente converge più velocemente quando la funzione di perdita riflette una previsione probabilistica. Pertanto, per quanto riguarda il deep learning, la supply chain si distingue per il suo interesse per l’output probabilistico effettivo del modello di deep learning, mentre la maggior parte degli altri casi d’uso riduce la distribuzione di probabilità alla sua media, mediana o moda. Le Mixture Density Networks sono un tipo di rete di deep learning orientata all’apprendimento di distribuzioni di probabilità complesse. Il risultato stesso è una distribuzione parametrica, possibilmente composta da gaussiane. Tuttavia, a differenza delle “scorte di sicurezza”, una miscela di molte gaussiane può, nella pratica, riflettere i comportamenti a coda grassa osservati nelle supply chain. Sebbene i metodi di deep learning siano spesso considerati all’avanguardia, va notato che raggiungere la stabilità numerica, specialmente quando sono coinvolti mix di densità, rimane un po’ un “arte oscura”.
La programmazione differenziabile è una discendente del deep learning, che ha guadagnato popolarità alla fine degli anni 2010. Condivide molte caratteristiche tecniche con il deep learning, ma differisce significativamente nel focus. Mentre il deep learning si concentra sull’apprendimento di funzioni complesse arbitrarie (ad esempio, giocare a Go) impilando un gran numero di funzioni semplici (ad esempio, strati convoluzionali), la programmazione differenziabile si concentra sulla struttura fine del processo di apprendimento. La struttura più fine, più espressiva, può essere letteralmente formattata come un programma, che coinvolge rami, cicli, chiamate di funzioni, ecc. La programmazione differenziabile è di grande interesse per la supply chain, perché i problemi tendono a presentarsi in modi altamente strutturati, e tali strutture sono note agli esperti2. Ad esempio, le vendite di una determinata maglietta possono essere cannibalizzate da un’altra maglietta di un colore diverso, ma non saranno cannibalizzate dalle vendite di una maglietta di tre taglie diverse. Tali priorità strutturali sono fondamentali per ottenere un’elevata efficienza dei dati. Infatti, dal punto di vista della supply chain, la quantità di dati tende ad essere molto limitata (cf. la legge dei piccoli numeri). Pertanto, “incorniciare” strutturalmente il problema aiuta a garantire che i modelli statistici desiderati vengano appresi, anche quando si affrontano dati limitati. Le priorità strutturali aiutano anche a risolvere i problemi di stabilità numerica. Rispetto ai metodi di insieme, le priorità strutturali tendono ad essere un’affare meno dispendioso in termini di tempo rispetto all’ingegneria delle caratteristiche; la manutenzione del modello è anche semplificata. D’altra parte, la programmazione differenziabile rimane una prospettiva piuttosto giovane fino ad oggi.
La prospettiva del Monte Carlo (1930/1940) può essere utilizzata per affrontare previsioni probabilistiche da un punto di vista diverso. I modelli finora discussi forniscono funzioni di densità di probabilità esplicite (PDF). Tuttavia, da una prospettiva del Monte Carlo, un modello può essere sostituito da un generatore - o campionatore - che genera casualmente possibili risultati (a volte chiamati “deviates”). Le PDF possono essere recuperate mediando i risultati del generatore, anche se spesso le PDF vengono bypassate completamente al fine di ridurre i requisiti in termini di risorse computazionali. Infatti, il generatore è spesso progettato per essere molto più compatto - in termini di dati - rispetto alle PDF che rappresenta. La maggior parte dei metodi di apprendimento automatico - compresi quelli elencati sopra per affrontare direttamente previsioni probabilistiche - può contribuire all’apprendimento di un generatore. I generatori possono assumere la forma di modelli parametrici a bassa dimensionalità (ad esempio, modelli di spazio di stato) o di modelli iper-parametrici (ad esempio, i modelli LSTM e GRU nel deep learning). I metodi di insieme sono raramente utilizzati per supportare processi generativi a causa dei loro elevati costi di calcolo per le operazioni di “previsione”, su cui si fa ampio affidamento per supportare l’approccio del Monte Carlo.
Lavorare con previsioni probabilistiche
Ottenere informazioni utili e prendere decisioni basate su previsioni probabilistiche richiede strumenti numerici specializzati. A differenza delle previsioni deterministiche, dove si hanno semplici numeri, le previsioni probabilistiche possono essere rappresentate da funzioni di densità di probabilità esplicite o generatori Monte Carlo. La qualità degli strumenti probabilistici è, nella pratica, altrettanto importante quanto la qualità delle previsioni stesse. Senza questi strumenti, lo sfruttamento delle previsioni probabilistiche si riduce a un processo deterministico (ne parleremo più avanti nella sezione “Antipatterns”).
Ad esempio, gli strumenti dovrebbero essere in grado di svolgere compiti come:
- Combinare il tempo di produzione incerto con il tempo di trasporto incerto per ottenere il “tempo totale” incerto.
- Combinare la domanda incerta con il tempo di consegna incerto per ottenere la “domanda totale” incerta da coprire con la scorta in procinto di essere ordinata.
- Combinare i resi degli ordini incerti (ecommerce) con la data di arrivo incerta dell’ordine del fornitore in transito per ottenere il tempo di consegna incerto al cliente.
- Integrare la previsione della domanda, prodotta da un metodo statistico, con un rischio di coda derivato manualmente da una comprensione a livello superiore di un contesto non riflessa dai dati storici, come una pandemia.
- Combinare la domanda incerta con uno stato incerto della scorta rispetto alla data di scadenza (vendita al dettaglio di alimentari) per ottenere la scorta residua incerta a fine giornata.
- …
Una volta che tutte le previsioni probabilistiche - non solo quelle sulla domanda - sono state correttamente combinate, si può procedere all’ottimizzazione delle decisioni della supply chain. Ciò comporta una prospettiva probabilistica sui vincoli, così come sulla funzione di punteggio. Tuttavia, questo aspetto degli strumenti va oltre lo scopo del presente documento.
Esistono due “varianti” principali di strumenti per lavorare con previsioni probabilistiche: algebre sulle variabili casuali e programmazione probabilistica. Queste due varianti si integrano a vicenda poiché non presentano la stessa combinazione di vantaggi e svantaggi.
Un’algebra delle variabili casuali lavora tipicamente su funzioni di densità di probabilità esplicite. L’algebra supporta le usuali operazioni aritmetiche (addizione, sottrazione, moltiplicazione, ecc.) ma trasposte ai loro corrispondenti probabilistici, trattando spesso le variabili casuali come statisticamente indipendenti. L’algebra fornisce una stabilità numerica quasi pari a quella della sua controparte deterministica (cioè i semplici numeri). Tutti i risultati intermedi possono essere conservati per un uso successivo, il che risulta molto utile per organizzare e risolvere i problemi nel flusso di dati. Tuttavia, l’espressività di queste algebre tende ad essere limitata, poiché di solito non è possibile esprimere tutte le sottili dipendenze condizionali che esistono tra le variabili casuali.
La programmazione probabilistica adotta una prospettiva Monte Carlo del problema. La logica viene scritta una volta, di solito mantenendo una prospettiva completamente deterministica, ma viene eseguita molte volte attraverso gli strumenti (cioè il processo Monte Carlo) per raccogliere le statistiche desiderate. L’espressività massima viene raggiunta attraverso costrutti “programmatici”: è possibile modellare dipendenze arbitrarie e complesse tra le variabili casuali. Scrivere la logica stessa attraverso la programmazione probabilistica tende anche ad essere leggermente più semplice rispetto a un’algebra delle variabili casuali, poiché la logica coinvolge solo numeri regolari. Tuttavia, c’è un costante compromesso tra la stabilità numerica (più iterazioni garantiscono una maggiore precisione) e le risorse di calcolo (più iterazioni costano di più). Inoltre, i risultati intermedi di solito non sono facilmente accessibili, poiché la loro esistenza è solo transitoria - proprio per alleviare la pressione sulle risorse di calcolo.
Recenti studi sull’apprendimento automatico indicano anche che esistono approcci ulteriori oltre i due presentati sopra. Ad esempio, gli autoencoder variazionali offrono prospettive per eseguire operazioni su “spazi latenti” che producono risultati impressionanti mentre cercano trasformazioni molto complesse sui dati (ad esempio, rimuovere automaticamente gli occhiali da un ritratto fotografico). Sebbene questi approcci siano concettualmente molto intriganti, finora non hanno mostrato molta rilevanza pratica nel risolvere i problemi della supply chain.
Visualizzazione delle previsioni probabilistiche
Il modo più semplice per visualizzare una distribuzione di probabilità discreta è un istogramma, in cui l’asse verticale indica la probabilità e l’asse orizzontale il valore della variabile casuale di interesse. Ad esempio, una previsione probabilistica di un tempo di consegna può essere visualizzata come:
La domanda futura, sommata su un periodo di tempo specificato, può anche essere rappresentata da un istogramma. Più in generale, l’istogramma è adatto per tutte le variabili casuali unidimensionali su $${ℤ}$$, l’insieme degli interi relativi.
La visualizzazione dell’equivalente probabilistico di una serie temporale equispaziata - cioè una quantità che varia in periodi di tempo discreti di uguale lunghezza - è già molto più sfidante. Infatti, a differenza della variabile casuale unidimensionale, non esiste una visualizzazione canonica di tale distribuzione. Attenzione, i periodi non possono essere considerati indipendenti. Pertanto, sebbene sia possibile rappresentare una serie temporale “probabilistica” allineando una serie di istogrammi - uno per periodo -, questa rappresentazione rappresenterebbe in modo errato il modo in cui gli eventi si svolgono in una supply chain.
Ad esempio, non è troppo improbabile che un prodotto appena lanciato abbia successo e raggiunga volumi di vendita elevati (un successo). Allo stesso modo, non è troppo improbabile che lo stesso prodotto appena lanciato fallisca e produca volumi di vendita bassi (un insuccesso). Tuttavia, oscillazioni giornaliere vaste tra livelli di vendita di successo o insuccesso sono estremamente improbabili.
Gli intervalli di previsione, come comunemente si trovano nella letteratura sulla supply chain, sono in qualche modo fuorvianti. Tendono a enfatizzare situazioni a bassa incertezza che non sono rappresentative delle effettive situazioni della supply chain;
Notare come questi intervalli di previsione siano esattamente le distribuzioni di probabilità, messe una accanto all’altra con uno schema di colorazione per evidenziare soglie di quantili specifiche.
Una rappresentazione migliore - cioè che non migliora le forti dipendenze tra periodi - è guardare i valori cumulativi nel tempo, prendere i quantili di quelli e poi differenziare per recuperare gli incrementi per periodo (vedi la prima illustrazione di una previsione probabilistica data all’inizio del presente articolo). La visualizzazione è la stessa, ma il significato sottostante è diverso. Stiamo ora guardando i quantili su scenari, evidenziando gli scenari estremamente favorevoli (risp. sfavorevoli).
Antipatterns di previsione probabilistica
Le previsioni probabilistiche sfidano il modo in cui molte persone “intuitivamente” pensano al futuro. In questa sezione, affrontiamo alcuni degli aspetti più frequentemente fraintesi delle previsioni probabilistiche.
Non esistono eventi “imprevedibili”
Dal punto di vista deterministico, prevedere l’esito della lotteria è impossibile, poiché le probabilità di indovinare sono “una su un milione”. Tuttavia, dal punto di vista probabilistico, il problema è banale: ogni biglietto ha una probabilità di “una su un milione” di vincere. L’alta varianza del risultato non dovrebbe essere confusa con una “imprevedibilità” del fenomeno stesso, che può essere perfettamente compreso, come nel caso di una lotteria. La previsione probabilistica consiste nel quantificare e strutturare la varianza, non nell’eliminare la varianza.
Non esistono distribuzioni “normali”
Le distribuzioni normali, anche conosciute come gaussiane, sono onnipresenti sia nei manuali di supply chain che in quelli di fisica. Tuttavia, per quanto riguarda gli affari umani, quasi nulla è distribuito in modo “normale”. Le distribuzioni normali, per loro natura, rendono le grandi deviazioni (rispetto alle deviazioni medie) estremamente rare, al punto da essere escluse come semplicemente impossibili dal modello, con probabilità inferiori a una su un miliardo. La domanda, il tempo di consegna, i resi sono molti esempi di pattern che categoricamente non sono distribuiti in modo normale. L’unico vantaggio delle distribuzioni normali è che si prestano bene a esercizi di libro di testo per gli studenti, in quanto consentono soluzioni analitiche esplicite.
Selezionare le probabilità a piacere
Quando ci si trova di fronte a una distribuzione di probabilità, è tentante selezionare a piacere un punto della distribuzione, eventualmente la media o la mediana, e procedere basandosi su questo numero. Questo processo va contro l’essenza stessa dell’aspetto probabilistico della previsione. Le probabilità non dovrebbero essere ridotte a una singola stima, perché indipendentemente dal punto scelto, questo processo comporta una massiccia perdita di informazioni. Pertanto, sebbene possa sembrare disturbante, le probabilità sono destinate a essere preservate come tali il più a lungo possibile. Il punto di riduzione è tipicamente la decisione finale della supply chain, che massimizza i rendimenti di fronte a futuri incerti.
Rimozione degli outlier statistici
La maggior parte dei classici metodi numerici - saldamente radicati nella prospettiva deterministica delle previsioni (ad esempio le medie mobili) - si comportano male quando si incontrano outlier statistici. Pertanto, molte aziende stabiliscono processi per “pulire” manualmente i dati storici da questi outlier. Tuttavia, questa necessità di un processo di pulizia evidenzia solo le carenze di quei metodi numerici. Al contrario, gli outlier statistici sono un ingrediente essenziale della previsione probabilistica in quanto contribuiscono a ottenere una migliore comprensione di ciò che sta accadendo alla coda della distribuzione. In altre parole, questi outlier sono la chiave per quantificare la probabilità di incontrare ulteriori outlier.
Portare una spada a una sparatoria
L’uso di strumenti specializzati è necessario per manipolare le distribuzioni di probabilità. La produzione di previsioni probabilistiche è solo uno dei tanti passaggi necessari per fornire un valore effettivo all’azienda. Molti professionisti della supply chain finiscono per scartare le previsioni probabilistiche a causa della mancanza di strumenti adatti per utilizzarle. Molti fornitori di software aziendale si sono uniti alla moda e ora sostengono di supportare “previsioni probabilistiche” (insieme a “AI” e “blockchain”), ma in realtà non sono mai andati oltre l’implementazione cosmetica di alcuni modelli probabilistici (vedi la sezione precedente). Mostrare un modello di previsione probabilistica non vale praticamente nulla senza gli strumenti adeguati per sfruttare i suoi risultati numerici.
Note
-
La funzione smooth() in Envision è utile per regolarizzare le variabili casuali attraverso un processo di campionamento discreto di qualche tipo. ↩︎
-
La conoscenza preliminare sulla struttura del problema non deve essere confusa con la conoscenza preliminare della soluzione stessa. I “sistemi esperti” sviluppati negli anni ‘50 come una collezione di regole scritte a mano hanno fallito, perché gli esperti umani non riescono a tradurre letteralmente la loro intuizione in regole numeriche nella pratica. Le conoscenze preliminari strutturali, come quelle utilizzate nella programmazione differenziabile, delineano il principio, non i dettagli, della soluzione. ↩︎