La generalizzazione è la capacità di un algoritmo di generare un modello - sfruttando un dataset - che si comporta bene su dati non visti in precedenza. La generalizzazione è di fondamentale importanza per la supply chain, poiché la maggior parte delle decisioni riflette un’anticipazione del futuro. Nel contesto della previsione, i dati sono invisibili perché il modello prevede eventi futuri, che sono inosservabili. Nonostante siano stati compiuti progressi sostanziali, sia teorici che pratici, sul fronte della generalizzazione dagli anni ‘90, la generalizzazione vera rimane sfuggente. La risoluzione completa del problema della generalizzazione potrebbe non essere molto diversa da quella del problema dell’intelligenza artificiale generale. Inoltre, la supply chain aggiunge la propria serie di problematiche spinose alle sfide generali della generalizzazione.
Panoramica di una contraddizione
Creare un modello che si comporti perfettamente sui dati disponibili è semplice: basta memorizzare completamente il dataset e quindi utilizzare il dataset stesso per rispondere a qualsiasi query riguardante il dataset. Poiché i computer sono bravi a registrare grandi dataset, è facile creare un tale modello. Tuttavia, di solito è anche inutile1, poiché l’interesse principale di avere un modello risiede nella sua capacità predittiva oltre ciò che è già stato osservato.
Si presenta quindi un paradosso apparentemente inevitabile: un buon modello è uno che si comporta bene su dati attualmente non disponibili ma, per definizione, se i dati non sono disponibili, l’osservatore non può effettuare la valutazione. Il termine “generalizzazione” si riferisce quindi alla capacità sfuggente di certi modelli di mantenere la loro rilevanza e qualità oltre le osservazioni disponibili al momento della costruzione del modello.
Sebbene la memorizzazione delle osservazioni possa essere considerata una strategia di modellazione inadeguata, qualsiasi strategia alternativa per creare un modello è potenzialmente soggetta allo stesso problema. Indipendentemente da quanto bene il modello sembri comportarsi sui dati attualmente disponibili, è sempre concepibile che sia solo una questione di caso, o peggio, un difetto della strategia di modellazione. Quello che può sembrare inizialmente un paradosso statistico marginale è, in realtà, un problema di vasta portata.
A titolo di prova aneddotica, nel 1979 la SEC (Securities and Exchange Commission), l’agenzia statunitense responsabile della regolamentazione dei mercati finanziari, ha introdotto la famosa Regola 156. Questa regola richiede ai gestori di fondi di informare gli investitori che le prestazioni passate non sono indicative dei risultati futuri. Le prestazioni passate sono implicitamente il “modello” che la SEC avverte di non fidarsi per la sua potenza di “generalizzazione”; cioè la sua capacità di dire qualcosa sul futuro.
Anche la scienza stessa sta lottando con il significato di estrapolare la “verità” al di fuori di un insieme ristretto di osservazioni. Gli scandali della “cattiva scienza”, che si sono svolti negli anni 2000 e 2010 intorno al p-hacking, indicano che interi campi di ricerca sono fallimentari e non possono essere fidati2. Mentre ci sono casi di frode palese in cui i dati sperimentali sono stati chiaramente manomessi, nella maggior parte dei casi, il fulcro del problema risiede nei modelli; cioè nel processo intellettuale utilizzato per generalizzare ciò che è stato osservato.
Nella sua forma più ampia, il problema della generalizzazione è indistinguibile da quello della scienza stessa, quindi è difficile replicare l’ampiezza dell’ingegno e del potenziale umano. Tuttavia, il sapore statistico più limitato del problema della generalizzazione è molto più accessibile, ed è questa la prospettiva che verrà adottata nelle prossime sezioni.
Emergenza di una nuova scienza
La generalizzazione è emersa come paradigma statistico all’inizio del XX secolo, principalmente attraverso la lente dell’accuratezza delle previsioni3, che rappresenta un caso speciale strettamente legato alle previsioni delle serie temporali. All’inizio del 1900, l’emergere di una classe media proprietaria di azioni negli Stati Uniti ha generato un enorme interesse per metodi che aiutassero le persone a ottenere rendimenti finanziari sui loro asset negoziati. Gli indovini e gli economisti previsionisti si sono impegnati a estrapolare eventi futuri per un pubblico desideroso di pagare. Fortunes sono state fatte e perse, ma quegli sforzi hanno gettato pochissima luce sul “modo corretto” di affrontare il problema.
La generalizzazione è rimasta, per la maggior parte, un problema sconcertante per la maggior parte del XX secolo. Non era nemmeno chiaro se appartenesse al campo delle scienze naturali, governate da osservazioni e sperimentazioni, o al campo della filosofia e della matematica, governate dalla logica e dalla coerenza interna.
Lo spazio ha continuato a trascinarsi fino a un momento storico nel 1982, l’anno della prima competizione di previsione pubblica - conosciuta colloquialmente come competizione M4. Il principio era semplice: pubblicare un dataset di 1000 serie temporali troncate, consentire ai concorrenti di inviare le loro previsioni e infine pubblicare il resto del dataset (le code troncate) insieme alle accuratezze raggiunte dai partecipanti. Attraverso questa competizione, la generalizzazione, ancora vista attraverso la lente dell’accuratezza delle previsioni, era entrata nel campo delle scienze naturali. In seguito, le competizioni di previsione sono diventate sempre più frequenti.
Alcune decadi dopo, Kaggle, fondata nel 2010, ha aggiunto una nuova dimensione a tali competizioni creando una piattaforma dedicata a problemi di previsione generale (non solo serie temporali). Ad oggi, febbraio 20235, la piattaforma ha organizzato 349 competizioni con premi in denaro. Il principio rimane lo stesso della competizione M originale: viene reso disponibile un dataset troncato, i concorrenti inviano le loro risposte ai compiti di previsione dati e infine, le classifiche insieme alla porzione nascosta del dataset vengono rivelate. Le competizioni sono ancora considerate lo standard di riferimento per la corretta valutazione dell’errore di generalizzazione dei modelli.
Overfitting e underfitting
Overfitting, come il suo opposto underfitting, è un problema che si presenta frequentemente durante la creazione di un modello basato su un determinato dataset e compromette la capacità di generalizzazione del modello. Storicamente6, l’overfitting è emerso come il primo ostacolo ben compreso alla generalizzazione.
La visualizzazione dell’overfitting può essere fatta utilizzando un semplice problema di modellazione delle serie temporali. Ai fini di questo esempio, si assume che l’obiettivo sia creare un modello che rifletta una serie di osservazioni storiche. Una delle opzioni più semplici per modellare queste osservazioni è un modello lineare come illustrato di seguito (vedi Figura 1).
Figura 1: Un grafico composito che rappresenta tre diversi tentativi di 'adattare' una serie di osservazioni.
Con due parametri, il modello “sotto-adattato” è robusto, ma, come suggerisce il nome, sotto-adatta i dati, poiché fallisce chiaramente nel catturare la forma complessiva della distribuzione delle osservazioni. Questo approccio lineare ha un alto bias ma una bassa varianza. In questo contesto, bias dovrebbe essere inteso come la limitazione intrinseca della strategia di modellazione nel catturare i dettagli delle osservazioni, mentre varianza dovrebbe essere intesa come la sensibilità alle piccole fluttuazioni - eventualmente rumore - delle osservazioni.
Potrebbe essere adottato un modello abbastanza complesso, come la curva di “sovra-adattamento” (Figura 1). Questo modello include molti parametri e si adatta esattamente alle osservazioni. Questo approccio ha un basso bias ma una varianza dimostrabilmente alta. In alternativa, potrebbe essere adottato un modello di complessità intermedia, come si vede nella curva di “adattamento corretto” (Figura 1). Questo modello include tre parametri, ha un bias medio e una varianza media. Di queste tre opzioni, il modello di adattamento corretto è invariabilmente quello che si comporta meglio per quanto riguarda la generalizzazione.
Queste opzioni di modellazione rappresentano l’essenza del compromesso tra bias e varianza.7 8 Il compromesso tra bias e varianza è un principio generale che stabilisce che il bias può essere ridotto aumentando la varianza. L’errore di generalizzazione viene minimizzato trovando il giusto equilibrio tra la quantità di bias e varianza.
Storicamente, dal primo Novecento fino ai primi anni 2010, un modello sovra-adattato era definito9 come uno che contiene più parametri di quelli giustificabili dai dati. Infatti, a prima vista, aggiungere troppi gradi di libertà a un modello sembra essere la ricetta perfetta per problemi di sovra-adattamento. Tuttavia, l’emergere del deep learning ha dimostrato che questa intuizione e la definizione di sovra-adattamento sono fuorvianti. Questo punto verrà ripreso nella sezione su deep double-descent.
Cross-validation e backtesting
La cross-validation è una tecnica di convalida del modello utilizzata per valutare quanto bene un modello si generalizzerà oltre il suo dataset di supporto. È un metodo di sottocampionamento che utilizza diverse porzioni dei dati per testare e allenare rispettivamente un modello su diverse iterazioni. La cross-validation è il pane quotidiano delle pratiche moderne di previsione e quasi tutti i partecipanti vincenti alle competizioni di previsione fanno un ampio uso della cross-validation.
Esistono numerose varianti della cross-validation. La variante più popolare è la validazione k-fold, in cui il campione originale viene suddiviso casualmente in k sottocampioni. Ogni sottocampione viene utilizzato una volta come dati di convalida, mentre il resto - tutti gli altri sottocampioni - viene utilizzato come dati di allenamento.
Figura 2: Una validazione K-fold di esempio. Le osservazioni sopra provengono tutte dallo stesso dataset. La tecnica costruisce quindi sottocampioni di dati per scopi di convalida e allenamento.
La scelta del valore k, il numero di sottocampioni, è un compromesso tra marginali guadagni statistici e requisiti in termini di risorse di calcolo. Infatti, con la k-fold, le risorse di calcolo crescono linearmente con il valore k, mentre i benefici, in termini di riduzione dell’errore, subiscono un ritorno decrescente estremo10. In pratica, selezionare un valore di 10 o 20 per k è di solito “abbastanza buono”, poiché i guadagni statistici associati a valori più alti non valgono l’inconveniente aggiuntivo associato alla maggiore spesa di risorse di calcolo.
La cross-validation assume che il dataset possa essere decomposto in una serie di osservazioni indipendenti. Tuttavia, nella supply chain, questo non è spesso il caso, poiché il dataset di solito riflette una sorta di dati storicizzati in cui è presente una dipendenza temporale. In presenza di tempo, il sottocampione di allenamento deve essere imposto come strettamente “precedente” al sottocampione di convalida. In altre parole, il “futuro”, rispetto al punto di taglio del campionamento, non deve filtrare nel sottocampione di convalida.
Figura 3: Un esempio di processo di backtesting costruisce sottocampioni di dati per scopi di convalida e allenamento.
Backtesting rappresenta la variante della cross-validation che affronta direttamente la dipendenza temporale. Invece di considerare sottocampioni casuali, i dati di allenamento e di convalida vengono ottenuti rispettivamente attraverso un punto di taglio: le osservazioni precedenti al punto di taglio appartengono ai dati di allenamento, mentre le osservazioni successive al punto di taglio appartengono ai dati di convalida. Il processo viene iterato scegliendo una serie di valori di taglio distinti.
Il metodo di campionamento che sta alla base sia della cross-validation che del backtesting è un meccanismo potente per orientare lo sforzo di modellazione verso un percorso di maggiore generalizzazione. Infatti, è così efficiente che esiste un’intera classe di algoritmi (di apprendimento) che abbraccia proprio questo meccanismo. I più noti sono random forests e gradient boosted trees.
Superare la barriera dimensionale
È naturale che più dati si hanno, più informazioni ci sono da apprendere. Pertanto, tutto considerato uguale, più dati dovrebbero portare a modelli migliori, o almeno a modelli che non sono peggiori dei loro predecessori. Dopotutto, se più dati rendono il modello peggiore, è sempre possibile ignorare i dati come ultima risorsa. Tuttavia, a causa dei problemi di overfitting, scartare i dati rimase la soluzione del “male minore” fino alla fine degli anni ‘90. Questo era il fulcro del problema della “barriera dimensionale”. Questa situazione era sia confusa che profondamente insoddisfacente. Le scoperte degli anni ‘90 hanno infranto le barriere dimensionali con sorprendenti intuizioni, sia teoriche che pratiche. Nel processo, queste scoperte sono riuscite a deviare - attraverso il puro potere della distrazione - l’intero campo di studio per un decennio, ritardando l’avvento dei suoi successori, principalmente i metodi di deep learning - discussi nella sezione successiva.
Per comprendere meglio ciò che era sbagliato nel possedere più dati, considera il seguente scenario: un produttore immaginario desidera prevedere il numero di riparazioni non programmate all’anno su grandi pezzi di attrezzatura industriale. Dopo attenta considerazione del problema, il team di ingegneria ha identificato tre fattori indipendenti che sembrano contribuire ai tassi di guasto. Tuttavia, il contributo rispettivo di ciascun fattore nel tasso di guasto complessivo non è chiaro.
Pertanto, viene introdotto un semplice modello di regressione lineare con 3 variabili di input. Il modello può essere scritto come Y = a1 * X1 + a2 * X2 + a3 * X3, dove
- Y è l’output del modello lineare (il tasso di guasto che gli ingegneri vogliono prevedere)
- X1, X2 e X3 sono i tre fattori (tipi specifici di carichi di lavoro espressi in ore di funzionamento) che possono contribuire ai guasti
- a1, a2 e a3 sono i tre parametri del modello che devono essere identificati.
Il numero di osservazioni necessarie per ottenere stime “abbastanza buone” per i tre parametri dipende in gran parte dal livello di rumore presente nell’osservazione e da ciò che viene considerato “abbastanza buono”. Tuttavia, intuitivamente, per adattare tre parametri, sarebbero necessarie almeno due dozzine di osservazioni, anche nelle situazioni più favorevoli. Poiché gli ingegneri sono in grado di raccogliere 100 osservazioni, riescono a regredire con successo 3 parametri e il modello risultante sembra essere “abbastanza buono” per essere di interesse pratico. Il modello non riesce a catturare molti aspetti delle 100 osservazioni, rendendolo un’approssimazione molto approssimativa, ma quando questo modello viene confrontato con altre situazioni attraverso esperimenti mentali, l’intuizione e l’esperienza dicono agli ingegneri che il modello sembra comportarsi ragionevolmente.
Sulla base del loro primo successo, gli ingegneri decidono di approfondire. Questa volta, sfruttano l’intera gamma di sensori elettronici incorporati nelle macchine e, attraverso i record elettronici prodotti da quei sensori, riescono ad aumentare l’insieme dei fattori di input a 10.000. Inizialmente, il dataset era composto da 100 osservazioni, con ciascuna osservazione caratterizzata da 3 numeri. Ora, il dataset è stato ampliato; sono sempre le stesse 100 osservazioni, ma ci sono 10.000 numeri per osservazione.
Tuttavia, quando gli ingegneri cercano di applicare lo stesso approccio al loro dataset notevolmente arricchito, il modello lineare non funziona più. Poiché ci sono 10.000 dimensioni, il modello lineare comporta 10.000 parametri; e le 100 osservazioni non sono sufficienti per supportare la regressione di così tanti parametri. Il problema non è che sia impossibile trovare valori dei parametri che si adattino, piuttosto il contrario: è diventato banale trovare insiemi infiniti di parametri che si adattano perfettamente alle osservazioni. Tuttavia, nessuno di questi modelli “adattanti” è di alcuna utilità pratica. Questi modelli “grandi” si adattano perfettamente alle 100 osservazioni, ma al di fuori di quelle osservazioni, i modelli diventano insensati.
Gli ingegneri si trovano di fronte alla barriera dimensionale: apparentemente, il numero di parametri deve rimanere piccolo rispetto alle osservazioni, altrimenti lo sforzo di modellazione si sgretola. Questo problema è irritante poiché il dataset “più grande”, con 10.000 dimensioni anziché 3, è ovviamente più informativo rispetto a quello più piccolo. Pertanto, un modello statistico adeguato dovrebbe essere in grado di catturare queste informazioni extra anziché diventare disfunzionale quando si confronta con esse.
A metà degli anni ‘90, una doppia svolta11, sia teorica che sperimentale, ha sconvolto la comunità. La svolta teorica è stata la teoria di Vapnik-Chervonenkis (VC)12. La teoria VC ha dimostrato che, considerando tipi specifici di modelli, l’errore reale poteva essere limitato superiormente da ciò che in modo approssimativo equivaleva alla somma dell’errore empirico più il rischio strutturale, una proprietà intrinseca del modello stesso. In questo contesto, “errore reale” è l’errore sperimentato sui dati che non si hanno, mentre “errore empirico” è l’errore sperimentato sui dati che si hanno. Minimizzando la somma dell’errore empirico e del rischio strutturale, l’errore reale poteva essere minimizzato, poiché era “racchiuso”. Questo rappresentava sia un risultato sorprendente che probabilmente il passo più importante verso la generalizzazione dall’identificazione del problema dell’overfitting stesso.
Sul fronte sperimentale, modelli successivamente noti come Support Vector Machines (SVM) sono stati introdotti quasi come una derivazione da manuale di ciò che la teoria VC aveva identificato sull’apprendimento. Queste SVM sono diventate i primi modelli di successo in grado di fare un uso soddisfacente di set di dati in cui il numero di dimensioni superava il numero di osservazioni.
Racchiudendo l’errore reale, un risultato teorico veramente sorprendente, la teoria VC aveva superato la barriera dimensionale - qualcosa che era rimasto irrisolto per quasi un secolo. Ha anche aperto la strada a modelli capaci di sfruttare dati ad alta dimensionalità. Tuttavia, presto le SVM sono state sostituite da modelli alternativi, principalmente metodi di insieme (foreste casuali13 e boosting del gradiente), che si sono dimostrati alternative superiori nei primi anni 200014, prevalendo sia nella generalizzazione che nei requisiti di calcolo. Come le SVM che hanno sostituito, anche i metodi di insieme beneficiano di garanzie teoriche per quanto riguarda la loro capacità di evitare l’overfitting. Tutti questi metodi condividono la proprietà di essere metodi non parametrici. La barriera dimensionale era stata superata grazie all’introduzione di modelli che non avevano bisogno di introdurre uno o più parametri per ogni dimensione, evitando così i problemi noti di overfitting.
Tornando al problema delle riparazioni non programmate menzionato in precedenza, a differenza dei classici modelli statistici - come la regressione lineare, che fallisce contro la barriera dimensionale - i metodi di insieme avrebbero avuto successo nel sfruttare il grande set di dati e le sue 10.000 dimensioni anche se ci sono solo 100 osservazioni. Inoltre, i metodi di insieme eccellerebbero più o meno fuori dalla scatola. Operativamente, questo è stato uno sviluppo notevole, poiché ha eliminato la necessità di creare meticolosamente modelli scegliendo l’insieme di dimensioni di input esattamente corretto.
L’impatto sulla comunità più ampia, sia all’interno che all’esterno dell’accademia, è stato enorme. La maggior parte degli sforzi di ricerca nei primi anni 2000 era dedicata all’esplorazione di questi approcci non parametrici “supportati dalla teoria”. Tuttavia, i successi sono svaniti piuttosto rapidamente nel corso degli anni. Infatti, a distanza di vent’anni, i migliori modelli da quello che è stato definito il punto di vista dell’apprendimento statistico rimangono gli stessi - beneficiando semplicemente di implementazioni più performanti15.
La doppia discesa profonda
Fino al 2010, la saggezza convenzionale imponeva che, al fine di evitare problemi di overfitting, il numero di parametri dovesse rimanere molto più piccolo rispetto al numero di osservazioni. Infatti, poiché ogni parametro rappresentava implicitamente un grado di libertà, avere tanti parametri quante osservazioni era una ricetta per garantire l’overfitting16. I metodi di insieme hanno aggirato completamente il problema essendo non parametrici fin dall’inizio. Eppure, questa intuizione critica si è rivelata sbagliata, e in modo spettacolare.
Quello che in seguito è stato definito l’approccio deep learning ha sorpreso quasi tutta la comunità attraverso modelli iperparametrici. Questi sono modelli che non soffrono di overfitting ma contengono molte volte più parametri rispetto alle osservazioni.
La genesi del deep learning è complessa e può essere fatta risalire ai primi tentativi di modellare i processi del cervello, ovvero le reti neurali. Sviscerare questa genesi va oltre l’ambito della presente discussione, tuttavia, vale la pena notare che la rivoluzione del deep learning dei primi anni 2010 è iniziata proprio quando il campo ha abbandonato la metafora delle reti neurali a favore della simpatia meccanica. Le implementazioni del deep learning hanno sostituito i modelli precedenti con varianti molto più semplici. Questi nuovi modelli hanno sfruttato hardware di calcolo alternativo, in particolare le GPU (unità di elaborazione grafica), che si sono rivelate, in modo un po’ casuale, adatte alle operazioni di algebra lineare che caratterizzano i modelli di deep learning17.
Ci sono voluti quasi altri cinque anni perché il deep learning fosse ampiamente riconosciuto come una svolta. Una parte considerevole della reticenza proveniva dal campo del statistical learning - coincidentalmente, la sezione della comunità che era riuscita con successo a superare la barriera dimensionale due decenni prima. Mentre le spiegazioni variano per questa reticenza, la contraddizione apparente tra la saggezza convenzionale dell’overfitting e le affermazioni del deep learning ha certamente contribuito a un apprezzabile livello di scetticismo iniziale riguardo a questa nuova classe di modelli.
La contraddizione è rimasta in gran parte irrisolta fino al 2019, quando è stato identificato il doppio discesa del deep18, un fenomeno che caratterizza il comportamento di determinate classi di modelli. Per tali modelli, aumentare il numero di parametri degrada prima l’errore di test (attraverso l’overfitting), fino a quando il numero di parametri diventa abbastanza grande da invertire il trend e migliorare nuovamente l’errore di test. La “seconda discesa” (dell’errore di test) non era un comportamento previsto dalla prospettiva del trade-off del bias.
Figura 4. Un doppio discesa del deep.
La Figura 4 illustra i due regimi successivi descritti sopra. Il primo regime è il classico trade-off tra bias e varianza che sembra essere accompagnato da un numero “ottimale” di parametri. Tuttavia, questo minimo si rivela essere un minimo locale. C’è un secondo regime, osservabile se si continua ad aumentare il numero di parametri, che mostra una convergenza asintotica verso un effettivo errore di test ottimale per il modello.
Il doppio discesa del deep non solo ha conciliato le prospettive statistiche e di deep learning, ma ha anche dimostrato che la generalizzazione rimane relativamente poco compresa. Ha dimostrato che le teorie ampiamente diffuse - comuni fino alla fine degli anni 2010 - presentavano una prospettiva distorta sulla generalizzazione. Tuttavia, il doppio discesa del deep non fornisce ancora un quadro - o qualcosa di equivalente - che preveda i poteri di generalizzazione (o la loro mancanza) dei modelli in base alla loro struttura. Ad oggi, l’approccio rimane fermamente empirico.
Le spine della supply chain
Come ampiamente trattato, la generalizzazione è estremamente difficile e le supply chain riescono a introdurre ulteriori particolarità, intensificando ulteriormente la situazione. In primo luogo, i dati che i professionisti della supply chain cercano possono rimanere per sempre inaccessibili; non solo parzialmente invisibili, ma completamente inosservabili. In secondo luogo, il semplice atto di previsione può alterare il futuro e la validità della previsione stessa, poiché le decisioni si basano proprio su tali previsioni. Pertanto, quando si affronta la generalizzazione in un contesto di supply chain, dovrebbe essere utilizzato un approccio a due gambe; una gamba è la solidità statistica del modello e l’altra è il ragionamento di alto livello che supporta il modello.
Inoltre, i dati disponibili non sono sempre i dati desiderati. Consideriamo un produttore che vuole prevedere la domanda al fine di decidere le quantità da produrre. Non esiste una cosa del genere come dati storici di “domanda”. Invece, i dati storici di vendita rappresentano il miglior proxy disponibile per il produttore per riflettere la domanda storica. Tuttavia, le vendite storiche sono distorte da passati stock-out. Le vendite nulle, causate da stock-out, non devono essere confuse con la domanda nulla. Sebbene un modello possa essere creato per correggere questa storia delle vendite in una sorta di storia della domanda, l’errore di generalizzazione di questo modello è sfuggente per design, poiché né il passato né il futuro contengono questi dati. In breve, “domanda” è una costruzione necessaria ma intangibile.
Nel gergo dell’apprendimento automatico, modellare la domanda è un problema di apprendimento non supervisionato in cui l’output del modello non viene mai osservato direttamente. Questo aspetto non supervisionato sconfigge la maggior parte degli algoritmi di apprendimento e delle tecniche di convalida del modello, almeno nella loro forma “naïve”. Inoltre, sconfigge anche l’idea stessa di competizione di previsione, intendendo qui un semplice processo a due fasi in cui un set di dati originale viene diviso in un sottoinsieme pubblico (di addestramento) e un sottoinsieme privato (di convalida). La convalida stessa diventa un esercizio di modellazione, per necessità.
In parole semplici, la previsione creata dal produttore darà forma, in un modo o nell’altro, al futuro che il produttore esperimenterà. Una previsione di domanda elevata significa che il produttore aumenterà la produzione. Se l’azienda è ben gestita, è probabile che si raggiungano economie di scala nel processo di produzione, riducendo così i costi di produzione. A sua volta, il produttore è probabile che approfitti di queste nuove economie al fine di abbassare i prezzi, guadagnando così un vantaggio competitivo rispetto ai concorrenti. Il mercato, alla ricerca dell’opzione più economica, potrebbe adottare rapidamente questo produttore come la sua opzione più competitiva, scatenando così una crescita della domanda ben oltre la previsione iniziale.
Questo fenomeno è noto come una profezia che si autoavvera, una previsione che tende a diventare vera per virtù della convinzione che i partecipanti hanno nella previsione stessa. Una prospettiva non ortodossa, ma non del tutto irragionevole, caratterizzerebbe le catene di fornitura come giganteschi marchingegni di Rube Goldberg che si autoavverano. A livello metodologico, questo intreccio tra osservatore e osservazione complica ulteriormente la situazione, poiché la generalizzazione diventa associata alla cattura dell’intento strategico che sta alla base degli sviluppi della catena di fornitura.
A questo punto, la sfida della generalizzazione, come si presenta nella catena di fornitura, potrebbe sembrare insormontabile. I fogli di calcolo, che rimangono onnipresenti nelle catene di fornitura, lasciano certamente intendere che questa è la posizione predefinita, sebbene implicita, della maggior parte delle aziende. Un foglio di calcolo è, tuttavia, prima di tutto uno strumento per rinviare la risoluzione del problema a un giudizio umano ad hoc, piuttosto che all’applicazione di un metodo sistematico.
Sebbene il ricorso al giudizio umano sia invariabilmente una risposta sbagliata (in sé), non è neanche una risposta soddisfacente al problema. La presenza di stock-out non significa che qualsiasi cosa vada bene per quanto riguarda la domanda. Certamente, se il produttore ha mantenuto livelli di servizio medi superiori al 90% negli ultimi tre anni, sarebbe altamente improbabile che la domanda (osservata) potesse essere stata 10 volte superiore alle vendite. Pertanto, è ragionevole aspettarsi che possa essere progettato un metodo sistematico per affrontare tali distorsioni. Allo stesso modo, la profezia che si autoavvera può essere modellata, soprattutto attraverso la nozione di politica come intesa dalla teoria del controllo.
Pertanto, quando si considera una catena di fornitura del mondo reale, la generalizzazione richiede un approccio a due gambe. In primo luogo, il modello deve essere statisticamente valido, nella misura consentita dalle ampie “scienze dell’apprendimento”. Questo comprende non solo prospettive teoriche come la statistica classica e l’apprendimento statistico, ma anche sforzi empirici come l’apprendimento automatico e le competizioni di previsione. Tornare alla statistica del XIX secolo non è una proposta ragionevole per una pratica di catena di fornitura del XXI secolo.
In secondo luogo, il modello deve essere supportato da un ragionamento di alto livello. In altre parole, per ogni componente del modello e per ogni passo del processo di modellazione, dovrebbe esserci una giustificazione che abbia senso da una prospettiva di catena di fornitura. Senza questo elemento, il caos operativo19 è quasi garantito, di solito scatenato da qualche evoluzione della stessa catena di fornitura, del suo ecosistema operativo o del suo panorama applicativo sottostante. Infatti, il punto fondamentale del ragionamento di alto livello non è far funzionare un modello una volta, ma farlo funzionare in modo sostenibile nel corso di diversi anni in un ambiente in continua evoluzione. Questo ragionamento è l’ingrediente non così segreto che aiuta a decidere quando è il momento di rivedere il modello quando il suo design, qualunque esso sia, non si allinea più con la realtà e/o gli obiettivi aziendali.
Da lontano, questa proposta potrebbe sembrare vulnerabile alla critica precedente rivolta ai fogli di calcolo - quella contro il deferimento del lavoro duro a un “giudizio umano” sfuggente. Sebbene questa proposta ancora differisca la valutazione del modello al giudizio umano, l’esecuzione del modello è intesa come completamente automatizzata. Pertanto, le operazioni quotidiane sono destinate ad essere completamente automatizzate, anche se gli sforzi di ingegneria in corso per migliorare ulteriormente le ricette numeriche non lo sono.
Note
-
Esiste una tecnica algoritmica importante chiamata “memoization” che sostituisce precisamente un risultato che potrebbe essere ricalcolato con il suo risultato pre-calcolato, scambiando quindi più memoria per meno calcolo. Tuttavia, questa tecnica non è rilevante per la presente discussione. ↩︎
-
Perché la maggior parte delle scoperte di ricerca pubblicate sono false, John P. A. Ioannidis, agosto 2005 ↩︎
-
Dal punto di vista della previsione delle serie temporali, la nozione di generalizzazione è affrontata attraverso il concetto di “accuratezza”. L’accuratezza può essere vista come un caso particolare di “generalizzazione” quando si considerano le serie temporali. ↩︎
-
Makridakis, S.; Andersen, A.; Carbone, R.; Fildes, R.; Hibon, M.; Lewandowski, R.; Newton, J.; Parzen, E.; Winkler, R. (aprile 1982). “L’accuratezza dei metodi di estrapolazione (serie temporali): risultati di una competizione di previsione”. Journal of Forecasting. 1 (2): 111-153. doi:10.1002/for.3980010202. ↩︎
-
Kaggle in Numbers, Carl McBride Ellis, recuperato l'8 febbraio 2023, ↩︎
-
L’estratto del 1935 “Forse siamo antiquati, ma per noi un’analisi a sei variabili basata su tredici osservazioni sembra piuttosto come un sovradattamento”, da “The Quarterly Review of Biology” (settembre 1935 Volume 10, Numero 3pp. 341 - 377), sembra indicare che il concetto statistico di sovradattamento era già stato stabilito in quel periodo. ↩︎
-
Grenander, Ulf. Sull’analisi spettrale empirica dei processi stocastici. Ark. Mat., 1(6):503– 531, 08 1952. ↩︎
-
Whittle, P. Tests of Fit in Time Series, Vol. 39, No. 3/4 (Dec., 1952), pp. 309-318] (10 pagine), Oxford University Press ↩︎
-
Everitt B.S., Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press. ↩︎
-
I benefici asintotici dell’utilizzo di valori k più grandi per il k-fold possono essere dedotti dal teorema del limite centrale. Questa intuizione suggerisce che, aumentando k, possiamo avvicinarci approssimativamente a 1 / sqrt(k) dallo sfruttamento completo di tutto il potenziale di miglioramento portato dal k-fold in primo luogo. ↩︎
-
Support-vector networks, Corinna Cortes, Vladimir Vapnik, Machine Learning volume 20, pages 273–297 (1995) ↩︎
-
La teoria di Vapnik-Chernovenkis (VC) non è stata l’unica candidata a formalizzare il significato di “apprendimento”. Il framework PAC (probabilmente approssimativamente corretto) di Valiant del 1984 ha aperto la strada agli approcci di apprendimento formale. Tuttavia, il framework PAC non ha avuto la stessa trazione immensa e i successi operativi che la teoria VC ha goduto intorno al millennio. ↩︎
-
Random Forests, Leo Breiman, Machine Learning volume 45, pages 5–32 (2001) ↩︎
-
Una delle conseguenze sfortunate del fatto che le Support Vector Machines (SVM) siano fortemente ispirate da una teoria matematica è che questi modelli hanno poca “simpatia meccanica” per l’hardware informatico moderno. L’inadeguatezza relativa delle SVM nel processare grandi set di dati - compresi milioni di osservazioni o più - rispetto alle alternative ha segnato la caduta di questi metodi. ↩︎
-
XGBoost e LightGBM sono due implementazioni open-source dei metodi di ensemble che rimangono ampiamente popolari nel campo dell’apprendimento automatico. ↩︎
-
Per una questione di concisione, qui c’è un po’ di semplificazione. Esiste un intero campo di ricerca dedicato alla “regolarizzazione” dei modelli statistici. In presenza di vincoli di regolarizzazione, il numero di parametri, anche considerando un modello classico come una regressione lineare, può superare in sicurezza il numero di osservazioni. In presenza di regolarizzazione, nessun valore dei parametri rappresenta più un grado di libertà completo, ma piuttosto una frazione di uno. Pertanto, sarebbe più corretto fare riferimento al numero di gradi di libertà anziché al numero di parametri. Poiché queste considerazioni tangenziali non alterano fondamentalmente le opinioni qui presentate, la versione semplificata sarà sufficiente. ↩︎
-
In realtà, la causalità è inversa. I pionieri del deep learning sono riusciti a rielaborare i loro modelli originali - le reti neurali - in modelli più semplici che si basavano quasi esclusivamente sull’algebra lineare. Lo scopo di questa rielaborazione era proprio quello di rendere possibile l’esecuzione di questi nuovi modelli su hardware informatico che scambiava la versatilità per la potenza grezza, ovvero le GPU. ↩︎
-
Deep Double Descent: Where Bigger Models and More Data Hurt, Preetum Nakkiran, Gal Kaplun, Yamini Bansal, Tristan Yang, Boaz Barak, Ilya Sutskever, dicembre 2019 ↩︎
-
La stragrande maggioranza delle iniziative di data science nella supply chain fallisce. Le mie osservazioni informali indicano che l’ignoranza del data scientist su ciò che fa funzionare la supply chain è la causa principale di gran parte di questi fallimenti. Sebbene sia incredibilmente allettante - per un data scientist appena addestrato - sfruttare il pacchetto di machine learning open-source più recente e più brillante, non tutte le tecniche di modellazione sono altrettanto adatte a supportare il ragionamento di alto livello. Infatti, la maggior parte delle tecniche “mainstream” sono terribili quando si tratta del processo di whiteboxing. ↩︎