Probabilistische Prognose (Supply Chain)

learn menu
Von Joannes Vermorel, November 2020

Eine Prognose gilt als probabilistisch, anstatt deterministisch, wenn sie eine Reihe von Wahrscheinlichkeiten enthält, die mit allen möglichen zukünftigen Ergebnissen verbunden sind, anstatt ein bestimmtes Ergebnis als “die” Prognose zu bestimmen. Probabilistische Prognosen sind immer dann wichtig, wenn Unsicherheit nicht reduzierbar ist, was fast immer der Fall ist, wenn komplexe Systeme betroffen sind. Für Supply Chains sind probabilistische Prognosen unerlässlich, um robuste Entscheidungen gegenüber unsicheren zukünftigen Bedingungen zu treffen. Insbesondere Nachfrage und Lieferzeit, zwei wichtige Aspekte der Supply Chain-Analyse, werden am besten durch probabilistische Prognosen behandelt. Die probabilistische Perspektive eignet sich natürlicherweise für die wirtschaftliche Priorisierung von Entscheidungen auf der Grundlage ihrer erwarteten, aber unsicheren Renditen. Eine Vielzahl von statistischen Modellen liefert probabilistische Prognosen. Einige sind strukturell eng mit ihren deterministischen Gegenstücken verwandt, während andere sehr unterschiedlich sind. Die Bewertung der Genauigkeit einer probabilistischen Prognose erfordert spezifische Metriken, die sich von ihren deterministischen Gegenstücken unterscheiden. Die Nutzung probabilistischer Prognosen erfordert spezialisierte Werkzeuge, die sich von ihren deterministischen Gegenstücken unterscheiden.

Viele Würfel, die die probabilistische Prognose veranschaulichen

Deterministische vs. probabilistische Prognosen

Die Optimierung von Supply Chains beruht auf der richtigen Vorwegnahme zukünftiger Ereignisse. Numerisch werden diese Ereignisse durch Prognosen vorweggenommen, die eine Vielzahl von numerischen Methoden umfassen, die zur Quantifizierung dieser zukünftigen Ereignisse verwendet werden. Seit den 1970er Jahren ist die am weitesten verbreitete Form der Prognose die deterministische Zeitreihen-Prognose: Eine über die Zeit gemessene Menge - zum Beispiel die Nachfrage in Einheiten für ein Produkt - wird in die Zukunft projiziert. Der vergangene Abschnitt der Zeitreihe ist die historische Daten, der zukünftige Abschnitt der Zeitreihe ist die Prognose.

Gleitender Durchschnitt als deterministische Prognose.
MA steht für “Moving Average” und ist auf dünn besiedelten Zeitreihen nicht besonders gut verhalten.

Diese Zeitreihenprognosen gelten als deterministisch, weil für jeden Zeitpunkt in der Zukunft die Prognose einen einzigen Wert liefert, der voraussichtlich dem zukünftigen Ergebnis so nahe wie möglich kommt. Tatsächlich ist zwar bekannt, dass die Prognose wenig Chancen hat, perfekt korrekt zu sein. Zukünftige Ergebnisse werden von der Prognose abweichen. Die Übereinstimmung der deterministischen Prognose mit ihren zukünftigen Ergebnissen wird quantitativ durch Genauigkeitsmetriken wie zum Beispiel den mittleren quadratischen Fehler (MSE) bewertet.

Probabilistische Prognosen nehmen eine andere Perspektive auf die Vorwegnahme zukünftiger Ergebnisse ein. Anstatt einen Wert als das “beste” Ergebnis zu liefern, besteht die probabilistische Prognose darin, jeder möglichen Ergebnis eine Wahrscheinlichkeit zuzuweisen. Mit anderen Worten, alle zukünftigen Ereignisse bleiben möglich, sie sind jedoch nicht gleich wahrscheinlich. Unten ist die Visualisierung einer probabilistischen Zeitreihenprognose mit dem “Shotgun-Effekt” dargestellt, der in den meisten realen Situationen typischerweise beobachtet wird. Wir werden diese Visualisierung später noch genauer betrachten.

Eine probabilistische Nachfrageprognose.
Eine probabilistische Prognose, die eine Situation mit hoher Unsicherheit veranschaulicht.

Zeitreihen, eine über die Zeit gemessene Größe, sind wahrscheinlich das bekannteste und am häufigsten verwendete Datenmodell. Dieses Datenmodell kann sowohl durch deterministische als auch durch probabilistische Methoden prognostiziert werden. Es gibt jedoch viele alternative, in der Regel umfangreichere Datenmodelle, die sich ebenfalls für Prognosen beider Arten eignen. Zum Beispiel möchte ein Unternehmen, das Flugzeugtriebwerke repariert, die genaue Liste der Ersatzteile vorhersagen, die für einen anstehenden Wartungseinsatz benötigt werden. Diese Vorhersage kann in Form einer Prognose erfolgen, wird jedoch keine Zeitreihenprognose sein. Die deterministische Prognose, die mit diesem Vorgang verbunden ist, ist die genaue Liste der Teile und ihrer Mengen. Im Gegensatz dazu ist die probabilistische Prognose die Wahrscheinlichkeit für jede Kombination von Teilen (einschließlich Mengen), dass diese spezifische Kombination diejenige sein wird, die für die Reparaturen benötigt wird.

Darüber hinaus kann der Begriff “Prognose” zwar eine Vorwegnahme jeglicher Art betonen, das Konzept kann jedoch auf jede Art von statistisch abgeleiteter Aussage über ein System verallgemeinert werden, einschließlich seiner vergangenen (aber unbekannten) Eigenschaften. Die statistische Prognose hat sich im Laufe des 20. Jahrhunderts entwickelt, bevor die modernere Perspektive des statistischen Lernens aufkam, die alle datengetriebenen Extrapolationen umfasst, die unabhängig von jeder zeitlichen Dimension durchgeführt werden können. Um die Klarheit zu wahren, werden wir den Begriff “Prognose” im Folgenden weiterhin verwenden, auch wenn der zeitliche Aspekt nicht immer Vergangenheit mit Bekanntem und Zukunft mit Unbekanntem gleichsetzt. Zum Beispiel möchte ein Unternehmen die Verkäufe schätzen, die für ein Produkt in einem Geschäft stattgefunden hätten, wenn das Produkt an diesem Tag nicht ausverkauft gewesen wäre. Die Schätzung ist nützlich, um das Ausmaß des Problems in Bezug auf die Servicequalität zu quantifizieren. Da das Ereignis jedoch vergangen ist, wird die “echte” Verkaufszahl niemals beobachtet werden. Dennoch ist die statistische Schätzung der vergangenen Nachfrage ein Problem, das dem der zukünftigen Nachfrage sehr nahe kommt, vorausgesetzt, es wurde noch nicht trivialerweise beobachtet.

Probabilistische Prognosen sind informationsreicher als ihre deterministischen Gegenstücke. Während die deterministische Prognose eine “beste Vermutung” über das zukünftige Ergebnis liefert, sagt sie nichts über die Alternativen aus. Tatsächlich ist es immer möglich, eine probabilistische Prognose in ihre deterministische Entsprechung umzuwandeln, indem man den Mittelwert, den Median, den Modus, … der Wahrscheinlichkeitsverteilung nimmt. Umgekehrt gilt dies jedoch nicht: Es ist nicht möglich, aus einer deterministischen Prognose eine probabilistische Prognose abzuleiten.

Dennoch werden probabilistische Prognosen in der Supply Chain noch selten verwendet, obwohl ihre Beliebtheit in den letzten zehn Jahren stetig gestiegen ist. Historisch gesehen kamen probabilistische Prognosen später auf, da sie deutlich mehr Rechenressourcen erfordern. Die Nutzung probabilistischer Prognosen für Supply Chain-Zwecke erfordert auch spezialisierte Softwaretools, die häufig nicht verfügbar sind.

Anwendungsfälle in der Supply Chain

Die Optimierung einer Supply Chain besteht darin, die “richtige” Entscheidung zum gegenwärtigen Zeitpunkt zu treffen, die eine zukünftige Situation am profitabelsten bewältigt, die jedoch nur unvollkommen geschätzt werden kann. Die mit zukünftigen Ereignissen verbundene Unsicherheit ist jedoch weitgehend irreduzibel. Das Unternehmen benötigt daher eine robuste Entscheidung, wenn die Antizipation des zukünftigen Ereignisses - d.h. die Prognose - unvollkommen ist. Dies wurde seit Mitte des 20. Jahrhunderts minimal durch die Sicherheitsbestandsanalyse erreicht. Wie wir jedoch unten sehen werden, gibt es neben historischem Interesse keinen Grund mehr, Sicherheitsbestände gegenüber “nativen” probabilistischen numerischen Rezepten zu bevorzugen.

Die probabilistische Perspektive auf Prognosen nimmt eine radikale Haltung gegenüber Unsicherheit ein: Dieser Ansatz versucht, die Unsicherheit in größtmöglichem Umfang zu quantifizieren. In der Supply Chain konzentrieren sich die Kosten tendenziell auf die statistischen Extremwerte: Es ist die unerwartet hohe Nachfrage, die zu einem Lagerbestandsausfall führt, es ist die unerwartet niedrige Nachfrage, die zu einer Inventurabschreibung führt. Dazwischen rotiert der Bestand ganz gut. Probabilistische Prognosen sind - grob gesagt - ein Versuch, diese seltenen, kostspieligen Situationen zu bewältigen, die in modernen Supply Chains allgegenwärtig sind. Probabilistische Prognosen können und sollten als wesentlicher Bestandteil jeder Risikomanagement-Praxis innerhalb der Supply Chain betrachtet werden.

Viele Aspekte von Supply Chains eignen sich besonders gut für probabilistische Prognosen, wie zum Beispiel:

  • Nachfrage: Kleidung, Accessoires, Ersatzteile sowie viele andere Arten von Produkten sind tendenziell mit unregelmäßiger und/oder intermittierender Nachfrage verbunden. Produktstarts können ein Erfolg oder Misserfolg sein. Promotions von Wettbewerbern können vorübergehend und unregelmäßig große Teile des Marktanteils kannibalisieren.
  • Lieferzeit: Übersee-Importe können an jeder Stelle der Kette (Produktion, Transport, Zoll, Empfang usw.) eine ganze Reihe von Verzögerungen verursachen. Selbst lokale Lieferanten können gelegentlich lange Lieferzeiten haben, wenn sie ein Lagerbestandsproblem haben. Lieferzeiten tendieren zu “fat-tailed” Verteilungen.
  • Ertrag (frische Lebensmittel): Die Menge und Qualität der Produktion vieler frischer Produkte hängt von Bedingungen ab, wie z.B. dem Wetter, die außerhalb der Kontrolle des Unternehmens liegen. Die probabilistische Prognose quantifiziert diese Faktoren für die gesamte Saison und bietet die Möglichkeit, über den relevanten Horizont klassischer Wettervorhersagen hinauszugehen.
  • Retouren (E-Commerce): Wenn ein Kunde dasselbe Produkt in drei verschiedenen Größen bestellt, ist die Wahrscheinlichkeit hoch, dass zwei dieser Größen zurückgegeben werden. Im Allgemeinen nutzen Kunden günstige Rückgaberichtlinien, sofern diese vorhanden sind. Die Wahrscheinlichkeit von Rücksendungen für jede Bestellung sollte bewertet werden.
  • Ausschuss (Luftfahrt): Reparierbare Flugzeugteile - häufig als Rotables bezeichnet - können manchmal nicht repariert werden. In diesem Fall wird das Teil ausgemustert, da es nicht mehr auf einem Flugzeug montiert werden kann. Es ist in der Regel nicht im Voraus möglich zu wissen, ob ein Teil seine Reparatur überleben wird oder nicht, aber die Wahrscheinlichkeit, dass das Teil ausgemustert wird, sollte geschätzt werden.
  • Bestände (B2C-Einzelhandel): Kunden können Waren in einem Einzelhandelsgeschäft verdrängen, beschädigen oder sogar stehlen. Daher ist der elektronische Bestand nur eine Annäherung an die tatsächliche Verfügbarkeit im Regal, wie sie von Kunden wahrgenommen wird. Der Bestand, wie er von Kunden wahrgenommen wird, sollte durch eine probabilistische Prognose geschätzt werden.

Diese kurze Liste verdeutlicht, dass die für eine probabilistische Prognose geeigneten Aspekte weit über die traditionellen “Nachfrageprognose”-Aspekte hinausgehen. Die gut durchdachte Optimierung einer Supply Chain erfordert die Berücksichtigung aller relevanten Unsicherheitsquellen. Obwohl es manchmal möglich ist, die Unsicherheit zu reduzieren - wie es beim Lean Manufacturing betont wird - gibt es in der Regel wirtschaftliche Abwägungen, und daher bleibt eine gewisse Unsicherheit unvermeidbar.

Prognosen sind jedoch lediglich fundierte Meinungen über die Zukunft. Während probabilistische Prognosen als bemerkenswert differenzierte Meinungen angesehen werden können, unterscheiden sie sich in dieser Hinsicht nicht grundlegend von ihren deterministischen Gegenstücken. Der Wert, den probabilistische Prognosen für die Supply Chain haben, liegt darin, wie diese feine Struktur genutzt wird, um profitablere Entscheidungen zu treffen. Insbesondere wird in der Regel nicht erwartet, dass probabilistische Prognosen genauer sind als ihre deterministischen Gegenstücke, wenn deterministische Genauigkeitsmetriken zur Bewertung der Qualität der Prognosen verwendet werden.

Zur Verteidigung der Variabilität

Trotz dessen, was viele Ansätze zur Supply Chain behaupten, wird die Variabilität bleiben - daher die Notwendigkeit probabilistischer Prognosen. Der erste Irrtum besteht darin anzunehmen, dass Variabilität für eine Supply Chain zwangsläufig schlecht ist; das ist sie nicht. Der zweite Irrtum besteht darin anzunehmen, dass Variabilität beseitigt werden kann; das kann sie nicht.

Variabilität hat in mehreren Situationen positive Auswirkungen auf Supply Chains. Zum Beispiel werden die meisten Branchen auf der Nachfrageseite von Neuheiten wie Mode, Kulturprodukten, Soft- und Hard-Luxus sowie “Hit or Miss”-Geschäften angetrieben. Die meisten neuen Produkte sind Misserfolge (Misses), aber diejenigen, die erfolgreich sind (Hits), bringen massive Gewinne. Zusätzliche Variabilität ist gut, weil sie die Wahrscheinlichkeit von überdurchschnittlichen Gewinnen erhöht, während die Nachteile begrenzt bleiben (im schlimmsten Fall wird der gesamte Bestand abgeschrieben). Der ständige Strom neuer Produkte auf dem Markt gewährleistet die ständige Erneuerung von “Hits”, während die alten Produkte an Bedeutung verlieren.

Auf der Beschaffungsseite ist ein Beschaffungsprozess, der stark schwankende Preise bietet, unter Berücksichtigung aller anderen Faktoren einer Alternative vorzuziehen, die wesentlich konsistentere (d.h. weniger variable) Preise erzeugt. Tatsächlich wird die günstigste Option ausgewählt, während die anderen verworfen werden. Es spielt keine Rolle, ob der “durchschnittliche” Beschaffungspreis niedrig ist, es kommt darauf an, günstigere Quellen aufzudecken. Daher sollte der gute Beschaffungsprozess darauf ausgelegt sein, die Variabilität zu erhöhen, zum Beispiel durch die Betonung der regelmäßigen Erkundung neuer Lieferanten anstelle der Beschränkung des Beschaffungsprozesses auf die etablierten.

Manchmal kann Variabilität aus subtileren Gründen vorteilhaft sein. Wenn eine Marke in Bezug auf ihre Werbeaktionen zu vorhersehbar ist, erkennen Kunden das Muster und verschieben ihren Kauf, da sie wissen, dass eine Werbeaktion bevorsteht und wann. Variabilität - sogar Unberechenbarkeit - der Werbeaktivitäten mildert dieses Verhalten in gewissem Maße.

Ein weiteres Beispiel ist das Vorhandensein von Verwirrungsfaktoren innerhalb der Supply Chain selbst. Wenn neue Produkte immer mit einer TV-Kampagne und einer Radiokampagne gestartet werden, wird es statistisch schwierig, die jeweiligen Auswirkungen des Fernsehens und des Radios zu unterscheiden. Durch die Hinzufügung von Variabilität zur jeweiligen Kampagnenintensität je nach Kanal kann später mehr statistische Information aus diesen Operationen extrahiert werden, die dann in Erkenntnisse für eine bessere Zuweisung der Marketingressourcen umgewandelt werden können.

Natürlich ist nicht jede Variabilität gut. Lean Manufacturing betont zu Recht, dass Variabilität auf der Produktionsseite der Supply Chain in der Regel nachteilig ist, insbesondere wenn es um unterschiedliche Verzögerungen geht. Tatsächlich können LIFO (Last-In-First-Out)-Prozesse versehentlich auftreten, was wiederum zu einer erhöhten Variabilität der Lieferzeit führt. In solchen Situationen sollte die zufällige Variabilität in der Regel durch einen besseren Prozess oder manchmal durch bessere Ausrüstung oder Einrichtungen beseitigt werden.

Variabilität - selbst wenn sie nachteilig ist - ist häufig nicht reduzierbar. Wie wir im folgenden Abschnitt sehen werden, unterliegen Supply Chains dem Gesetz der kleinen Zahlen. Es ist illusorisch zu glauben, dass das Filialniveau jemals zuverlässig vorhergesagt werden kann - aus einer deterministischen Perspektive -, während Kunden selbst nicht immer wissen, was sie kaufen werden. Im Allgemeinen geht die Reduzierung von Variabilität immer mit Kosten einher (und eine weitere Reduzierung kostet noch mehr), während die marginale Reduzierung von Variabilität nur abnehmende Erträge bringt. Daher kann Variabilität selbst dann, wenn sie reduziert werden kann, aus wirtschaftlichen Gründen sehr selten vollständig eliminiert werden.

Das Gesetz der kleinen Zahlen

Das Gesetz der kleinen Zahlen in der Supply Chain besagt: kleine Zahlen herrschen überall in der Kette vor. Dieses Beobachtungsgesetz resultiert aus den Skaleneffekten und einigen anderen Kräften, die die meisten strukturellen Aspekte von Supply Chains bestimmen:

  • Ein Lieferant, der täglich Zehntausende von Einheiten Material liefert, hat wahrscheinlich minimale Bestellmengen (MOQ) oder Preisnachlässe, die verhindern, dass Bestellungen zu häufig aufgegeben werden. Die Anzahl der an einem bestimmten Tag an einen Lieferanten übergebenen Bestellungen übersteigt selten eine einstellige Zahl.
  • Eine Fabrik, die täglich Zehntausende von Einheiten produziert, arbeitet wahrscheinlich mit großen Chargen von Tausenden von Einheiten. Die Produktionsergebnisse werden wahrscheinlich in ganzen Paletten verpackt. Die Anzahl der Chargen an einem bestimmten Tag ist höchstens eine kleine zweistellige Zahl.
  • Ein Lager, das täglich Zehntausende von Einheiten erhält, wird von LKW beliefert, wobei jeder LKW seine gesamte Ladung in das Lager entlädt. Die Anzahl der LKW-Lieferungen an einem bestimmten Tag übersteigt selten eine zweistellige Zahl, selbst für sehr große Lager.
  • Ein Einzelhandelsgeschäft, das Zehntausende von Einheiten auf Lager haben kann, verteilt sein Sortiment wahrscheinlich auf Tausende von verschiedenen Produktreferenzen. Die Anzahl der auf Lager gehaltenen Einheiten für jedes Produkt übersteigt selten eine einstellige Zahl.

Natürlich ist es immer möglich, die Zahlen zu vergrößern, indem man die Maßeinheit ändert. Wenn wir zum Beispiel statt der Anzahl der Paletten die Anzahl der Gramm der Paletten zählen oder ihren monetären Wert in US-Cent, erscheinen große Zahlen. Das Gesetz der kleinen Zahlen sollte jedoch mit dem Konzept des Zählens von Dingen aus einer vernünftigen Supply Chain-Perspektive verstanden werden. Obwohl dieses Prinzip in der Theorie recht subjektiv erscheinen mag, ist dies in der Praxis nicht der Fall, aufgrund der offensichtlichen diskreten Praktiken moderner Supply Chains: Bundles, Boxen, Paletten, Container, LKW …

Dieses Gesetz ist von hoher Relevanz für die probabilistische Prognoseperspektive. Erstens zeigt es, dass diskrete Prognosen in Supply-Chain-Situationen dominieren, d.h. das zu erwartende (oder zu treffende) Ergebnis ist eine ganze Zahl, im Gegensatz zu einer Bruchzahl. Wahrscheinlichkeitsprognosen eignen sich besonders für diskrete Situationen, da für jedes diskrete Ergebnis eine Wahrscheinlichkeit geschätzt werden kann. Im Gegensatz dazu haben deterministische Prognosen Schwierigkeiten mit diskreten Ergebnissen. Was soll es zum Beispiel bedeuten, dass der erwartete tägliche Verkauf eines Produkts bei 1,3 Einheiten liegt? Einheiten werden nicht bruchweise verkauft. Während aus dieser Aussage sinnvollere “diskrete” Interpretationen abgeleitet werden können, ist ihr probabilistisches Pendant (z.B. 27% Wahrscheinlichkeit für 0 Einheiten Nachfrage, 35% Wahrscheinlichkeit für 1 Einheit Nachfrage, 23% Wahrscheinlichkeit für 2 Einheiten Nachfrage usw.) viel einfacher, weil es die diskrete Natur des interessierenden Phänomens umfasst.

Zweitens, obwohl probabilistische Prognosen in Bezug auf die Rohrechenleistung radikal herausfordernder erscheinen mögen, ist dies in der Praxis nicht wirklich der Fall, genau aufgrund des Gesetzes der kleinen Zahlen. Tatsächlich ist es bei den oben diskutierten täglichen Produktverkäufen sinnlos, die Chancen numerisch zu bewerten, dass die Nachfrage an einem beliebigen Tag 100 übersteigt. Diese Wahrscheinlichkeiten können auf null - oder einen beliebig kleinen Wert - gerundet werden. Die Auswirkung auf die numerische Genauigkeit des Supply-Chain-Modells bleibt vernachlässigbar. Als Faustregel kann man davon ausgehen, dass probabilistische Prognosen etwa drei Größenordnungen mehr Rechenressourcen als ihre deterministischen Gegenstücke erfordern. Trotz dieses Mehraufwands übersteigen die Vorteile in Bezug auf die Leistung der Supply Chain bei weitem die Kosten der Rechenressourcen.

Genauigkeitsmetriken für probabilistische Prognosen

Was auch immer passiert, eine vernünftig konzipierte probabilistische Prognose zeigt an, dass es in der Tat eine nicht-null Wahrscheinlichkeit für dieses Ergebnis gab. Dies ist faszinierend, denn auf den ersten Blick könnte es so aussehen, als wären probabilistische Prognosen irgendwie immun gegen die Realität, ähnlich wie ein Wahrsager, der äußerst mehrdeutige prophetische Aussagen macht, die niemals als falsch bewiesen werden können, da der Wahrsager immer eine spätere Erklärung über die richtige Art und Weise der Interpretation der Prophezeiungen herbeizaubern kann. In Wirklichkeit gibt es mehrere Möglichkeiten, die Qualität einer probabilistischen Prognose quantitativ zu bewerten. Einige dieser Möglichkeiten sind Metriken, die ähnlich wie die Metriken zur Bewertung der Genauigkeit deterministischer Prognosen sind. Andere Wege weichen im Vergleich zur deterministischen Perspektive in radikalere und tiefgreifendere Wege ab.

Lassen Sie uns kurz vier verschiedene Ansätze zur Bewertung der Genauigkeit einer probabilistischen Prognose überprüfen:

  • die Pinball-Verlustfunktion
  • der Continuous Ranked Probability Score (CRPS)
  • die Bayes’sche Wahrscheinlichkeit
  • die generative adversarial Perspektive

Die Pinball-Verlustfunktion bietet eine Genauigkeitsmetrik für eine Quantilschätzung, die aus einer probabilistischen Prognose abgeleitet wird. Wenn wir zum Beispiel die Lagermenge bewerten möchten, die mit 98%iger Wahrscheinlichkeit größer oder gleich der Kundennachfrage in einem Geschäft für ein bestimmtes Produkt ist, kann diese Menge direkt aus den probabilistischen Prognosen abgeleitet werden, indem die Wahrscheinlichkeiten von 0 Einheiten Nachfrage, 1 Einheit Nachfrage usw. summiert werden, bis die Wahrscheinlichkeit knapp über 98% liegt. Die Pinball-Verlustfunktion bietet eine direkte Messung der Qualität dieser verzerrten Schätzung der zukünftigen Nachfrage. Sie kann als Werkzeug zur Bewertung der Qualität eines beliebigen Punktes der kumulativen Dichtefunktion der probabilistischen Prognose betrachtet werden.

Der Continuous Ranked Probability Score (CRPS) bietet eine Metrik, die als “Verschiebungsmenge” der Wahrscheinlichkeitsmasse interpretiert werden kann, die erforderlich ist, um die gesamte Wahrscheinlichkeitsmasse auf das beobachtete Ergebnis zu verschieben. Es handelt sich um die direkteste Verallgemeinerung des mittleren absoluten Fehlers (MAE) aus probabilistischer Sicht. Der CRPS-Wert ist homogen zur Maßeinheit des Ergebnisses selbst. Diese Perspektive kann auf beliebige metrische Räume verallgemeinert werden, anstatt nur eindimensionale Situationen, durch das, was als “Transporttheorie” und Monge-Kantorovich-Abstand bekannt ist (was über den Rahmen dieses Dokuments hinausgeht).

Die Wahrscheinlichkeit und ihr Kreuzentropie-Verwandter übernehmen die bayessche Perspektive des geringsten Überraschungsgrads: je höher die Wahrscheinlichkeit der beobachteten Ergebnisse, desto besser. Zum Beispiel haben wir zwei probabilistische Modelle A und B: Das Modell A besagt, dass die Wahrscheinlichkeit, an einem beliebigen Tag 0 Einheiten Nachfrage zu beobachten, 50% beträgt; das Modell B besagt, dass die Wahrscheinlichkeit, an einem beliebigen Tag 0 Einheiten Nachfrage zu beobachten, 1% beträgt. Wir beobachten die Nachfrage über 3 Tage und erhalten die folgenden Beobachtungen: 0, 0, 1. Das Modell A hatte ungefähr eine 10%ige Chance, diese Beobachtungen zu generieren, während es für das Modell B nur eine grobe 0,01%ige Chance war. Daher ist das Modell B im Vergleich zu Modell A deutlich unwahrscheinlicher das richtige Modell. Die Wahrscheinlichkeit weicht von der deterministischen Perspektive ab, ein sinnvolles absolutes Kriterium zur Bewertung von Modellen zu haben. Stattdessen bietet sie einen Mechanismus zum Vergleich von Modellen, aber numerisch kann der Mechanismus eigentlich nichts anderes als Modelle vergleichen.

Die generative adversarial Perspektive ist die modernste Perspektive zu diesem Thema (Ian Goodfellow et al., 2014). Im Wesentlichen besagt diese Perspektive, dass das “beste” probabilistische Modell dasjenige ist, das verwendet werden kann, um Ergebnisse - monte-carlo-artig - zu generieren, die von echten Ergebnissen nicht zu unterscheiden sind. Wenn wir zum Beispiel die historische Liste der Transaktionen in einem lokalen Hypermarkt betrachten würden, könnten wir diese Geschichte an einem beliebigen Zeitpunkt in der Vergangenheit abschneiden und das probabilistische Modell verwenden, um gefälschte, aber realistische Transaktionen fortzusetzen. Das Modell würde als “perfekt” angesehen werden, wenn es durch statistische Analyse unmöglich wäre, den Zeitpunkt zu ermitteln, an dem der Datensatz von “echten” zu “gefälschten” Daten übergeht. Das Ziel des generativen adversarial Ansatzes besteht darin, die Metriken zu “lernen”, die den Fehler eines probabilistischen Modells verschlimmern. Anstatt sich auf eine bestimmte Metrik zu konzentrieren, nutzt diese Perspektive rekursiv Machine-Learning-Techniken, um die Metriken selbst zu “lernen”.

Die Suche nach besseren Möglichkeiten zur Bewertung der Qualität probabilistischer Prognosen ist immer noch ein aktives Forschungsgebiet. Es gibt keine klare Abgrenzung zwischen den beiden Fragen “Wie erstellt man eine bessere Prognose?” und “Wie erkennt man, ob eine Prognose besser ist?”. Aktuelle Arbeiten haben die Grenzen zwischen den beiden Fragen erheblich verwischt, und es ist wahrscheinlich, dass die nächsten Durchbrüche weitere Verschiebungen in der Art und Weise mit sich bringen werden, wie probabilistische Prognosen überhaupt betrachtet werden.

Verschwindend kleine Wahrscheinlichkeiten und Log-Likelihood

Sehr kleine Wahrscheinlichkeiten treten natürlich auf, wenn man eine mehrdimensionale Situation durch das Prisma probabilistischer Prognosen betrachtet. Diese kleinen Wahrscheinlichkeiten sind problematisch, weil Computer keine unendlich genauen Zahlen verarbeiten. Rohwahrscheinlichkeitswerte werden häufig “verschwindend” klein, da sie aufgrund von Grenzen der numerischen Genauigkeit auf null gerundet werden. Die Lösung für dieses Problem besteht nicht darin, die Software auf beliebig genaue Berechnungen aufzurüsten - was in Bezug auf die Rechenressourcen sehr ineffizient ist - sondern den “Log-Trick” zu verwenden, der Multiplikationen in Additionen umwandelt. Dieser Trick wird - auf die eine oder andere Weise - von nahezu jeder Software, die sich mit probabilistischen Prognosen befasst, genutzt.

Angenommen, wir haben $$X_1, X_2, \ldots, X_n$$ Zufallsvariablen, die die Nachfrage des Tages für alle $$n$$ verschiedenen Produkte repräsentieren, die in einem bestimmten Geschäft angeboten werden. Seien $$\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n$$ die beobachtete empirische Nachfrage am Ende des Tages für jedes Produkt. Für das erste Produkt - das von $$X_1$$ gesteuert wird - wird die Wahrscheinlichkeit, $$\hat{x}_1$$ zu beobachten, als $$P(X_1=\hat{x}_1)$$ geschrieben. . Nun nehmen wir an, etwas missbräuchlich, aber um der Klarheit willen, dass alle Produkte nachfragebedingt strikt unabhängig sind. Die Wahrscheinlichkeit für das gemeinsame Ereignis, $$\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n$$ zu beobachten, ist:

$$P(X_1=\hat{x}\_1 \ldots X_n=\hat{x}\_n)=\prod_{k=1}^{n}P(X_k=\hat{x}_k)$$

Wenn $$P(X_k=\hat{x}_k) \approx \tfrac{1}{2}$$ (grobe Näherung) und $$n=10000$$, dann ist die obige gemeinsame Wahrscheinlichkeit der Größenordnung $$\tfrac{1}{{2^{10000}}} \approx 5 \times 10^{-3011}$$, was ein sehr kleiner Wert ist. Dieser Wert unterläuft, d.h. er fällt unter die kleinste darstellbare Zahl, selbst wenn man 64-Bit Gleitkommazahlen berücksichtigt, die typischerweise für wissenschaftliches Rechnen verwendet werden.

Der “Log-Trick” besteht darin, mit dem Logarithmus des Ausdrucks zu arbeiten, d.h.:

$$lnP(X_1=\hat{x}_1 \ldots X_n=\hat{x}\_n)= \sum_k^n lnP(X_k=\hat{x}_k)$$

Der Logarithmus verwandelt die Serie von Multiplikationen in eine Serie von Additionen, was sich numerisch als viel stabiler erweist als eine Serie von Multiplikationen.

Der “Log-Trick” wird häufig verwendet, wenn probabilistische Prognosen im Spiel sind. Die Log-Likelihood ist buchstäblich der Logarithmus der Likelihood (die zuvor eingeführt wurde), weil die rohe Likelihood in der Regel numerisch nicht darstellbar wäre, wenn man die gängigen Arten von Gleitkommazahlen betrachtet.

Algorithmische Varianten probabilistischer Prognosen

Die Frage der computergesteuerten Erzeugung probabilistischer Prognosen ist fast so umfangreich wie das Gebiet des maschinellen Lernens selbst. Die Abgrenzungen zwischen den beiden Gebieten, wenn es überhaupt welche gibt, sind größtenteils eine Frage subjektiver Entscheidungen. Dennoch präsentiert dieser Abschnitt eine eher selektive Liste bemerkenswerter algorithmischer Ansätze, die zur Erstellung probabilistischer Prognosen verwendet werden können.

Im frühen 20. Jahrhundert, möglicherweise schon im späten 19. Jahrhundert, entstand die Idee des Sicherheitsbestands, bei dem die Unsicherheit der Nachfrage nach einer Normalverteilung modelliert wird. Da bereits vorberechnete Tabellen der Normalverteilung für andere Wissenschaften, insbesondere die Physik, etabliert waren, erforderte die Anwendung des Sicherheitsbestands lediglich eine Multiplikation eines Nachfrageniveaus mit einem aus einer vorhandenen Tabelle entnommenen “Sicherheitsbestands”-Koeffizienten. Anekdotisch enthielten viele bis in die 1990er Jahre geschriebene Lehrbücher zur Supply Chain noch Tabellen der Normalverteilung in ihren Anhängen. Leider ist der Hauptnachteil dieses Ansatzes, dass normale Verteilungen für Supply Chains keine vernünftige Annahme sind. Erstens kann man sicher davon ausgehen, dass für Supply Chains nichts jemals normal verteilt ist. Zweitens ist die Normalverteilung eine kontinuierliche Verteilung, was im Widerspruch zur diskreten Natur von Ereignissen in der Supply Chain steht (siehe “Gesetz der kleinen Zahlen” oben). Daher sind “Sicherheitsbestände” zwar technisch gesehen probabilistisch, die zugrunde liegende Methodik und die numerischen Rezepte sind jedoch entschieden auf die deterministische Perspektive ausgerichtet. Dieser Ansatz wird jedoch der Klarheit halber hier aufgeführt.

Springen wir in die frühen 2000er Jahre: Ensemble-Learning-Methoden - deren bekannteste Vertreter wahrscheinlich Random Forests und Gradient Boosted Trees sind - lassen sich relativ einfach von ihrer deterministischen Herkunft auf die probabilistische Perspektive erweitern. Die Schlüsselidee hinter dem Ensemble-Learning besteht darin, zahlreiche schwache, deterministische Vorhersager, wie Entscheidungsbäume, zu einem überlegenen deterministischen Vorhersager zu kombinieren. Es ist jedoch möglich, den Mischprozess anzupassen, um Wahrscheinlichkeiten anstelle eines einzelnen Aggregats zu erhalten und die Ensemble-Learning-Methode somit in eine probabilistische Prognosemethode zu verwandeln. Diese Methoden sind nichtparametrisch und in der Lage, fettgeschwänzte und/oder multimodale Verteilungen anzupassen, wie sie in der Supply Chain häufig vorkommen. Diese Methoden haben zwei bemerkenswerte Nachteile. Erstens enthält die von dieser Klasse von Modellen erzeugte Dichtefunktionswahrscheinlichkeit aufgrund ihrer Konstruktion tendenziell viele Nullen, was jeden Versuch, die Log-Likelihood-Metrik zu nutzen, verhindert. Allgemeiner gesagt passen diese Modelle nicht wirklich zur bayesianischen Perspektive, da neuere Beobachtungen häufig vom Modell als “unmöglich” (d.h. Null-Wahrscheinlichkeit) erklärt werden. Dieses Problem kann jedoch durch Regularisierungsmethoden1 gelöst werden. Zweitens sind die Modelle tendenziell so groß wie ein beträchtlicher Teil des Eingabedatensatzes, und die “Vorhersage”-Operation ist fast genauso rechenintensiv wie die “Lernen”-Operation.

Die hyperparametrischen Methoden, die unter dem Namen “Deep Learning” in den 2010er Jahren explosiv aufgetaucht sind, waren fast zufällig probabilistisch. Tatsächlich konzentrieren sich die meisten Aufgaben, bei denen Deep Learning wirklich glänzt (z.B. Bildklassifizierung), nur auf deterministische Vorhersagen. Es stellt sich jedoch heraus, dass die Kreuzentropie-Metrik - eine Variante der oben diskutierten Log-Likelihood - sehr steile Gradienten aufweist, die häufig gut für den stochastischen Gradientenabstieg (SGD), der im Kern der Deep Learning-Methoden liegt, geeignet sind. Daher stellen sich die Deep Learning-Modelle als probabilistisch heraus, nicht weil Wahrscheinlichkeiten von Interesse waren, sondern weil der Gradientenabstieg schneller konvergiert, wenn die Verlustfunktion eine probabilistische Vorhersage widerspiegelt. In Bezug auf Deep Learning unterscheidet sich die Supply Chain dadurch, dass sie sich für die tatsächliche probabilistische Ausgabe des Deep Learning-Modells interessiert, während die meisten anderen Anwendungsfälle die Wahrscheinlichkeitsverteilung auf ihren Mittelwert, Median oder Modus reduzieren. Das Mixture Density Network ist ein Typ von Deep Learning-Netzwerk, das darauf abzielt, komplexe Wahrscheinlichkeitsverteilungen zu erlernen. Das Ergebnis selbst ist eine parametrische Verteilung, möglicherweise bestehend aus Gaußschen Verteilungen. Im Gegensatz zu “Sicherheitsbeständen” kann eine Mischung aus vielen Gaußschen Verteilungen in der Praxis das Verhalten mit dicken Schwänzen widerspiegeln, das in den Supply Chains beobachtet wird. Obwohl Deep Learning-Methoden häufig als State-of-the-Art angesehen werden, muss beachtet werden, dass die Erreichung numerischer Stabilität, insbesondere wenn Dichtemischungen beteiligt sind, eine Art “dunkle Kunst” ist.

Differentiable Programming ist ein Nachkomme des Deep Learning, der Ende der 2010er Jahre an Popularität gewonnen hat. Es teilt viele technische Merkmale mit Deep Learning, unterscheidet sich jedoch erheblich in seinem Fokus. Während Deep Learning sich darauf konzentriert, beliebig komplexe Funktionen (z.B. Go spielen) zu erlernen, indem eine große Anzahl einfacher Funktionen (z.B. Faltungs-Schichten) gestapelt werden, konzentriert sich Differentiable Programming auf die Feinstruktur des Lernprozesses. Die feingranulärste, ausdrucksstärkste Struktur kann buchstäblich als Programm formatiert werden, das Verzweigungen, Schleifen, Funktionsaufrufe usw. umfasst. Differentiable Programming ist für die Supply Chain von großem Interesse, da Probleme dazu neigen, sich in hochstrukturierter Weise zu präsentieren, und diese Strukturen den Experten bekannt sind2. Zum Beispiel kann der Verkauf eines bestimmten Hemdes durch ein Hemd in einer anderen Farbe kannibalisiert werden, aber er wird nicht durch den Verkauf eines Hemdes drei Größen entfernt kannibalisiert. Solche strukturellen Prioritäten sind entscheidend, um eine hohe Dateneffizienz zu erreichen. Tatsächlich ist die Menge an Daten aus Sicht der Supply Chain tendenziell sehr begrenzt (vgl. das Gesetz der kleinen Zahlen). Daher hilft es, das Problem strukturell “zu rahmen”, um sicherzustellen, dass die gewünschten statistischen Muster gelernt werden, auch wenn nur begrenzte Daten zur Verfügung stehen. Strukturelle Prioritäten helfen auch bei der Bewältigung von numerischen Stabilitätsproblemen. Im Vergleich zu Ensemble-Methoden sind strukturelle Prioritäten in der Regel weniger zeitaufwändig als Feature Engineering, und auch die Modellwartung wird vereinfacht. Auf der anderen Seite ist Differentiable Programming bisher eine recht junge Perspektive.

Die Monte Carlo-Perspektive (1930 / 1940) kann verwendet werden, um probabilistische Vorhersagen aus einem anderen Blickwinkel anzugehen. Die bisher diskutierten Modelle liefern explizite Wahrscheinlichkeitsdichtefunktionen (PDFs). Aus einer Monte Carlo-Perspektive kann ein Modell jedoch durch einen Generator - oder Sampler - ersetzt werden, der zufällig mögliche Ergebnisse generiert (manchmal “Abweichungen” genannt). PDFs können durch Mittelung der Ergebnisse des Generators wiederhergestellt werden, obwohl PDFs häufig vollständig umgangen werden, um die Anforderungen an die Rechenressourcen zu reduzieren. Tatsächlich ist der Generator häufig so konzipiert, dass er datenmäßig wesentlich kompakter ist als die von ihm repräsentierten PDFs. Die meisten maschinellen Lernmethoden - einschließlich der oben aufgeführten Methoden zur direkten Bewältigung probabilistischer Vorhersagen - können dazu beitragen, einen Generator zu erlernen. Generatoren können die Form von niedrigdimensionalen parametrischen Modellen (z.B. Zustandsraummodelle) oder hyperparametrischen Modellen (z.B. die LSTM- und GRU-Modelle im Deep Learning) annehmen. Ensemble-Methoden werden aufgrund ihrer hohen Berechnungskosten für ihre “Vorhersage”-Operationen, die umfangreich zur Unterstützung des Monte Carlo-Ansatzes herangezogen werden, selten zur Unterstützung generativer Prozesse verwendet.

Arbeit mit probabilistischen Vorhersagen

Die Ableitung nützlicher Erkenntnisse und Entscheidungen aus probabilistischen Vorhersagen erfordert spezialisierte numerische Werkzeuge. Im Gegensatz zu deterministischen Vorhersagen, bei denen es sich um einfache Zahlen handelt, sind die Vorhersagen selbst entweder explizite Wahrscheinlichkeitsdichtefunktionen oder Monte Carlo-Generatoren. Die Qualität der probabilistischen Werkzeuge ist in der Praxis genauso wichtig wie die Qualität der probabilistischen Vorhersagen. Ohne diese Werkzeuge verfällt die Nutzung der probabilistischen Vorhersagen in einen deterministischen Prozess (mehr dazu im Abschnitt “Antipatterns” unten).

Zum Beispiel sollte das Werkzeug in der Lage sein, Aufgaben wie folgt auszuführen:

  • Kombinieren Sie die unsichere Produktionsdurchlaufzeit mit der unsicheren Transportdurchlaufzeit, um die “gesamte” unsichere Durchlaufzeit zu erhalten.
  • Kombinieren Sie die unsichere Nachfrage mit der unsicheren Durchlaufzeit, um die “gesamte” unsichere Nachfrage abzudecken, die durch den zu bestellenden Bestand abgedeckt werden soll.
  • Kombinieren Sie die unsicheren Rücksendungen von Bestellungen (E-Commerce) mit dem unsicheren Ankunftsdatum der Lieferantenbestellung im Transit, um die unsichere Kundenlieferzeit zu erhalten.
  • Ergänzen Sie die Nachfragevorhersage, die durch eine statistische Methode erstellt wurde, um ein Risiko am Ende der Verteilung, das manuell aus einem übergeordneten Verständnis eines Kontexts abgeleitet wurde, der nicht durch die historischen Daten widergespiegelt wird, wie z.B. eine Pandemie.
  • Kombinieren Sie die unsichere Nachfrage mit einem unsicheren Zustand des Bestands in Bezug auf das Verfallsdatum (Lebensmittelhandel), um den unsicheren Restbestand am Ende des Tages zu erhalten.

Sobald alle probabilistischen Vorhersagen - nicht nur die Nachfragevorhersagen - ordnungsgemäß kombiniert wurden, sollten die Optimierung der Entscheidungen in der Supply Chain stattfinden. Dies erfordert eine probabilistische Perspektive auf die Einschränkungen sowie die Score-Funktion. Dieser Aspekt der Werkzeugnutzung geht jedoch über den Rahmen des vorliegenden Dokuments hinaus.

Es gibt zwei große “Varianten” von Werkzeugen zur Arbeit mit probabilistischen Vorhersagen: erstens Algebren über Zufallsvariablen und zweitens probabilistische Programmierung. Diese beiden Varianten ergänzen sich, da sie nicht die gleiche Mischung von Vor- und Nachteilen haben.

Eine Algebra der Zufallsvariablen arbeitet in der Regel mit expliziten Wahrscheinlichkeitsdichtefunktionen. Die Algebra unterstützt die üblichen arithmetischen Operationen (Addition, Subtraktion, Multiplikation usw.), jedoch in ihrer probabilistischen Entsprechung, wobei Zufallsvariablen häufig als statistisch unabhängig behandelt werden. Die Algebra bietet eine numerische Stabilität, die nahezu mit ihrer deterministischen Entsprechung (d.h. einfachen Zahlen) vergleichbar ist. Alle Zwischenergebnisse können für spätere Verwendung gespeichert werden, was sehr praktisch ist, um die Datenpipeline zu organisieren und Fehler zu beheben. Der Nachteil ist jedoch, dass die Ausdruckskraft dieser Algebren tendenziell begrenzt ist, da es in der Regel nicht möglich ist, alle subtilen bedingten Abhängigkeiten auszudrücken, die zwischen den Zufallsvariablen bestehen.

Die probabilistische Programmierung nimmt eine Monte Carlo-Perspektive auf das Problem ein. Die Logik wird einmal geschrieben, wobei in der Regel eine vollständig deterministische Perspektive beibehalten wird, aber durch das Werkzeug (d.h. den Monte Carlo-Prozess) viele Male ausgeführt wird, um die gewünschten Statistiken zu sammeln. Maximale Ausdruckskraft wird durch “programmatische” Konstrukte erreicht: Es ist möglich, beliebige komplexe Abhängigkeiten zwischen den Zufallsvariablen zu modellieren. Das Schreiben der Logik selbst durch probabilistische Programmierung ist auch etwas einfacher im Vergleich zu einer Algebra der Zufallsvariablen, da die Logik nur reguläre Zahlen umfasst. Der Nachteil besteht jedoch in einem ständigen Kompromiss zwischen numerischer Stabilität (mehr Iterationen führen zu besserer Genauigkeit) und Rechenressourcen (mehr Iterationen kosten mehr). Darüber hinaus sind Zwischenergebnisse in der Regel nicht direkt zugänglich, da ihre Existenz nur vorübergehend ist - genau um den Druck auf die Rechenressourcen zu verringern.

Aktuelle Arbeiten im Bereich des Deep Learning deuten auch darauf hin, dass es über die oben vorgestellten beiden Ansätze hinaus weitere Ansätze gibt. Zum Beispiel bieten Variational Autoencoder Perspektiven, um Operationen über latenten Räumen durchzuführen, die beeindruckende Ergebnisse liefern, während sie sehr komplexe Transformationen über die Daten suchen (z.B. automatisches Entfernen von Brillen von einem Fotoporträt). Obwohl diese Ansätze konzeptionell sehr faszinierend sind, haben sie bisher in der praktischen Anwendung bei der Lösung von Supply Chain-Problemen nicht viel Relevanz gezeigt.

Visualisierung probabilistischer Vorhersagen

Der einfachste Weg, eine diskrete Wahrscheinlichkeitsverteilung zu visualisieren, ist ein Histogramm, bei dem die vertikale Achse die Wahrscheinlichkeit und die horizontale Achse den Wert der interessierenden Zufallsvariable angibt. Eine probabilistische Vorhersage einer Durchlaufzeit kann zum Beispiel wie folgt dargestellt werden:

probabilistic-forecast-leadtime
Eine empirische Verteilung der beobachteten Durchlaufzeiten in täglichen Buckets.

Die zukünftige Nachfrage, summiert über einen bestimmten Zeitraum, kann ebenfalls durch ein Histogramm dargestellt werden. Allgemeiner gesagt, eignet sich das Histogramm gut für alle eindimensionalen Zufallsvariablen über $${ℤ}$$, die Menge der relativen Ganzzahlen.

Die Visualisierung des probabilistischen Äquivalents einer gleichmäßig verteilten Zeitreihe - d.h. einer Größe, die sich über diskrete Zeitperioden gleicher Länge ändert - ist bereits viel herausfordernder. Tatsächlich gibt es im Gegensatz zur eindimensionalen Zufallsvariable keine kanonische Visualisierung einer solchen Verteilung. Beachten Sie, dass die Perioden nicht als unabhängig angesehen werden können. Während es möglich ist, eine “probabilistische” Zeitreihe darzustellen, indem man eine Reihe von Histogrammen - eines pro Periode - aneinanderreiht, würde diese Darstellung die Art und Weise, wie Ereignisse in einer Supply Chain ablaufen, falsch darstellen.

probabilistic-demand-intervals
Eine probabilistische Nachfrageprognose, dargestellt durch Quantilschwellenwerte.

Zum Beispiel ist es nicht allzu unwahrscheinlich, dass ein neu eingeführtes Produkt gut abschneidet und hohe Verkaufszahlen erreicht (ein Erfolg). Es ist auch nicht allzu unwahrscheinlich, dass dasselbe neu eingeführte Produkt scheitert und niedrige Verkaufszahlen erzielt (ein Misserfolg). Allerdings sind umfangreiche tagtägliche Schwankungen zwischen Erfolgs- und Misserfolgsverkaufsniveaus äußerst unwahrscheinlich.

Prognoseintervalle, wie sie in der Supply Chain-Literatur häufig anzutreffen sind, sind etwas irreführend. Sie neigen dazu, Situationen mit geringer Unsicherheit zu betonen, die nicht repräsentativ für tatsächliche Supply Chain-Situationen sind;

rob-hyndman-prediction-intervals
Auszug aus Visualization of probabilistic forecasts von Rob J Hyndman, 21. November 2014

Beachten Sie, wie diese Prognoseintervalle genau den Wahrscheinlichkeitsverteilungen entsprechen, die nebeneinander mit einem Farbschema dargestellt werden, um spezifische Quantilschwellenwerte zu verdeutlichen.

Eine bessere Darstellung - d.h. eine, die die starken interperiodischen Abhängigkeiten nicht verbessert - besteht darin, die kumulierten Werte im Laufe der Zeit zu betrachten, die Quantile dieser Werte zu nehmen und dann zu differenzieren, um die Zuwächse pro Periode wiederherzustellen (siehe die erste Illustration einer probabilistischen Vorhersage am Anfang des vorliegenden Artikels). Die Visualisierung ist die gleiche, aber die zugrunde liegende semantische Bedeutung unterscheidet sich. Wir betrachten jetzt Quantile über Szenarien und verdeutlichen die äußerst günstigen (bzw. ungünstigen) Szenarien.

Antipatterns bei probabilistischen Vorhersagen

Probabilistische Vorhersagen stellen die Art und Weise, wie viele Menschen intuitiv über die Zukunft denken, in Frage. In diesem Abschnitt behandeln wir einige der am häufigsten missverstandenen Aspekte der probabilistischen Vorhersage.

Es gibt keine “unvorhersehbaren” Ereignisse

Aus der deterministischen Perspektive ist es unmöglich, das Ergebnis der Lotterie vorherzusagen, da die Chancen, richtig zu liegen, “eins zu einer Million” betragen. Aus probabilistischer Sicht ist das Problem jedoch trivial: Jedes Ticket hat eine “eins zu einer Million” Chance zu gewinnen. Die sehr hohe Varianz des Ergebnisses sollte nicht mit einer “Unkenntnis” des Phänomens selbst verwechselt werden, das durchaus verstanden werden kann, wie es bei einer Lotterie der Fall ist. Probabilistische Vorhersage geht darum, die Varianz zu quantifizieren und zu strukturieren, nicht darum, die Varianz zu eliminieren.

Es gibt keine “normalen” Verteilungen

Normalverteilungen, auch als Gaußverteilungen bekannt, sind in Lieferketten- und Physiklehrbüchern allgegenwärtig. Doch was menschliche Angelegenheiten betrifft, ist so gut wie nichts “normal” verteilt. Normalverteilungen machen große Abweichungen (im Vergleich zu den durchschnittlichen Abweichungen) äußerst selten, bis hin zur Unmöglichkeit, laut Modell - d.h. Wahrscheinlichkeiten von weniger als eins zu einer Milliarde. Nachfrage, Lieferzeit, Rückgaben sind viele Muster, die kategorisch nicht normal verteilt sind. Der einzige Vorteil von Normalverteilungen besteht darin, dass sie sich gut dazu eignen, Übungsaufgaben für Studenten zu erstellen, da sie sich für explizite analytische Lösungen eignen.

Wahrscheinlichkeiten nicht willkürlich auswählen

Wenn man mit einer Wahrscheinlichkeitsverteilung konfrontiert wird, ist es verlockend, einen Punkt der Verteilung auszuwählen, möglicherweise den Mittelwert oder den Median, und auf dieser Zahl basierend fortzufahren. Dieser Prozess widerspricht dem Wesen der probabilistischen Aspekte der Vorhersage. Wahrscheinlichkeiten sollten nicht auf einen einzigen Punkt reduziert werden, denn egal welcher Punkt gewählt wird, dieser Prozess führt zu einem massiven Informationsverlust. Daher sollten die Wahrscheinlichkeiten so lange wie möglich als solche erhalten bleiben. Der Punkt des Zusammenbruchs ist in der Regel die endgültige Entscheidung in der Lieferkette, die die Renditen maximiert und gleichzeitig unsicheren Zukunftsszenarien gegenübersteht.

Statistische Ausreißer entfernen

Die meisten klassischen numerischen Methoden - fest in der deterministischen Perspektive der Vorhersagen verankert (z.B. gleitende Durchschnitte) - verhalten sich schlecht, wenn sie auf statistische Ausreißer stoßen. Daher etablieren viele Unternehmen Prozesse, um die historischen Daten manuell von diesen Ausreißern zu “bereinigen”. Jedoch verdeutlicht diese Notwendigkeit eines solchen Bereinigungsprozesses nur die Mängel dieser numerischen Methoden. Im Gegenteil, statistische Ausreißer sind eine wesentliche Zutat der probabilistischen Vorhersage, da sie dazu beitragen, ein besseres Bild davon zu bekommen, was am Ende der Verteilung passiert. Mit anderen Worten, diese Ausreißer sind der Schlüssel, um die Wahrscheinlichkeit weiterer Ausreißer zu quantifizieren.

Mit einem Schwert zu einem Schusswechsel kommen

Spezialisierte Werkzeuge sind erforderlich, um Wahrscheinlichkeitsverteilungen zu manipulieren. Die Erstellung der probabilistischen Vorhersage ist nur ein Schritt von vielen, um einen tatsächlichen Mehrwert für das Unternehmen zu liefern. Viele Supply-Chain-Experten lehnen probabilistische Vorhersagen ab, weil ihnen geeignete Werkzeuge fehlen, um etwas damit anzufangen. Viele Unternehmenssoftwareanbieter sind auf den Zug aufgesprungen und behaupten nun, “probabilistische Vorhersagen” zu unterstützen (neben “KI” und der “Blockchain”), haben aber nie über die kosmetische Implementierung einiger probabilistischer Modelle hinausgegangen (siehe oben). Die Vorführung eines probabilistischen Vorhersagemodells ist nahezu wertlos, ohne umfangreiche Werkzeuge, um seine numerischen Ergebnisse zu nutzen.

Anmerkungen


  1. Die smooth() Funktion in Envision ist nützlich, um Zufallsvariablen durch einen diskreten Abtastprozess zu regulieren. ↩︎

  2. Vorwissen über die Struktur des Problems sollte nicht mit Vorwissen über die Lösung selbst verwechselt werden. Die in den 1950er Jahren entwickelten “Expertensysteme” als Sammlung von handgeschriebenen Regeln sind gescheitert, weil menschliche Experten in der Praxis daran scheitern, ihre Intuition in numerische Regeln zu übersetzen. Strukturelle Prioritäten, wie sie in der differenzierbaren Programmierung verwendet werden, umreißen das Prinzip, nicht die Feinheiten, der Lösung. ↩︎