Die Prognose für wenige Fälle ist anders: Teil 1

Blog

Die Prognose für wenige Fälle ist anders: Teil 1

Bei Absatzprognosen, die sowohl schnell- als auch langsamdrehende Artikel betreffen, muss die nicht-proportionale Skalierung der relativen Prognoseunsicherheit mit den Verkaufsraten berücksichtigt werden, die maßgeblich den erreichbaren Genauigkeitsgrad bestimmt.

  • Bei gleicher Prognosequalität weisen Vorhersagen für sich langsam bewegende Güter zwangsläufig einen geringeren absoluten, aber einen höheren relativen Fehler auf als Vorhersagen für sich schnell bewegende Güter. Vermeiden Sie die naive Skalierungsfalle: Wenn Ihre Prognose bei langsamen Verkäufern Schwierigkeiten zu haben scheint, beurteilen Sie, inwieweit der Anstieg des relativen Fehlers bei einer Annäherung an niedrige Geschwindigkeiten zu erwarten ist.
  • Es gibt keine klare Trennlinie zwischen „langsamen“ und „schnellen“ Akteuren. Ordnen Sie Artikel nicht verschiedenen Bewertungsmethoden zu, sondern achten Sie darauf, dass Ihre Bewertung alle prognostizierten Verkaufsraten angemessen berücksichtigt.
  • Stoßen Sie bei Ihren Analysen häufig auf Elemente mit sehr geringer Umschlagshäufigkeit? Hinterfragen Sie diese Bewertung und stellen Sie sicher, dass Ihr Aggregationszeitraum der Geschäftsrealität entspricht – Sie treffen keine täglichen Geschäftsentscheidungen auf der Grundlage von nicht verderblichen, langsam drehenden Artikeln.

 

Im Ausland sollten Sie lokale, frische und leicht verderbliche Lebensmittelspezialitäten probieren.

Reisen ist zwar in Pandemiezeiten nicht einfach, bietet aber die Möglichkeit, andere Kulturen und Landschaften kennenzulernen und natürlich gutes Essen zu genießen. Selbst in der heutigen vernetzten und globalisierten Welt mit multinationalen Einzelhändlern, die versuchen, jeden erdenklichen Wunsch überall auf dem Planeten sofort zu erfüllen, werden bestimmte Produkte an manchen Orten einfach gar nicht angeboten. Diesen Ratschlag erwartet man vielleicht nicht in einem Blogbeitrag über Statistik, aber eine direkte Folge unserer folgenden Diskussion wird sein: Um das kulinarische Erlebnis auf Ihrer Auslandsreise optimal zu nutzen, sollten Sie die extrem verderblichen, frischen Spezialitäten probieren. Probieren Sie frisches Obst in Rio de Janeiro, ofenfrische Brezeln in München und rohe Meeresfrüchte in Busan.

Tatsächlich ist es schwierig, in Busan traditionelle bayerische Brezeln zu finden, in Rio de Janeiro ist es (unseres Wissens nach) unmöglich, rohe Seegurken zu kaufen, und Reisende aus Südamerika amüsieren sich über die eingeschränkte Auswahl an frischem Obst in nordeuropäischen Supermärkten. Was sind die Gemeinsamkeiten dieser Produkte? Beide Produkte sind verderblich und würden, wenn sie außerhalb ihres Ursprungsortes verkauft würden, einen Nischenmarkt darstellen. Tatsächlich findet man eingelegtes Kimchi, exportiertes Oktoberfestbier und Cachaça auf der ganzen Welt. Produkte, die Einzelhändler sowohl als „ultrafrisch“ (sehr verderblich, nur etwa einen Tag haltbar) als auch als „langsam verkäuflich“ (an einem bestimmten Tag wahrscheinlich nicht verkäuflich) bezeichnen würden, werden jedoch niemals, nirgendwo angeboten.

Warum ist das so? Warum versuchen brasilianische Supermärkte nicht, die zugegebenermaßen geringe, aber durchaus vorhandene Nachfrage nach rohen Seegurken zu befriedigen? Wenn in einem Geschäft in Busan täglich 100 Seegurken verkauft werden, die Nachfrage in Rio de Janeiro aber nur eine pro Tag beträgt, warum wird die größere Nachfrage in Busan von koreanischen Einzelhändlern bedient, die größere jedoch nicht von brasilianischen Geschäften? Worin besteht der grundlegende Unterschied zwischen einem schnell verkäuflichen, verderblichen Produkt – beispielsweise einer Erdbeere in Europa – und einem langsam verkäuflichen Produkt – beispielsweise einer rohen Seegurke in Brasilien?

Es stellte sich heraus, dass Einzelhändler Artikel mit extrem geringer Nachfrage nicht anbieten, weil sie die tatsächliche Nachfrage nicht genau genug vorhersagen können, um einen profitablen Mittelweg zwischen Verschwendung und Lieferengpässen zu finden. Im Allgemeinen besteht das Geschäft eines Einzelhändlers darin, die Kundennachfrage in tatsächliche Verkäufe umzuwandeln. Um zu wissen, was und wie viel sie auf Lager haben müssen, müssen sie die zukünftige Nachfrage so genau wie möglich einschätzen, sei es durch traditionelle, auf menschlicher Intuition basierende Methoden oder durch moderne Statistiken – oder sogar durch Prognosen mithilfe von maschinellem Lernen. Bis vor wenigen Jahren bezogen sich Prognosen in der Lieferkette auf große Mengen in grobkörnigen Maßstäben, z. B. auf den Gesamtabsatz von Milchprodukten in einer Region innerhalb eines Monats. Die typischen Zahlen, mit denen man es zu tun hatte, lagen in der Größenordnung von mindestens einigen Hundert bis hin zu vielen Tausend. Die heutigen Rechenressourcen ermöglichen Prognosen auf einer viel detaillierteren Ebene; die Vorhersagen beziehen sich auf einzelne Elemente an einem bestimmten Tag an einem bestimmten Ort. Auf dieser Ebene bewegen sich die typischen Zahlen, mit denen wir arbeiten, nicht im Bereich von Hunderttausenden, sondern manchmal im Bereich von nur 5, 1 oder 0,1. Können wir die etablierten Instrumente zur Prognosebewertung einfach aus der „Welt der großen Zahlen“ in die „Welt der kleinen Zahlen“ übertragen?

Technisch gesehen ergeben sich keine Probleme: Ein für größere Zahlen geschriebenes Computerprogramm kann auch mit kleinen Zahlen ausgeführt werden. Funktional gesehen ist jedoch Vorsicht geboten: Beim Übergang zu kleinen Zahlen werden statistische Eigenheiten, die wir im Bereich der schnell verkauften Aktien getrost ignorieren konnten, relevant oder sogar dominant. Bei der Annäherung an langsame Verkäufer stoßen wir auf die Grenzen der Prognosetechnologie: Wie jede Technologie hat auch die Prognose fundamentale, unüberwindbare Grenzen. Sowohl die Präzision der Prognose, also die Streuung der tatsächlichen Nachfrage um den prognostizierten Wert, als auch die Genauigkeit der Prognose, also das Fehlen einer systematischen Verzerrung hin zu großen oder kleinen Werten, können bestimmte, statistischen Gesetzen unterliegende Werte nicht dauerhaft überwinden. Wir konzentrieren uns hier auf die untere Grenze der Vorhersagegenauigkeit, auf das unvermeidliche Rauschen, dem eine Vorhersage einer zählbaren Größe ausgesetzt ist. Diese Grenze erweist sich als skalenabhängig: Die relative Unsicherheit, mit der wir bei langsamen Verkäufern leben müssen, ist größer als bei schnellen Verkäufern. Dies bedeutet sowohl, dass unsere Prognoseauswertungsmethodik skalierungsbewusst sein muss, als auch, dass Ihnen in Rio de Janeiro keine frischen Seegurken angeboten werden.

Einen klaren Weg für Ihre Lieferkette aufzeigen

Globale Trends und Brancheneinblicke, monatlich geliefert mit dem Supply Chain Compass Newsletter. 

Maßstab ist wichtig

Warum passen Einzelhändler ihre Lagerbestände nicht einfach der prognostizierten Nachfrage an? Wenn die Nachfrage nach rohen Seegurken 1 Stück pro Tag anstatt 100 Stück pro Tag beträgt, sollte man einfach sicherstellen, dass 1 Stück anstatt 100 verfügbar ist. Wenn wir bei den schnell verkaufenden Artikeln eine Fehlerquote von 10 % erreichen können, sollten wir dann nicht auch bei den langsam verkaufenden Artikeln eine Fehlerquote von 10 % erreichen können?

Diese Argumentation ist ein Beispiel für die naive Skalierungsfalle. Wir begegnen naiver Skalierung in verschiedenen Bereichen der Technologie und der Natur: Ist ein Supermarkt nicht einfach ein großes Geschäft, warum muss ich ihn anders führen? Ist ein Land nicht einfach ein großes Dorf, warum brauche ich dann eine andere Art von Verwaltung? Da Ameisen etwa das 50-fache ihres eigenen Gewichts tragen können, wären sie, wenn sie menschliche Größe hätten, nicht viel stärker als wir? Ist ein Elefant nicht einfach nur eine große Impala? Warum sieht er so anders aus?

Wir tappen in die Falle der naiven Skalierung, wenn wir ignorieren, dass sich unterschiedliche Eigenschaften unterschiedlich skalieren lassen, wie Geoffrey West in „Scale: The Universal Laws of Life, Growth, and Death in Organisms, Cities, and Companies“ (Penguin 2018) brillant beschreibt. Ein Faktor von 100, angewendet auf eine Eigenschaft eines Systems, beispielsweise sein Gewicht, impliziert nicht notwendigerweise denselben Faktor für andere Eigenschaften, wie etwa die Größe (ganz trivial, da das Gewicht mit der dritten Potenz der Länge skaliert) oder die Stärke (weniger trivial). Vergleichen wir eine Impala-Antilope mit einem Elefanten. Schau dir die Beine der Impala an: Sie sind winzig, elegant, zerbrechlich. Der Elefant ist nicht nur viel schwerer und größer (er wiegt etwa 100 Mal so viel wie die Impala und ist etwa fünfmal so lang), er sieht auch anders aus: Elefanten sind zwar auf ihre Weise elegant, aber ihre Beine sind eindeutig weder zerbrechlich noch winzig, sondern viel dicker als die der Impala, selbst wenn man die insgesamt größere Größe des Elefanten berücksichtigt. Warum ist das so? Kraft und Gewicht verhalten sich unterschiedlich: Der Faktor 100 beim Gewicht entspricht nicht dem Faktor 100 bei der Kraft des Elefanten im Vergleich zur Impala (selbst unter Berücksichtigung der größeren Gesamtproportionen), weshalb er viel dickere Beine haben muss, um seinen Körper zu tragen. Diese nicht-proportionale Skalierung ist der grundlegende biophysikalische Grund dafür, dass wir keine Säugetiere finden, die viel größer als Elefanten sind – würde man den Elefanten um einen beträchtlichen Faktor vergrößern, wären die Beine des resultierenden Tieres dicker als sein gesamter Körper (riesige Säugetiere wie Wale haben keine Beine und leben nicht umsonst im Ozean). Nichtproportionale Skalierung bedeutet auch, dass wir uns keine Sorgen machen müssten, wenn Ameisen die Größe von Menschen erreichen würden: Sie wären nicht viel stärker als wir. Nicht-proportionale Skalierung führt dazu, dass ein Supermarkt anders geführt wird als ein kleiner Laden, und ermöglicht es der Verwaltung eines Landes, die Organisation anders zu gestalten als die eines Dorfes. Schließlich bedeutet nicht-proportionale Skalierung, dass die Vorhersage einer kleinen Zahl mit einer höheren relativen Ungenauigkeit einhergeht als die Vorhersage einer großen Zahl.

Wie sich Unsicherheit skaliert

Bei Vorhersagen laufen wir besonders Gefahr, in die Falle der naiven Skalierung zu tappen, denn der Unterschied zwischen „groß“ und „klein“ ist nicht so offensichtlich wie bei Elefanten und Impalas: Schließlich geht es um Zahlen, die wir durch Multiplikation und Division leicht vergrößern und verkleinern können! Eine Auswertungspipeline verarbeitet Zahlen beliebiger Größenordnung und liefert anschließend problemlos Auswertungsergebnisse. Ein solches Evaluierungsmodell lässt sich technisch gesehen beliebig skalieren: Ich kann eine Prognose von 1.200.000 mit Istwerten von 1.000.000 vergleichen, indem ich dasselbe Instrument verwende wie für eine Prognose von 1,2 mit einem Istwert von 1. Funktionell gesehen kann der 20%ige Fehler der groß angelegten Prognose jedoch nicht auf die gleiche Weise interpretiert werden wie der 20%ige Fehler der letztgenannten.

Während bei Elefanten, Ameisen und Ländern die nichtproportionale Skalierung auf die Struktur der zugrunde liegenden physischen und sozialen Netzwerke zurückzuführen ist, wird die nichtproportionale Skalierung der Prognoseunsicherheit durch die Aufhebung positiver und negativer Rauschschwankungen bei der Aggregation impliziert: Angenommen, Sie haben eine Tagesprognose für Brezeln mit einem gewissen Rauschanteil. Sie gehen davon aus, täglich 5 Brezeln zu verkaufen, aber manchmal verkaufen Sie nur 3 und müssen 2 entsorgen (denken Sie gar nicht erst daran, Brezeln zu essen oder zu verkaufen, die älter als ein paar Stunden sind!), manchmal liegt die Nachfrage bei 8 (und Sie haben unzufriedene potenzielle Kunden); langfristig gesehen liegt der Durchschnitt bei 5: Positive und negative Schwankungen heben sich auf. Der mittlere absolute Fehler zwischen Prognose und Istwert quantifiziert den typischen Fehler, der durch den durchschnittlichen Umsatz von 5 geteilt werden kann, um einen relativen Prozentwert zu erhalten. Je kleiner dieser prozentuale Fehler ist, desto besser. Die Entwicklung der Brezelnachfrage nach einem Jahr (365 Tagen) könnte folgendem Histogramm folgen:

forecasting-few-is-different-part-1-body-01

Nur an etwa 70 Tagen entsprach der Tagesumsatz genau 5, oft wichen die Umsätze etwas ab – aber der durchschnittliche Umsatz entsprach 5.

Während die Entscheidung der Bäckerei, wie viele Brezeln gebacken werden sollen, jeden Tag neu getroffen wird, betreffen andere Entscheidungen andere Zeiträume: Das Auffüllen der Rohzutaten für den Teig muss nicht täglich, sondern wöchentlich erfolgen. Um die Prognose auf Wochenebene zu bewerten, aggregieren wir die Tagesprognose auf die gesamte Woche, was zu einer Vorhersage von 35 Brezeln führt, die mit dem gesamten Wochenumsatz verglichen werden kann. Welche prozentuale Abweichung ist auf wöchentlicher Ebene zu erwarten? Der relative Fehler auf Wochenebene muss kleiner sein als der Fehler auf Tagesebene: Tage mit ungewöhnlich niedrigen Umsätzen (4 oder weniger) werden durch Tage mit ungewöhnlich hohen Umsätzen (6 oder mehr) ausgeglichen. Viele einzelne, höchst unsichere Kaufentscheidungen potenzieller Kunden ergeben zusammen eine ziemlich sichere Gesamtumsatzzahl. Die tatsächlichen Umsätze in jedem prognostizierten Zeitraum schwanken zufällig um ihren prognostizierten Wert; je mehr solcher schwankender Werte wir addieren, desto mehr gleichen sich negative und positive Schwankungen aus. Obwohl das Histogramm der wöchentlichen Umsätze absolut gesehen breiter ist als das obige tägliche Histogramm (beachten Sie, dass sich die x-Achse geändert hat), ist es relativ gesehen schmaler:

forecasting-few-is-different-part-1-body-02

Die Breite der Verteilung, gemessen an der Standardabweichung, nimmt mit der Quadratwurzel des Verteilungsmittelwerts zu, sodass die relative Breite (die Standardabweichung geteilt durch den Mittelwert) mit dem Kehrwert der Quadratwurzel des Mittelwerts abnimmt . Anders ausgedrückt: Ein hoher prognostizierter Wert ist das Ergebnis vieler unsicherer Prozesse, sodass sich positive und negative Schwankungen gegenseitig aufheben und zu einem Istwert führen, der relativ nahe an der Prognose liegt. Ein niedriger prognostizierter Wert hingegen wird nur von wenigen solcher unsicherer Prozesse beeinflusst, wobei Schwankungen eine größere Chance haben, sich durchzusetzen und den relativen Unterschied zwischen Prognose und Istwert zu dominieren.

Diese nicht-proportionale Skalierung des erwarteten Prognosefehlers zeigt sich vor allem bei einem Produkt, dessen Prognose auf verschiedenen Zeitskalen erfolgt: Die Anzahl der verkauften Brezeln pro Stunde ist sehr unsicher, die Anzahl der Brezeln pro Tag ist besser vorhersagbar, die Anzahl der Brezeln pro Woche noch sicherer. Allerdings unterliegt auch das Verhalten verschiedener Produkte mit unterschiedlichen Verkaufsraten auf einer gegebenen Zeitskala einer nichtproportionalen Skalierung: Die Prognose für die Anzahl der Brötchen pro Tag (sagen wir, etwa 50) ist genauer als die für die Brezeln (etwa 5), und letztere ist viel genauer als die für Hochzeitstorten (etwa 0,05). Diese Skalierung der Genauigkeit bezieht sich wiederum auf relative Fehler, während absolute Fehler mit den Verkaufszahlen zunehmen: An einem bestimmten Tag können wir leicht 5 Brötchen mehr oder weniger verkaufen, während die Schwankungen bei Hochzeitstorten höchstens 1 betragen (wir verkaufen in der Regel null, und hin und wieder verkaufen wir eine).

So wie die Kraft eines Tieres nicht proportional zu seinem Gewicht ist, ist auch der erwartete Fehler einer Prognose nicht proportional zum prognostizierten Wert. Daher sehen Elefanten nicht wie große Impalas aus, und größere prognostizierte Werte gehen mit einem geringeren relativen Fehler einher.

Bereit für Teil 2?

Die Diskussion darüber, warum die Prognose weniger Fälle anders ist, wird im zweiten Teil dieses Blogs fortgesetzt.