Der mittlere absolute prozentuale Fehler (MAPE) hat seinen Zweck erfüllt und sollte nun in den Ruhestand treten.

Blog

Der mittlere absolute prozentuale Fehler (MAPE) hat seinen Zweck erfüllt und sollte nun in den Ruhestand treten.

Laut Gartner (Gartner Sales & Operations Planning Success Survey 2018) ist die beliebteste Bewertungsmetrik für Prognosen in der Vertriebs- und Produktionsplanung der mittlere absolute prozentuale Fehler (MAPE). Das muss sich ändern. Moderne Prognosen beziehen sich auf kleine Mengen auf einer disaggregierten Ebene, wie zum Beispiel Produkt-Standort-Tag. Bei solch detaillierten Prognosen sind MAPE-Werte extrem schwer zu beurteilen und taugen daher nicht als brauchbare Indikatoren für die Prognosequalität. MAPE führt die Nutzer zudem stark in die Irre, indem es einige Probleme übertreibt und andere verschleiert, wodurch sie dazu verleitet werden, Prognosen mit systematischer Verzerrung zu wählen. Die Situationen, in denen MAPE geeignet ist, werden immer seltener. Dies ist keine trockene Theorie: Wir simulieren einen Supermarkt, der auf einen MAPE-optimierten Prognosewert zurückgreift, der in die Warenauffüllung einfließt. Die Unter- und Überbestände bei den schnell und langsam verkaufenden Artikeln treiben das Geschäft schnell in den Ruin.

Wenn absolute und relative Fehler einander widersprechen – wem sollten wir dann vertrauen?

Sie hatten eine Nachfrage von 7,2 Äpfeln prognostiziert, letztendlich wurden aber nur 9 verkauft. Sie hatten 91,8 Flaschen Wasser vorhergesagt, es wurden aber 108 Flaschen verkauft. Sie haben 1,9 Dosen Thunfisch vorhergesagt, verkauft wurde nur eine. Wie beurteilen Sie diese Prognosefehler? Ein unkomplizierter Ansatz besteht darin, die absolute Abweichung der Vorhersage vom Istwert zu berechnen und durch diesen Istwert zu dividieren, d. h. den relativen absoluten Fehler, gegebenenfalls als Prozentwert (absoluter prozentualer Fehler, APE). Das klingt viel komplizierter, als es ist: Die Verwendung des APE als ersten Ansatz zur „Bewertung der Prognosequalität“ ist durchaus typisch. Für die drei Beispiele erhält man APEs von scheinbar moderaten 20 % (=|7,2-9|/7,2). bescheidene 15 % (=|91,8-108|/108) und alarmierende 90 % (=|1,9-1|/1), jeweils. Der MAPE ( mittlerer absoluter prozentualer Fehler) ist das arithmetische Mittel dieser drei Prozentwerte und beträgt 41,67 %. Diese Fehlerprozentsätze zeigen, dass die Prognose für Thunfisch schlechter ist als die für Äpfel, während die Prognose für Flaschen die besten Ergebnisse liefert. Spiegelt dies aber tatsächlich die Qualität der Prognose wider? Schauen Sie sich den Anfang dieses Abschnitts noch einmal an – der große absolute Unterschied zwischen prognostizierten und tatsächlichen Wasserflaschen ist besorgniserregend, und der geringe relative Fehler kann Sie nicht wirklich beruhigen. Andererseits könnte der 90%ige Fehler bei Thunfisch auf reinen Zufall zurückzuführen sein – es handelt sich schließlich nur um einen einzigen Artikel. Solltest du deine Intuition unterdrücken und dich blind auf die APEs verlassen? Sollten Sie folglich die Thunfischvorhersage überarbeiten und die Wasservorhersage unverändert lassen? Ist eine weitere Prognose mit einem Gesamt-MAPE von nur 30 % zwangsläufig besser?

Selbstverständlich würde ich Sie unter keinen Umständen jemals ernsthaft bitten, Ihr menschliches Urteilsvermögen zu ignorieren! Dieses unangenehme Paradoxon wird im Folgenden aufgelöst: MAPE ist für moderne probabilistische Prognosen auf granularer Ebene (d. h. auf Produkt-Standort-Tag-Ebene, auf der „kleine“ Zahlen oder sogar „0“ auftreten können) aufgrund mehrerer unerträglicher und unlösbarer Probleme ungeeignet. Der MAPE-Wert einer Vorhersage sagt uns nichts darüber aus, wie gut die Vorhersage ist, sondern darüber, wie seltsam sich der APE-Wert verhält.

Die Skala bewusst ignorieren: Wann prozentuale Fehler sinnvoll sein können

Bevor wir uns mit detaillierten Prognosen im Einzelhandel (auf Produkt-, Standort- und Tagesebene) befassen, nehmen wir an, wir müssten eine viel größere Größe vorhersagen: das jährliche Bruttoinlandsprodukt (BIP) der Länder, gemessen in US-Dollar. Solche Prognosen könnten genutzt werden, um Strategien für ganze Länder festzulegen, und diese Strategien sollten für Länder unterschiedlicher Größe gleichermaßen anwendbar sein. Daher ist es in diesem Anwendungsfall gerechtfertigt, jedes Land gleich zu gewichten: Ein Fehler von 5 % beim US-BIP (rund 25 Billionen US-Dollar) wiegt genauso schwer wie ein Fehler von 5 % beim BIP von Tuvalu (rund 66 Millionen US-Dollar, 380.000 Mal kleiner als das US-BIP). Hier ist der absolute prozentuale Fehler (APE) sinnvoll: Das tatsächliche BIP liegt nie nahe bei 0 (was bei der Division durch das BIP zu großen Problemen führen würde, darauf komme ich später zurück), und das Ziel der Prognose ist nicht, das gesamte BIP der Welt korrekt zu ermitteln, sondern für jedes einzelne Land so genau wie möglich zu sein, und zwar über Größenordnungen von Millionen bis Billionen. Minimierung des gesamten absoluten Fehlers des Modells (d. h. Der Fehler (in US-Dollar, nicht in Prozent) rückt die größten Volkswirtschaften in den Vordergrund und vernachlässigt die kleinen. Es gewichtet die Länder nicht gleich, sondern nach ihrer Wirtschaftskraft. Ein Modell mit einem akzeptablen Fehler von 3 % beim US-BIP und einem inakzeptablen Fehler von 200 % beim BIP von Tuvalu würde in absoluten US-Dollar ausgedrückt „besser“ erscheinen als ein Modell mit einem Fehler von 4 % beim US-BIP und 10 % beim BIP von Tuvalu. MAPE hingegen spricht für die Verwendung der letzteren Prognose, die einen erheblichen Verlust an absoluter BIP-Genauigkeit für die USA (1 % von 25 Billionen US$) für eine bescheidene absolute Verbesserung der Genauigkeit für Tuvalu (190 % von 66 Millionen US$) in Kauf nimmt. Das US-amerikanische BIP ist wesentlich höher als das von Tuvalu, aber man würde sich bewusst und aus gutem Grund dafür entscheiden, sie gleich zu behandeln. Sowohl die USA als auch Tuvalu können insofern als „groß“ betrachtet werden, als dass statistische Schwankungen oder „Pech“ nicht für Prognosefehler verantwortlich sein können – d. h. Abweichungen sind in der Regel statistisch signifikant und weisen auf Verbesserungspotenzial des Modells hin.

Zusammenfassend lässt sich sagen, dass MAPE immer dann sinnvoll ist, wenn einzelne Instanzen einer Prognose mit unterschiedlichen Werten gleich behandelt werden sollen, d. h. wenn es für uns in Ordnung ist, riesige Äpfel mit winzigen Orangen zu vergleichen. Aber ist Gleichbehandlung immer gerecht?

Stabile Navigation unter allen Bedingungen

Mit dem Newsletter „Supply Chain Compass“ sind Sie auf alles vorbereitet. Melden Sie sich noch heute an und erhalten Sie monatlich globale Trends und Brancheneinblicke.

Alle gleich behandeln – klingt im Allgemeinen gut, aber nicht bei der Bewertung von Wahrscheinlichkeitsprognosen.

Kehren wir zu unserem vorherigen Beispiel aus dem Lebensmittelhandel zurück und sprechen wir über Äpfel, Thunfischdosen und -flaschen. Hier macht ein Vergleich von APEs aus zwei Gründen wenig Sinn.

Per Definition verkauft ein Produkt mit geringer Nachfrage seltener als ein Produkt mit hoher Nachfrage. Die geschäftlichen Auswirkungen einer unzuverlässigen Prognose für langsam verkäufliche Produkte sind daher wesentlich geringer als bei einer ebenso unzuverlässigen Prognose für schnell verkäufliche Produkte. Ein Umsatzverlust von 5 % aufgrund von Lieferengpässen bei einem nur mäßig erfolgreichen Artikel ist für den Verkäufer lediglich lästig, wohingegen ein Umsatzverlust von 5 % beim meistverkauften Artikel durchaus dramatisch sein kann. Am Ende des Tages zählen für Ihr Unternehmen die absoluten Zahlen. Sie überschätzen die Gesamtnachfrage nach Ihrem Hauptprodukt in den USA um 20 %? Sie haben wahrscheinlich ein Problem und müssen sich mit großen Mengen unverkaufter Ware auseinandersetzen, was unter Umständen sogar Ihr gesamtes Unternehmen gefährden könnte. Sie überschätzen die Gesamtnachfrage nach demselben Produkt in Tuvalu um 20 %? Nichts gegen Tuvalu (wirklich nichts für ungut!), aber Sie können sich wahrscheinlich entspannen, da dieser Fehler Ihr Geschäft nicht ruinieren wird. Bei kleineren Sortimenten oder Märkten kann man einen wesentlich größeren relativen Fehler tolerieren als bei den Kernprodukten. Warum sollte man Randprodukte oder Kundengruppen die gleiche Bedeutung beimessen wie den wirklich großen Fischen?

Zusätzlich zu diesem offensichtlichen Unterschied (klein ist klein und groß ist groß) gibt es einen subtil wirkenden, aber wichtigen statistischen Effekt: Skalenabhängigkeit der erreichbaren Vorhersagegenauigkeit. Bei einem Produkt, das sich 10 Mal am Tag verkauft, ist ein Preisnachlass von 10 % manchmal unvermeidbar, selbst bei einer perfekten Prognose (mit Poisson-Unsicherheit). Ein Rabatt von 10 % auf ein Produkt, das sich 10.000 Mal am Tag verkauft, deutet eindeutig auf ein Problem hin. Der langsame Verkäufer ist nicht nur geschäftlich weniger wichtig als der schnelle Verkäufer, sondern geht naturgemäß auch mit größeren relativen Fehlern einher, wie in den vorherigen Blogbeiträgen „Die Prognose weniger ist anders Teil 1“ und „Teil 2“ ausführlicher erläutert wurde.

Bei den oben genannten Lebensmittelprognosen hatten Sie an diesem Tag wahrscheinlich einfach nur Pech mit dem Thunfisch. Die 16 zusätzlichen Flaschen Wasser scheinen weniger zu entschulden. Daher erfasst der absolute prozentuale Fehler (APE) die erreichbare Prognosequalität weder in betriebswirtschaftlicher Hinsicht (er gewichtet ungleiche Dinge gleich) noch in statistischer Hinsicht gut (sein erreichbarer Wert benötigt den Kontext des prognostizierten Wertes selbst).

Die Steuerung der Wiederauffüllung durch MAPE führt zu katastrophalen Lagerbeständen

Mit anderen Worten: Der MAPE ist an sich kein guter Indikator für die Prognosequalität: Ob in drei verschiedenen Situationen 20 %, 70 % oder 90 % erreicht werden, hat keine unmittelbar interpretierbare Bedeutung. Ausgehend von einem bestimmten MAPE-Wert sollte man keine voreiligen Schlüsse ziehen. Aber selbst wenn man akzeptiert, dass ein MAPE-Wert an sich so gut wie nichts über die Gesamtqualität des Modells aussagt, könnte man dennoch erwarten, dass für eine gegebene Prognosesituation die Prognose mit dem höchsten MAPE-Wert die beste ist. Wie ich jetzt noch ausführen werde, müssen Sie auch diese niedrigere Erwartung aufgeben.

Man stelle sich einen Supermarkt vor, der viele verschiedene Produkte anbietet – von Ladenhütern, die etwa einmal pro Quartal verkauft werden, bis hin zu Verkaufsschlagern, die 100 Mal am Tag verkauft werden. Die Wiederauffüllung der Artikel erfolgt durch ein System, das die tägliche MAPE-optimale Prognose auswählt und entsprechend Vorbestellungen aufgibt. Das heißt, es wählt den Prognosewert, für den der MAPE am niedrigsten ist. Wie würde sich dieser Supermarkt entwickeln?

Um es einfach zu halten, konzentrieren wir uns auf 5 beispielhafte Produkte: Äpfel, Bananen, Cashewnüsse, Drachenfrüchte und Auberginen, mit tatsächlichen durchschnittlichen täglichen Verkaufsraten von 0,01, 0,1, 1, 10 und 100: Die langsamsten, Äpfel, werden etwa einmal pro Quartal verkauft, die schnellsten, Auberginen, werden 100 Mal pro Tag verkauft (Sie haben Recht, wenn Sie vermuten, dass die Zahlen nicht aus Gründen der realen Plausibilität, sondern der mathematischen Klarheit und Einfachheit erfunden wurden). In diesem Gedankenexperiment kennen wir diese Verkaufsraten, und sie stellen die bestmögliche Prognose für jedes Produkt nach Konstruktion dar. Mithilfe der Poisson-Verteilung können wir simulieren, was passiert, und den Prognosewert mit dem besten MAPE ermitteln.

Die folgende Tabelle zeigt für jedes Produkt die tatsächliche Verkaufsrate (die die unverzerrte beste Tagesprognose darstellt), ihren simulierten MAPE-Wert, die optimierte MAPE-gewinnende Prognose, ihren simulierten MAPE-Wert und die daraus resultierende Verzerrung:

ProduktTatsächliche tägliche Verkaufsrate, unvoreingenommene TagesprognoseMAPE der wahren VerkaufsrateMAPE-prämierte TagesvorhersageMAPE-GewinnerprognosePrognoseverzerrung der MAPE-führenden Prognose
Äpfel0.0199%10.25%+9,900%
Bananen0.190%12.5%+900%
Cashewnüsse123.3%123.3%0%
Drachenfrüchte1031%929%-10%
Auberginen1008.11%998.05%-1%

Bedenken Sie, dass die tatsächliche tägliche Verkaufsrate unbestreitbar die bestmögliche Eingangsgröße für das Nachschubsystem darstellt, da sie definitionsgemäß dem Mittelwert der erwarteten Verkäufe entspricht. Was passiert, wenn die Bestandsauffüllung stattdessen die MAPE-optimale Prognose verwendet? Der Supermarkt hat einen Überschuss an Ladenhütern: Für jeden Tag werden ein Apfel, eine Banane und eine Cashewnuss nachbestellt – aber Äpfel verkaufen sich nur einmal alle 100 Tage und Bananen nur einmal alle 10 Tage! Äpfel und Bananen stapeln sich, Cashewnüsse verkaufen sich gut, während die Nachfrage nach Drachenfrüchten nicht gedeckt wird: Im Durchschnitt verlässt ein Kunde, der eine Drachenfrucht kaufen wollte, das Geschäft, ohne seinen Einkauf abgeschlossen zu haben. Bei schnelllebigen Auberginen mag der Fehler von 1 % noch verzeihlich sein – dennoch ist es auffällig, dass die „beste“ Prognose immer verzerrt ist, es sei denn, die tatsächliche Verkaufsrate entspricht 1.

Die für die obige Tabelle berechneten Zahlen basieren auf der Annahme einer idealen Welt, in der Prognostiker gerne mit einem Modell arbeiten, das eine minimale Poisson-Unsicherheit aufweist. Bei einem realistischeren Modell, in dem eine gewisse zusätzliche Unsicherheit (fachsprachlich: Überdispersion) vorliegt, sieht die Situation sofort schlechter aus:

ProduktTatsächliche tägliche Verkaufsrate, unvoreingenommene TagesprognoseMAPE der wahren VerkaufsrateMAPE-prämierte TagesvorhersageMAPE-GewinnerprognosePrognoseverzerrung der MAPE-führenden Prognose
Äpfel0.0199%10.3%+9,900%
Bananen0.190%13%+900%
Cashewnüsse125%125%0%
Drachenfrüchte1073%653%-40%
Auberginen10049%7240%-28%

Die Differenz zwischen dem MAPE-Wert, der zum tatsächlichen Verkaufspreis berechnet wurde, und dem MAPE-Wert der MAPE-gewinnenden Prognose hat sich erheblich vergrößert. Mit anderen Worten könnte der Nutzer meinen, dass die „Beweise“ dafür, dass die MAPE-Gewinnerprognose besser ist als die andere, sogar noch stärker sind als oben. Die MAPE-optimale Prognose ist jedoch stärker verzerrt als im Idealfall: Die Unterprognose bei Drachenfrüchten und Auberginen beträgt nun 40 % bzw. 28 % – eine massive Lieferengpasssituation wäre die Folge. Im Folgenden werden wir sehen, warum mehr Unsicherheit bedeutet, dass „wir auf Nummer sicher gehen müssen“ und warum das wiederum bedeutet, dass „wir eher mit niedrigen Einsätzen spielen müssen“.

Es ist klar, dass ein Supermarkt, der mit dieser Strategie arbeitet, nicht lange überleben wird! Die Probleme mit MAPE gehen somit über die geschäftliche Interpretierbarkeit hinaus (es eignet sich nicht zur Beantwortung der Frage „Wie gut ist die Prognose?“). Dies kann jedoch unter Umständen zu schwerwiegenden operativen Problemen führen (indem man sich für eine unbestreitbar schlechtere Prognose anstelle einer besseren entscheidet). Lasst uns herausfinden, warum!

MAPE zensiert Ereignisse mit der Zählrate Null, was katastrophale Folgen hat.

Bei der Berechnung des APE stoßen wir auf ein ernstes Problem, wenn der tatsächliche Wert null ist, da wir dann durch ihn teilen müssten. Der APE ist dann undefiniert und fließt nicht in die Berechnung des MAPE ein (denken Sie daran, es handelt sich um den Mittelwert aller APEs). Das heißt, Ereignisse ohne Verkäufe werden einfach aus den Daten entfernt. Diese Datenbereinigung ist so schlimm, wie sie sich anfühlt: Sie führt zu einer eklatanten Überprognoseverzerrung bei extrem langsam drehenden Artikeln (die sich einmal oder weniger pro Zeitraum verkaufen) in einer MAPE-optimalen Vorhersage: Da 0-Ereignisse ignoriert werden, ist die niedrigste vernünftige Vorhersage für jedes Produkt, jeden Standort und jeden Tag 1 – selbst für ein Produkt, das sich nur einmal im Jahr verkauft! Da die MAPE-optimierte Prognose das Ergebnis „0“ getrost ignorieren kann, schlägt man auf Nummer sicher „1“ als niedrigsten Prognosewert vor. Alternativen zur Entfernung (z. B. Die Zuweisung eines Fehlers von 100 % anstelle der Entfernung löst dieses Problem nicht: Eine Vorhersage von 1,7 mit Ergebnis 0 ist deutlich weniger problematisch als eine Vorhersage von 17.000 mit Ergebnis 0; diesen beiden Ereignissen denselben künstlichen APE zuzuweisen, macht keinen Sinn. Das heißt, immer wenn Ihre Daten plausiblerweise den Wert „0“ für ein Ereignis enthalten könnten, ist MAPE äußerst problematisch. Eine Optimierung würde zu Überschätzungen bei den extrem langsam drehenden Artikeln führen – wie wir in den ersten beiden Zeilen der Tabellen sehen.

MAPE bestraft Unter- und Überprognosen unterschiedlich, was zu verzerrten Schätzungen führt.

Vorhersage 1, Beobachtung 7: Der APE beträgt ca. 6/7. 86%. Kommt Ihnen das viel vor? Wenn ja, tauschen Sie die Zahlen, sagen Sie 7 voraus, beobachten Sie 1: Ihr APE beträgt dann 6/1, 600%! Der APE bestraft eine Überschätzung um einen bestimmten Faktor wesentlich stärker als eine Unterschätzung um denselben Faktor. Bei Unterschätzungen beträgt der schlimmstmögliche APE 100%; bei Überschätzungen ist er unbegrenzt. Wenn Sie sich also über das Ergebnis nicht sicher sind (was Sie eigentlich nie sein sollten, und jedes gute Modell kennt seine eigene Unsicherheit auf gewisse Weise), dann ist es ratsam, auf Nummer sicher zu gehen: Vermeiden Sie starke Überprognosen um (fast) jeden Preis, während eine massive Unterprognose Ihnen nicht den Hals brechen wird. Daher ist selbst bei minimaler Prognoseunsicherheit, die wir in der ersten Tabelle angenommen haben, die MAPE-optimale Prognose eine Unterschätzung für Verkaufsraten über 1 (letzte zwei Zeilen). Je größer die Variabilität der Trainingsdaten ist, desto unsicherer ist das Modell und desto unterschätzter wird die MAPE-optimale Prognose: Denken Sie daran: Wer auf Nummer sicher geht, geht mit niedrigen Werten, und je unsicherer Sie sind, desto vorsichtiger wollen Sie vorgehen, und desto niedriger wird die MAPE-optimale Prognose. Diese Absicherung gegen Überprognosen führt zu der starken Verzerrung in den letzten beiden Zeilen der zweiten Tabelle. Diese Asymmetrie wird durch modifizierte MAPEs angegangen: Zum Beispiel kann der prozentuale Fehler in Bezug auf den Mittelwert der Vorhersage und des Istwerts anstatt nur des Istwerts berechnet werden - aber auch diese Änderungen lösen die Asymmetrie nicht vollständig und führen zu anderen Problemen und Paradoxien.

MAPE weist ein besonders komplexes Skalierungsverhalten auf, sodass wir im Unklaren darüber sind, wie gut eine Vorhersage tatsächlich ist.

Zugegebenermaßen ist die mangelnde Interpretierbarkeit (sind 50 % MAPE gut oder schlecht?) kein ausschließliches Merkmal von MAPE: Jede Metrik ist skalenabhängig und nimmt unterschiedliche Werte für langsame und schnelle Marktteilnehmer an. Dennoch ist die Skalierung des MAPE besonders kompliziert und komplex, da die beiden zuvor genannten Effekte zusammenwirken: Zum einen wird eine MAPE-optimale Prognose niemals eine Zahl kleiner als 1 ausgeben, und wir entfernen einfach die Ergebnisse mit einem Umsatz von 0. Andererseits verringern sich die relativen Fehler bei hohen Verkaufsraten. In dieser Grafik zeigen wir den „MAPE-Berg“, den bestmöglichen erreichbaren MAPE-Wert als Funktion der Verkaufsrate.

mean-absolute-percentage-error-body-01

Atmen Sie tief durch und geben Sie mir die Gelegenheit, Ihnen zu erklären, was Sie sehen: Die x-Skala ist logarithmisch, sodass wir kleine Verkaufsraten gut beobachten können – die Skala reicht von 0,1 bis 100, von superlangsam bis schnell. Bei niedrigen Verkaufsraten unterhalb von etwa 2 ist eine Prognose von 1 die bestmögliche; sie ergibt den MAPE-Wert, der durch die orange Linie angegeben wird, die von der unteren linken Ecke (wo sie von der schwarzen gestrichelten Linie überlagert wird) zur oberen rechten Ecke verläuft. Die Prognose 2 würde zu einem hohen MAPE bei den langsam bewegenden Werten (grüne Linie) führen, der bei einer Verkaufsrate von 0,1 nahe bei 95 % liegt. Die Prognose 0 führt immer zu einem konstanten MAPE von 100% (blaue Linie): Für jedes Ergebnis, das nicht 0 ist (und diese werden aus der Auswertung entfernt), haben wir APE=|tatsächlich-0|/tatsächlich=100%. Bei einer Verkaufsrate von etwa 2,3 wird die Prognose 2 zur optimalen, daher springt die schwarz gestrichelte Linie, die den bestmöglichen MAPE darstellt, von der orangen zur grünen Linie. Außerdem wird abwechselnd vorgegangen, wenn die beste Prognose von einem Wert zum nächsten springt (für Prognose 3 und 4 in Rot bzw. Lila dargestellt).

Der bestmögliche MAPE-Wert sinkt, wenn wir zu Artikeln mit sehr geringem Absatz (nach links) übergehen: Da 0-Verkaufsereignisse aus den Daten entfernt werden, handelt es sich bei den „überlebenden“ Ereignissen meist um 1-Verkaufsereignisse, und dies gilt umso mehr, je langsamer sich der Artikel verkauft. Bei einer Verkaufsrate von 0,1 ist es bereits sehr unwahrscheinlich, dass 2 Artikel an einem einzigen Tag verkauft werden, und die Prognose „1“ ist daher in den meisten Fällen ungleich 0 perfekt, und der erreichte MAPE ist ziemlich niedrig. Mit anderen Worten: Wenn Sie wissen, dass „0“ aus den Daten entfernt wird und der Artikel langsam ist, dann ist „1“ eine ziemlich sichere Schätzung für die Anzahl der Verkäufe. Bei mittleren Werten um 1 bis 5 sehen wir die „Abwechselung“ des bestmöglichen MAPE. Bei großen Prognosen von 10 oder höher (auf der rechten Seite der Grafik) sinkt der erreichbare MAPE wieder: Die Poisson-Verteilung wird im Grenzfall großer Raten relativ schmal (siehe unseren vorherigen Blogbeitrag „Forecasting Few is Different 1 &2“).

Ich habe wirklich mein Bestes gegeben, die Form des „Berges MAPE“ zu erklären! Ich habe dafür mehr als 300 Wörter in zwei Absätzen gebraucht, aber ich befürchte, es ist nicht ganz gelungen: Haben Sie es so verstanden, dass Sie MAPEs in Zukunft intuitiv im Kontext der prognostizierten Verkaufsraten beurteilen können? Wenn Sie das nicht glauben – keine Sorge: Diese Komplexität ist ein weiteres bescheidenes Argument dafür, dass es selbst unter Fachleuten unwahrscheinlich ist, dass sich eine intuitiv richtige Beurteilung von MAPE-Werten jemals weit verbreiten wird.

MAPE-optimale Prognosen sind für Unternehmen irrelevant und gefährden den potenziellen Prognosewert.

Die Prognose, die bei MAPE gewinnt, ist nicht die unvoreingenommene Prognose, die man sich in vielen Anwendungsfällen wünschen würde. Was bedeutet es dann aber, „für MAPE zu optimieren“? Mathematisch gesehen minimiert der Wert, der MAPE minimiert, einen umständlich aussehenden Ausdruck, den ich in einem Blogbeitrag, der sich nicht an Statistiker richtet, nicht einmal aufzuschreiben wage. Was Sie wissen müssen: Dieser Ausdruck hat keine sinnvolle geschäftliche Interpretation. Was auch immer Sie mit Ihrer Prognose erreichen möchten – Verfügbarkeit sicherstellen, Verschwendung reduzieren, Werbeaktionen und Preisnachlässe planen, Artikel auffüllen, Personal planen… – die wirtschaftlichen Kosten einer fehlerhaften Prognose in Ihrer Anwendung werden durch MAPE sicherlich nicht abgebildet! Wählen Sie idealerweise eine Bewertungskennzahl, die die tatsächlichen finanziellen Kosten einer Abweichung widerspiegelt. Man möchte keine abstrakte mathematische Funktion optimieren, sondern den Geschäftswert maximieren.

Die Alternative: Die Kennzahl sollte die Geschäftsentwicklung direkt widerspiegeln.

Abgesehen von Situationen wie der Prognose des BIP auf Länderebene und unter starken Annahmen ist MAPE weder geeignet, die Güte eines Prognosemodells anzuzeigen (aufgrund von Skalierungseffekten), noch ein geeigneter Entscheidungsfaktor zur Auswahl zwischen zwei konkurrierenden Modellen (MAPE-Gewinnerprognosen sind verzerrt). Was ist die Alternative? Im Idealfall spiegelt die verwendete Kennzahl den Geschäftswert direkt wider. Der mittlere absolute Fehler (MAE) quantifiziert Situationen, in denen die Kosten eines überbeständeten Artikels den Kosten eines fehlenden Artikels entsprechen – eine starke Annahme, die aber sicherlich näher an der Realität liegt als der MAPE. Der MAE hat die gleiche Dimension wie die Vorhersage selbst („Anzahl der Elemente“) und ist daher stark von der Skala abhängig. Durch Division des MAE durch den durchschnittlichen Umsatz erhalten wir den relativen mittleren absoluten Fehler (RMAE), der aufgrund der Skalierungseigenschaft der Poisson-Verteilung ebenfalls nicht skalenunabhängig ist. Die Skalenabhängigkeit muss daher immer explizit berücksichtigt werden.

Es ist jedoch keine Option, einfach zu ignorieren, dass optimale MAPE-Schätzungen verzerrt sind: Wichtige strategische Entscheidungen hängen von einer zuverlässigen, aussagekräftigen und geschäftsrelevanten Prognoseauswertung ab! Sollen wir uns für Softwareanbieter A, für Softwareanbieter B oder für unsere hauseigene Lösung entscheiden? Auf welche Sortimente sollten wir unsere Bemühungen zur Modellverbesserung konzentrieren? Ist die Prognose in dieser neuen Kategorie „gut genug“, um ein automatisiertes System in Betrieb zu nehmen? Die Auswertung von Prognosen sollte klare, gut interpretierbare und geschäftsrelevante Erkenntnisse liefern, um diese und viele weitere Fragen zu beantworten. MAPE kann uns dabei nicht helfen.

Erfahren Sie, wie Sie den mittleren absoluten Fehler beheben können.

Liefert Ihnen Ihr mittlerer absoluter Fehler (MAE) unvollständige Leistungskennzahlen? Erfahren Sie, warum MAE verbessert werden muss und welche grundlegenden Schritte für eine bessere Modellevaluierung notwendig sind.