Der mittlere absolute prozentuale Fehler (MAPE) hat seinen Zweck erfüllt und sollte nun in den Ruhestand treten.

Blog

Der mittlere absolute prozentuale Fehler (MAPE) hat seinen Zweck erfüllt und sollte nun in den Ruhestand treten.

Laut Gartner (Gartner Sales & Operations Planning Success Survey 2018) ist die beliebteste Bewertungsmetrik für Prognosen in der Vertriebs- und Produktionsplanung der mittlere absolute prozentuale Fehler (MAPE). Das muss sich ändern. Moderne Prognosen beziehen sich auf kleine Mengen auf einer disaggregierten Ebene, wie zum Beispiel Produkt-Standort-Tag. Bei solch detaillierten Prognosen sind MAPE-Werte extrem schwer zu beurteilen und taugen daher nicht als brauchbare Indikatoren für die Prognosequalität. MAPE führt die Nutzer zudem stark in die Irre, indem es einige Probleme übertreibt und andere verschleiert, wodurch sie dazu verleitet werden, Prognosen mit systematischer Verzerrung zu wählen. Die Situationen, in denen MAPE geeignet ist, werden immer seltener. Dies ist keine trockene Theorie: Wir simulieren einen Supermarkt, der auf einen MAPE-optimierten Prognosewert zurückgreift, der in die Warenauffüllung einfließt. Die Unter- und Überbestände bei den schnell und langsam verkaufenden Artikeln treiben das Geschäft schnell in den Ruin.

Wenn absolute und relative Fehler einander widersprechen – wem sollten wir dann vertrauen?

Sie hatten eine Nachfrage von 7,2 Äpfeln prognostiziert, letztendlich wurden aber nur 9 verkauft. Sie hatten 91,8 Flaschen Wasser vorhergesagt, es wurden aber 108 Flaschen verkauft. Sie haben 1,9 Dosen Thunfisch vorhergesagt, verkauft wurde nur eine. Wie beurteilen Sie diese Prognosefehler? Ein unkomplizierter Ansatz besteht darin, die absolute Abweichung der Vorhersage vom Istwert zu berechnen und durch diesen Istwert zu dividieren, d. h. den relativen absoluten Fehler, gegebenenfalls als Prozentwert (absoluter prozentualer Fehler, APE). Das klingt viel komplizierter, als es ist: Die Verwendung des APE als ersten Ansatz zur „Bewertung der Prognosequalität“ ist durchaus typisch. Für die drei Beispiele erhält man APEs von scheinbar moderaten 20 % (=|7,2-9|/7,2). bescheidene 15 % (=|91,8-108|/108) und alarmierende 90 % (=|1,9-1|/1), jeweils. Der MAPE ( mittlerer absoluter prozentualer Fehler) ist das arithmetische Mittel dieser drei Prozentwerte und beträgt 41,67 %. Diese Fehlerprozentsätze zeigen, dass die Prognose für Thunfisch schlechter ist als die für Äpfel, während die Prognose für Flaschen die besten Ergebnisse liefert. Spiegelt dies aber tatsächlich die Qualität der Prognose wider? Schauen Sie sich den Anfang dieses Abschnitts noch einmal an – der große absolute Unterschied zwischen prognostizierten und tatsächlichen Wasserflaschen ist besorgniserregend, und der geringe relative Fehler kann Sie nicht wirklich beruhigen. Andererseits könnte der 90%ige Fehler bei Thunfisch auf reinen Zufall zurückzuführen sein – es handelt sich schließlich nur um einen einzigen Artikel. Solltest du deine Intuition unterdrücken und dich blind auf die APEs verlassen? Sollten Sie folglich die Thunfischvorhersage überarbeiten und die Wasservorhersage unverändert lassen? Ist eine weitere Prognose mit einem Gesamt-MAPE von nur 30 % zwangsläufig besser?

Selbstverständlich würde ich Sie unter keinen Umständen jemals ernsthaft bitten, Ihr menschliches Urteilsvermögen zu ignorieren! Dieses unangenehme Paradoxon wird im Folgenden aufgelöst: MAPE ist für moderne probabilistische Prognosen auf granularer Ebene (d. h. auf Produkt-Standort-Tag-Ebene, auf der „kleine“ Zahlen oder sogar „0“ auftreten können) aufgrund mehrerer unerträglicher und unlösbarer Probleme ungeeignet. Der MAPE-Wert einer Vorhersage sagt uns nichts darüber aus, wie gut die Vorhersage ist, sondern darüber, wie seltsam sich der APE-Wert verhält.

Die Skala bewusst ignorieren: Wann prozentuale Fehler sinnvoll sein können

Bevor wir uns mit detaillierten Prognosen im Einzelhandel (auf Produkt-, Standort- und Tagesebene) befassen, nehmen wir an, wir müssten eine viel größere Größe vorhersagen: das jährliche Bruttoinlandsprodukt (BIP) der Länder, gemessen in US-Dollar. Solche Prognosen könnten genutzt werden, um Strategien für ganze Länder festzulegen, und diese Strategien sollten für Länder unterschiedlicher Größe gleichermaßen anwendbar sein. Daher ist es in diesem Anwendungsfall gerechtfertigt, jedes Land gleich zu gewichten: Ein Fehler von 5 % beim US-BIP (rund 25 Billionen US-Dollar) wiegt genauso schwer wie ein Fehler von 5 % beim BIP von Tuvalu (rund 66 Millionen US-Dollar, 380.000 Mal kleiner als das US-BIP). Hier ist der absolute prozentuale Fehler (APE) sinnvoll: Das tatsächliche BIP liegt nie nahe bei 0 (was bei der Division durch das BIP zu großen Problemen führen würde, darauf komme ich später zurück), und das Ziel der Prognose ist nicht, das gesamte BIP der Welt korrekt zu ermitteln, sondern für jedes einzelne Land so genau wie möglich zu sein, und zwar über Größenordnungen von Millionen bis Billionen. Minimierung des gesamten absoluten Fehlers des Modells (d. h. Der Fehler (in US-Dollar, nicht in Prozent) rückt die größten Volkswirtschaften in den Vordergrund und vernachlässigt die kleinen. Es gewichtet die Länder nicht gleich, sondern nach ihrer Wirtschaftskraft. Ein Modell mit einem akzeptablen Fehler von 3 % beim US-BIP und einem inakzeptablen Fehler von 200 % beim BIP von Tuvalu würde in absoluten US-Dollar ausgedrückt „besser“ erscheinen als ein Modell mit einem Fehler von 4 % beim US-BIP und 10 % beim BIP von Tuvalu. MAPE hingegen spricht für die Verwendung der letzteren Prognose, die einen erheblichen Verlust an absoluter BIP-Genauigkeit für die USA (1 % von 25 Billionen US$) für eine bescheidene absolute Verbesserung der Genauigkeit für Tuvalu (190 % von 66 Millionen US$) in Kauf nimmt. Das US-amerikanische BIP ist wesentlich höher als das von Tuvalu, aber man würde sich bewusst und aus gutem Grund dafür entscheiden, sie gleich zu behandeln. Sowohl die USA als auch Tuvalu können insofern als „groß“ betrachtet werden, als dass statistische Schwankungen oder „Pech“ nicht für Prognosefehler verantwortlich sein können – d. h. Abweichungen sind in der Regel statistisch signifikant und weisen auf Verbesserungspotenzial des Modells hin.

Zusammenfassend lässt sich sagen, dass MAPE immer dann sinnvoll ist, wenn einzelne Instanzen einer Prognose mit unterschiedlichen Werten gleich behandelt werden sollen, d. h. wenn es für uns in Ordnung ist, riesige Äpfel mit winzigen Orangen zu vergleichen. Aber ist Gleichbehandlung immer gerecht?

Komponente wird geladen...

Komponente wird geladen...

Komponente wird geladen...