Calibration and sharpness

Blog

Kalibrierung und Schärfe: Die zwei unabhängigen Aspekte der Vorhersagequalität

Was ist eine gute Wettervorhersage?

Prognosen sind wie Freunde: Vertrauen ist der wichtigste Faktor (man möchte ja nie, dass die Freunde einen anlügen), aber unter den vertrauenswürdigen Freunden trifft man sich am liebsten mit denen, die einem die interessantesten Geschichten erzählen.

 

Was meine ich mit dieser Metapher? Wir wünschen uns Prognosen, die „gut“, „genau“ und „präzise“ sind. Was genau meinen wir damit? Lasst uns unsere Gedanken schärfen, um besser zu artikulieren und zu visualisieren, was wir von einer Prognose erwarten. Es gibt zwei unabhängige Methoden, mit denen die Qualität von Vorhersagen gemessen werden kann, und Sie müssen beide berücksichtigen – Kalibrierung und Schärfe –, um ein zufriedenstellendes Verständnis der Leistungsfähigkeit Ihrer Vorhersage zu erlangen.

Prognosekalibrierung

Der Einfachheit halber beginnen wir mit der binären Klassifizierung: Das vorhergesagte Ergebnis kann nur zwei Werte annehmen, „wahr oder falsch“, „0 oder 1“ oder Ähnliches.

Um es konkreter zu machen, betrachten wir E-Mails und die Frage, ob diese vom E-Mail-Benutzer als Spam gekennzeichnet werden. Ein Vorhersagesystem ermittelt für jede E-Mail eine prozentuale Wahrscheinlichkeit, dass diese E-Mail vom Benutzer als Spam eingestuft wird (was wir als die tatsächliche Wahrscheinlichkeit betrachten). Ab einer gewissen Schwelle, beispielsweise 95 %, landet die E-Mail dann im Spam-Ordner.

Um dieses System zu bewerten, kann man zunächst die Kalibrierung der Prognose überprüfen: Bei E-Mails, denen eine Spam-Wahrscheinlichkeit von 80 % zugewiesen wird, sollte der Anteil an tatsächlichem Spam bei etwa 80 % liegen (oder sich zumindest nicht statistisch signifikant unterscheiden). Bei E-Mails, denen eine Spam-Wahrscheinlichkeit von 5 % zugewiesen wurde, sollte der Anteil an tatsächlichem Spam etwa 5 % betragen usw. Wenn das der Fall ist, können wir der Prognose vertrauen: Eine angebliche 5%ige Wahrscheinlichkeit ist tatsächlich eine 5%ige Wahrscheinlichkeit.

Eine kalibrierte Prognose ermöglicht es uns, strategische Entscheidungen zu treffen: Wir können beispielsweise den Schwellenwert für den Spam-Ordner angemessen festlegen und die Anzahl der falsch positiven/falsch negativen Ergebnisse im Voraus abschätzen (es ist unvermeidlich, dass einige Spam-E-Mails im Posteingang landen und einige wichtige E-Mails im Spam-Ordner).

Genauigkeit der Prognose

Ist Kalibrierung alles, was zur Vorhersage der Qualität erforderlich ist? Nicht ganz! Stellen Sie sich eine Prognose vor, die jeder E-Mail die Gesamtwahrscheinlichkeit für Spam – 85 % – zuweist. Diese Prognose ist gut getroffen, da 85 % aller E-Mails Spam oder anderweitig schädlich sind. Sie können dieser Prognose vertrauen; sie lügt Sie nicht an – aber sie ist ziemlich nutzlos: Sie können keine sinnvolle Entscheidung auf der Grundlage der trivialen, wiederholten Aussage „Die Wahrscheinlichkeit, dass diese E-Mail Spam ist, beträgt 85 %“ treffen.

Eine hilfreiche Prognose ist eine, die verschiedenen E-Mails sehr unterschiedliche Wahrscheinlichkeiten zuweist – 0,1 % Spam-Wahrscheinlichkeit für die E-Mail Ihres Chefs, 99,9 % für zweifelhafte Arzneimittelwerbung – und die dabei kalibriert bleibt. Diese nützliche Eigenschaft wird von Statistikern als Schärfe bezeichnet, da sie sich auf die Breite der vorhergesagten Ergebnisverteilung bezieht, gegeben eine Prognose: Je schmaler, desto schärfer.

Eine nicht-individualisierte Prognose, die immer eine Spam-Wahrscheinlichkeit von 85 % ergibt, ist maximal ungenau. Maximale Schärfe bedeutet, dass der Spamfilter jeder E-Mail entweder eine Spam-Wahrscheinlichkeit von 0 % oder 100 % zuweist. Dieser maximale Grad an Genauigkeit – Determinismus – ist zwar wünschenswert, aber unrealistisch: Solche Vorhersagen werden (sehr wahrscheinlich) nicht kalibriert sein, und einige E-Mails, die mit einer Spam-Wahrscheinlichkeit von 0 % gekennzeichnet sind, werden sich als Spam herausstellen, und einige E-Mails, die mit einer Spam-Wahrscheinlichkeit von 100 % gekennzeichnet sind, werden sich als E-Mails Ihres Partners/Ihrer Partnerin herausstellen.

Was ist also die beste Prognose? Wir wollen das Vertrauen nicht verlieren, daher muss die Prognose weiterhin präzise bleiben, aber innerhalb der präzisen Prognosen wollen wir die schärfste. Dies ist das Paradigma der probabilistischen Prognose, das 2007 von Gneiting, Balabdaoui und Raftery formuliert wurde (J. R. Statist. Gesellschaft B 69, Teil 2, S. 243–268): Maximale Schärfe erzielen, aber die Kalibrierung nicht gefährden. Formulieren Sie die bestmögliche Aussage, vorausgesetzt, sie bleibt wahr. Wie bei unseren Freunden gilt: Erzähl mir die interessanteste Geschichte, aber lüge mich nicht an. Bei einem Spamfilter ordnet die präziseste Prognose den eindeutig nicht als Spam eingestuften E-Mails Werte wie 1 % zu, den eindeutig als Spam eingestuften E-Mails 99 % und den schwer zu entscheidenden Fällen (von denen es nicht allzu viele geben sollte) einen Zwischenwert.

Richten Sie Ihre Lieferkette neu aus

Globale Trends und Brancheneinblicke, monatlich geliefert mit dem Supply Chain Compass Newsletter. 

Ein abstraktes Gemälde der Kalibrierung und Schärfe

Lassen Sie uns die Kalibrierung und Schärfe von Spam-Klassifikatoren in der folgenden Abbildung visualisieren. Ein Spam-Klassifikator wird durch eine Sammlung von Kreisen der gleichen Farbe dargestellt, wobei die Größe jedes Kreises die Anzahl der E-Mails widerspiegelt, die mit der jeweiligen vorhergesagten Spam-Wahrscheinlichkeit gekennzeichnet wurden. Die x-Achse zeigt die vorhergesagte Spam-Wahrscheinlichkeit, die y-Achse die Häufigkeit des Auftretens von Spam. Die Skalierung der Achsen ist so gewählt, dass Wahrscheinlichkeiten, die entweder nahe bei Null liegen („fast sicher nicht“) oder nahe bei Eins liegen („fast sicher“), detailliert dargestellt werden.

Ein Kreis, der eine Sammlung einzelner Spam-Wahrscheinlichkeitsvorhersagen darstellt, die alle denselben Wert annehmen, ist kalibriert, wenn er auf der Kalibrierungslinie liegt, der diagonalen schwarzen Linie, für die die vorhergesagten Wahrscheinlichkeiten und die gemessenen Häufigkeiten übereinstimmen. Je weiter ein Kreis von der Kalibrierungslinie entfernt ist, desto größer ist die Diskrepanz zwischen Vorhersage und Istwert und desto ungenauer ist die Prognose. Liegt ein Kreis oberhalb der Kalibrierungslinie, so haben die zugehörigen Vorhersagen die tatsächliche Wahrscheinlichkeit unterschätzt; liegt er unterhalb der Kalibrierungslinie, so sind die Vorhersagen überschätzt. Im unteren rechten und oberen linken Bereich würden Sie katastrophal schlechte Vorhersagen finden, die seltenen Ereignissen eine sehr hohe Wahrscheinlichkeit zuweisen, oder umgekehrt.

Betrachten wir nun die grünen Kreise: Die vorhergesagten Wahrscheinlichkeiten und die tatsächlichen Häufigkeiten stimmen bei allen sechs Kreisen sehr gut überein, was eine perfekt kalibrierte und ziemlich präzise Vorhersage widerspiegelt. Der einzelne blaue Kreis ist kalibriert (er berührt die Diagonale), aber er spiegelt eine nutzlose, ungenaue Prognose wider, die jedes Mal nur „85 %“ liefert, wenn nach der Spam-Wahrscheinlichkeit einer E-Mail gefragt wird. Das ist eine defensive Prognose: Nicht falsch, aber nutzlos. Die orangefarbenen Kreise spiegeln einen übermäßig selbstsicheren Spamfilter wider: Er gibt 0,2 % oder 99,8 % als Spam-Vorhersage an – starke Aussagen, die nützlich wären, wenn sie wahr wären! Unter den E-Mails, die „mit ziemlicher Sicherheit kein Spam“ sind, befinden sich jedoch etwa 5 % als Spam, deutlich mehr als die vorhergesagten 0,2 %. Von den E-Mails, die mit hoher Wahrscheinlichkeit Spam sind (Vorhersagewahrscheinlichkeit 99,8 %), erweisen sich nur etwa 95 % tatsächlich als Spam. Die orangefarbene Prognose ist präziser als die grüne, aber sie hat ihre Kalibrierung verloren. Die zusätzliche, scheinbare Gewissheit nützt nichts, weil wir der Prognose nicht trauen können.

Der rote Kreis spiegelt eine ungenaue und unkalibrierte Prognose wider: Dieser Spamfilter weist jeder E-Mail immer die Wahrscheinlichkeit „25 %“ zu – das ist sowohl falsch (die Gesamtwahrscheinlichkeit liegt bei etwa 80 %) als auch unspezifisch.

Das Paradigma der „maximalen Schärfe unter Berücksichtigung der Kalibrierung“ bedeutet, dass man die Kreise so weit wie möglich in die Bereiche „fast sicher“ nach unten links und oben rechts verschieben möchte, während sie an der Kalibrierungslinie haften bleiben. Wir streben nach aussagekräftigen und handlungsrelevanten Aussagen wie „1 % Spam“ oder „99 % Spam“, wobei diese Aussagen der Wahrheit entsprechen sollten.

calibration-and-sharpness-body-01

Kalibrierung und Genauigkeit von Nachfrageprognosen

Bei Blue Yonder betreiben wir keine Spamfilterung als Hauptberuf, aber wir erstellen Prognosen, zum Beispiel für die Kundennachfrage. Unser Ziel ist nicht binär (Spam/KeinSpam), sondern eine Zahl. Ein Großteil der obigen Argumentation kann erneut verwendet werden: Eine kalibrierte, aber nutzlose Prognose ordnet jedem Produkt-Standort-Tag in der Zukunft die durchschnittliche Gesamtnachfrage (gemittelt über Produkte, Standorte und Tage) zu: „Dieses Produkt wird sich morgen durchschnittlich 1,6 Mal verkaufen“, wiederholt für jedes Produkt, jeden Tag und jeden Standort, ist eine wahre und kalibrierte Aussage für einen typischen Supermarkt, aber keine sinnvolle Grundlage für die Warenauffüllung oder andere Geschäftsentscheidungen. Andererseits ist eine Prognose, die vorgibt, maximal präzise zu sein („Morgen werden Sie in Filiale 123 genau 17 Gurken verkaufen“), unrealistisch und würde sinnvolle strategische Entscheidungen in Bezug auf Verschwendung und Warenengpässe behindern.

Wie präzise können Einzelhandelsprognosen werden? Im Einzelhandel haben wir es mit vielen potenziellen Kunden zu tun (viel mehr als 100 pro Tag), von denen jeder ein bestimmtes Produkt mit geringer Wahrscheinlichkeit kaufen kann: Wenn Sie einen Supermarkt betreten, kaufen Sie nur aus einem kleinen Teil der angebotenen Produkte. Wenn wir zusätzlich annehmen, dass jedes Produkt perfekt verfügbar ist (es gibt nie Lieferengpässe) und dass jeder Kunde höchstens einen Artikel eines bestimmten Produkts kauft, ist die theoretisch maximal mögliche Schärfe bekannt: Es handelt sich um die Poisson-Verteilung, deren Eigenschaften wir in meinem vorherigen Blogbeitrag „Forecasting few is different“ besprochen haben. Das heißt, die Verteilung der Verkäufe um den vorhergesagten Mittelwert folgt einer Poisson-Verteilung: Eine Mittelwertvorhersage von „5“ ist mit einer endlichen Wahrscheinlichkeit verbunden, dass die tatsächliche Nachfrage beispielsweise 3 (14 % Wahrscheinlichkeit), 4 (18 % Wahrscheinlichkeit), 5 (18 % Wahrscheinlichkeit), 6 (15 % Wahrscheinlichkeit), 7 (10 % Wahrscheinlichkeit) usw. beträgt. Diese vorhergesagten Wahrscheinlichkeiten können, genau wie bei unserem Spamfilter, in der Praxis überprüft werden: Wenn wir dem Ereignis „13 Gurken“ eine Wahrscheinlichkeit von 12 % zuweisen, erwarten wir, dass im Durchschnitt 12 % solcher Fälle zu 13 verkauften Gurken führen. Sobald die Kalibrierung abgeschlossen ist, können wir die Prognose nutzen, um strategische Entscheidungen zu treffen, beispielsweise um die Kosten für Fehlbestände und Verschwendung auszugleichen.

In der Praxis werden die starken Annahmen, die der Poisson-Verteilung zugrunde liegen, oft nicht erfüllt: Die Menschen kaufen mehr Einheiten eines bestimmten Produkts, Artikel sind nicht mehr vorrätig, und nicht alle Faktoren, die die Nachfrage beeinflussen, sind bekannt, was es schwierig macht, die durchschnittliche Kaufwahrscheinlichkeit zu kennen. Die Poisson-Verteilung bleibt dennoch ein annähernder, wenn auch manchmal unerreichbarer Idealfall, der eine gute Orientierung bietet. In unseren Prognoselösungen vergleichen wir die in der Praxis erzielte Leistung mit verschiedenen theoretischen Grenzen, um abzuschätzen, wie nahe wir an dem unter gegebenen Umständen Möglichen sind. Dies hilft uns, die leicht zu erreichenden Verbesserungsmöglichkeiten, die bereits hervorragenden Prognosen und die Anomalien zu identifizieren, die weiterer Untersuchungen bedürfen.

Wie gute Prognosen guten Freunden ähneln

Das Paradigma der „Maximierung der Schärfe der der Kalibrierung unterliegenden Vorhersageverteilungen“ (Gneiting, Balabdaoui und Raftery) ist daher unglaublich nützlich, um die Vorhersageleistung in jedem Bereich greifbar zu machen. Letztendlich wollen wir in jeder Prognosesituation mit Zuversicht sagen können: Dies ist eine kalibrierte Prognose, die so präzise wie möglich ist.

Diese Prognose ist wie dein unterhaltsamster Freund, der tolle Geschichten erzählt und nützliche Ratschläge gibt, dich aber niemals anlügt.