Was ist eine gute Wettervorhersage?
Prognosen sind wie Freunde: Vertrauen ist der wichtigste Faktor (man möchte ja nie, dass die Freunde einen anlügen), aber unter den vertrauenswürdigen Freunden trifft man sich am liebsten mit denen, die einem die interessantesten Geschichten erzählen.
Was meine ich mit dieser Metapher? Wir wünschen uns Prognosen, die „gut“, „genau“ und „präzise“ sind. Was genau meinen wir damit? Lasst uns unsere Gedanken schärfen, um besser zu artikulieren und zu visualisieren, was wir von einer Prognose erwarten. Es gibt zwei unabhängige Methoden, mit denen die Qualität von Vorhersagen gemessen werden kann, und Sie müssen beide berücksichtigen – Kalibrierung und Schärfe –, um ein zufriedenstellendes Verständnis der Leistungsfähigkeit Ihrer Vorhersage zu erlangen.
Prognosekalibrierung
Der Einfachheit halber beginnen wir mit der binären Klassifizierung: Das vorhergesagte Ergebnis kann nur zwei Werte annehmen, „wahr oder falsch“, „0 oder 1“ oder Ähnliches.
Um es konkreter zu machen, betrachten wir E-Mails und die Frage, ob diese vom E-Mail-Benutzer als Spam gekennzeichnet werden. Ein Vorhersagesystem ermittelt für jede E-Mail eine prozentuale Wahrscheinlichkeit, dass diese E-Mail vom Benutzer als Spam eingestuft wird (was wir als die tatsächliche Wahrscheinlichkeit betrachten). Ab einer gewissen Schwelle, beispielsweise 95 %, landet die E-Mail dann im Spam-Ordner.
Um dieses System zu bewerten, kann man zunächst die Kalibrierung der Prognose überprüfen: Bei E-Mails, denen eine Spam-Wahrscheinlichkeit von 80 % zugewiesen wird, sollte der Anteil an tatsächlichem Spam bei etwa 80 % liegen (oder sich zumindest nicht statistisch signifikant unterscheiden). Bei E-Mails, denen eine Spam-Wahrscheinlichkeit von 5 % zugewiesen wurde, sollte der Anteil an tatsächlichem Spam etwa 5 % betragen usw. Wenn das der Fall ist, können wir der Prognose vertrauen: Eine angebliche 5%ige Wahrscheinlichkeit ist tatsächlich eine 5%ige Wahrscheinlichkeit.
Eine kalibrierte Prognose ermöglicht es uns, strategische Entscheidungen zu treffen: Wir können beispielsweise den Schwellenwert für den Spam-Ordner angemessen festlegen und die Anzahl der falsch positiven/falsch negativen Ergebnisse im Voraus abschätzen (es ist unvermeidlich, dass einige Spam-E-Mails im Posteingang landen und einige wichtige E-Mails im Spam-Ordner).
Genauigkeit der Prognose
Ist Kalibrierung alles, was zur Vorhersage der Qualität erforderlich ist? Nicht ganz! Stellen Sie sich eine Prognose vor, die jeder E-Mail die Gesamtwahrscheinlichkeit für Spam – 85 % – zuweist. Diese Prognose ist gut getroffen, da 85 % aller E-Mails Spam oder anderweitig schädlich sind. Sie können dieser Prognose vertrauen; sie lügt Sie nicht an – aber sie ist ziemlich nutzlos: Sie können keine sinnvolle Entscheidung auf der Grundlage der trivialen, wiederholten Aussage „Die Wahrscheinlichkeit, dass diese E-Mail Spam ist, beträgt 85 %“ treffen.
Eine hilfreiche Prognose ist eine, die verschiedenen E-Mails sehr unterschiedliche Wahrscheinlichkeiten zuweist – 0,1 % Spam-Wahrscheinlichkeit für die E-Mail Ihres Chefs, 99,9 % für zweifelhafte Arzneimittelwerbung – und die dabei kalibriert bleibt. Diese nützliche Eigenschaft wird von Statistikern als Schärfe bezeichnet, da sie sich auf die Breite der vorhergesagten Ergebnisverteilung bezieht, gegeben eine Prognose: Je schmaler, desto schärfer.
Eine nicht-individualisierte Prognose, die immer eine Spam-Wahrscheinlichkeit von 85 % ergibt, ist maximal ungenau. Maximale Schärfe bedeutet, dass der Spamfilter jeder E-Mail entweder eine Spam-Wahrscheinlichkeit von 0 % oder 100 % zuweist. Dieser maximale Grad an Genauigkeit – Determinismus – ist zwar wünschenswert, aber unrealistisch: Solche Vorhersagen werden (sehr wahrscheinlich) nicht kalibriert sein, und einige E-Mails, die mit einer Spam-Wahrscheinlichkeit von 0 % gekennzeichnet sind, werden sich als Spam herausstellen, und einige E-Mails, die mit einer Spam-Wahrscheinlichkeit von 100 % gekennzeichnet sind, werden sich als E-Mails Ihres Partners/Ihrer Partnerin herausstellen.
Was ist also die beste Prognose? Wir wollen das Vertrauen nicht verlieren, daher muss die Prognose weiterhin präzise bleiben, aber innerhalb der präzisen Prognosen wollen wir die schärfste. Dies ist das Paradigma der probabilistischen Prognose, das 2007 von Gneiting, Balabdaoui und Raftery formuliert wurde (J. R. Statist. Gesellschaft B 69, Teil 2, S. 243–268): Maximale Schärfe erzielen, aber die Kalibrierung nicht gefährden. Formulieren Sie die bestmögliche Aussage, vorausgesetzt, sie bleibt wahr. Wie bei unseren Freunden gilt: Erzähl mir die interessanteste Geschichte, aber lüge mich nicht an. Bei einem Spamfilter ordnet die präziseste Prognose den eindeutig nicht als Spam eingestuften E-Mails Werte wie 1 % zu, den eindeutig als Spam eingestuften E-Mails 99 % und den schwer zu entscheidenden Fällen (von denen es nicht allzu viele geben sollte) einen Zwischenwert.





