9-mal macht es klick – und 1-mal wird Trump Präsident

Waren Sie vor vier Jahren überrascht (gar schockiert) von Donald Trumps Wahl? Wahlprognosen überfordern unsere Intuition. Wir müssen über Wahrscheinlichkeiten reden.

Von Marie-José Kolly (Text), Julius Vollenweider (Animation) und Thomas Preusse (Interaktion), 31.10.2020

Russisches Roulette, kennen Sie? Eine Mutprobe für lebensmüde Cowboys: Sie lassen eine Patrone in die Trommel eines Revolvers gleiten, halten ihn sich an die Schläfe und drücken ab. Macht es klick, ist’s aus mit der Spannung. Macht es peng, ist’s aus mit dem Cowboy.

Dieser Revolver hat zehn Kammern. Nicht eine, sondern drei davon enthalten eine Patrone. Die Trommel dreht sich ein paar Sekunden lang, und dann …

… drücken Sie ab. Sie laden nach. Und drücken wieder ab.

1-mal, 2-mal, 7-mal. Wann fällt der erste Schuss? Der zweite, dritte?

Am Vorabend der US-Präsidentschafts­wahl vor vier Jahren standen Donald Trumps Chancen laut der für ihn optimistischsten Prognose gleich wie Ihr Risiko, dass ein Schuss abgeht. Knapp 30 Prozent. Knapp 3 von 10 Chancen, dass es knallt.

Falls Ihnen das bewusst war, gehörten Sie am Vormittag des 9. November 2016 zur schulter­zuckenden Minderheit. Denn es hat geknallt, und viele, die die News- und Datenlage mitverfolgt haben, waren überrascht. Sehr.

Noch am Wahltag hatte die Erwartung, dass Hillary Clinton mit grossem Abstand gewinnen würde, die Börsenmärkte gestärkt. Tags darauf brachen sie ein. Ein Tag, an dem auf den Titel­seiten amerikanischer Medien wieder und wieder folgende Wörter zu lesen waren: Surprising, stunning, shocking. Wahlweise auch als Substantive: Surprise. Stunner. Shocker.

Wer war schuld am Schock?

Kurz vor der Wahl waren Hillary Clintons Chancen auf gut 70 Prozent beziffert worden, je nach Prognose­modell sogar auf satte 99 Prozent. Als sie dann doch nicht Präsidentin wurde, richtete sich der Unmut vieler auf ebendiese Prognosen, auf die Umfrage­daten, die sie gefüttert hatten, und auf die Menschen, die dahinterstanden:

Dass Wahlumfragen ihre Unzulänglichkeiten haben – geschenkt. In ihrem Ärger übersahen die Kommentatoren allerdings, dass die Daten gar nicht besonders fehlerhaft gewesen waren.

Die anfangs vermuteten Unzulänglichkeiten erwiesen sich als vernach­lässigbar. Ein Beispiel dafür war die Ansicht, dass Umfrage­institute Trump-Sympathisantinnen aus bestimmten Bevölkerungs­gruppen weniger gut erreicht hätten, ja, dass viele ihre Antwort gar verweigert hätten. Das hätte zu einer systematischen Verzerrung in den Resultaten führen können. Wie sich im Nachhinein heraus­stellte, wurde dieser Erklärungs­ansatz überschätzt.

Die Umfrageresultate von 2016 fallen nämlich im historischen Vergleich nicht besonders auf: Der Fehler zwischen Wahlumfrage und Wahlergebnis war nicht grösser und nicht kleiner als üblich. Auffällig ist das Jahr 2016 nur, wenn man den Vergleich auf die paar voran­gehenden Präsidenten­wahlen einschränkt. Die Umfrageresultate waren 2004, 2008 und 2012 unüblich nah am Wahlergebnis gewesen. Der Trump-Schock stiess also auf ein Publikum, das sich an ungewöhnlich präzise Umfragen gewöhnt hatte.

Und er stiess auf ein Publikum, das nicht realisiert hatte, wie knapp die Prognosen eigentlich gewesen waren. Die Modelle sahen Clinton zwar vorne – aber «schon ein bescheidener Umfrage­fehler in den richtigen Staaten hätte für einen Trump-Wahlsieg gereicht», schreibt Statistiker Nate Silver vom datenjournalistischen Medium «Fivethirtyeight» im Rückblick auf damals.

Fehler gehören zu Umfrage­daten immer dazu – mal fallen sie etwas grösser, mal kleiner aus. Deshalb geben seriöse Umfrage­institute auch immer eine Fehler­marge an. Bleibt das Ergebnis innerhalb dieser Marge, ist das okay: kein Grund zu surprise.

Daten sind in der Wahlnacht vor vier Jahren also nicht «gestorben», wie es besagter republikanischer Wahl­stratege formuliert hat. Sondern, um die Analogie aufzunehmen: Sie kämpften lediglich mit dem üblichen Schnupfen.

Das ist alles schön und gut, denken Sie jetzt vielleicht. Aber warum hatten dann so viele von uns das Gefühl, die Prognosen hätten versagt?

Die sehr kurze Antwort: Weil unser Gefühl nicht so gut rechnen kann. Schon gar nicht, wenn in der Rechnung Wahrscheinlichkeiten vorkommen.

David Spiegelhalter, ein Statistik­professor aus Cambridge, hat dies vor einigen Jahren in einer Kolumne auf den Punkt gebracht. «Warum finden viele Leute Wahrscheinlichkeits­theorie so unintuitiv und schwierig?», fragt er. Seine lapidare Antwort: «Weil Wahrscheinlichkeit unintuitiv und schwierig ist.» Selbst für Statistiker und Mathematiker.

Die ausführliche Antwort ist gar nicht so einfach. Sie führt uns tief in die Erforschung der menschlichen Kognition.

Denn wir Menschen sind längst nicht so vernünftig, wie wir zu sein glauben. Informationen, die unserem Vorwissen widersprechen, vergessen wir gern. Erinnerungen an unsere früheren Einschätzungen fallen bedeutend schmeichelhafter aus, als sie sollten. Und das, was unvorstellbar scheint (Trump, Präsident?!), können wir uns eben fast nicht vorstellen.

Wo unsere Kognition ausrutscht

Menschen vergessen häufig, dass eine 70-prozentige Chance, dass ein Ereignis eintritt, automatisch auch bedeutet: Es gibt eine 30-prozentige Chance, dass es nicht eintritt. Und 30 Prozent sind nicht nichts. Beim russischen Roulette mit diesen Wahrscheinlichkeiten knallt es ab und an.

In der Statistik sei man bereit, falsche Aussagen mit einer Wahrscheinlichkeit von 1 oder 5 Prozent zu riskieren, wenn überhaupt, etwa bei der Zulassung von neuen Medikamenten, sagt Statistiker Lutz Dümbgen von der Universität Bern. «Eine Wahrscheinlichkeit von 30 Prozent für etwas, was wir definitiv nicht wünschen: Das wäre verheerend.»

Beides ist nicht sonderlich schwer zu verstehen. Aber leicht zu ignorieren.

Denn in vielen Situationen, wo wir durchaus zu einer vernünftigen, evidenz­basierten und sorgfältig abgewogenen Entscheidung fähig wären, funkt unser spontanes Denken dazwischen. Es tut, was es am besten kann: Die sichtbare Information priorisieren, Daumen­regeln anwenden, intuitive Entscheide treffen. Diesen Teil unseres kognitiven Systems nennt der Psychologe und Nobelpreisträger Daniel Kahneman «System 1». Dagegen ist System 2 das langsamere, logische, bewusst die Dinge durchdenkende System – also jenes, das im besten Fall richtig rechnen kann.

Wäre es nicht besser, nur mit System 2 zu denken? «Das wäre schrecklich für uns», sagt Marie Luisa Schaper, die sich an der Universität Düsseldorf mit mathematischer und kognitiver Psychologie beschäftigt. Dann müssten wir jede neue Situation ganz neu interpretieren. «Eine unheimliche Über­forderung für das Gehirn.»

Die intuitive Herangehens­weise ist effizient. Nur führt sie uns eben immer wieder in die Irre. Denn auch wenn uns auffällt, dass zu den 70 Prozent auch die 30 Prozent gehören, fällt es uns schwer, dies angemessen einzuordnen. Das hat verschiedene Gründe.

1. Wir können nicht besonders gut in Graustufen denken

Wir tendieren dazu, Sachen kategorisch wahrzunehmen – so, wie wir sie auch erleben. Eine nach Wahrscheinlichkeiten abgestufte Information, «Wahlchancen von 70 und 30 Prozent», erleben wir als binäres Ereignis: Entweder wird sie Präsidentin oder er Präsident.

Ein Ereignis, das dazwischenliegt – «70 Prozent» –, existiert nicht.

«Man rutscht gedanklich schnell in die eine oder die andere Richtung», sagt Entscheidungs­forscher Thorsten Pachur vom Max-Planck-Institut in Berlin. So rundet man den höheren Wert intuitiv auf und die 30 Prozent ab. Und es entsteht der Eindruck, dass der Kandidatin, die in den Prognosen vorne liegt, der Gewinn fast sicher ist. Entsprechend gross die Überraschung, wenn dann doch das Gegenteil eintritt.

Die Schwierigkeit, in Graustufen zu denken, wird uns immer wieder zum Verhängnis. Oft werden Prognosen in der öffentlichen Meinung abgestraft, wenn der nicht vorhergesagte Kandidat gewinnt – auch wenn es ein enges Rennen war. Im Gegenzug werden Prognosen häufig positiv beurteilt, wenn die vorher­gesagte Kandidatin gewinnt – auch wenn ihre Gewinn­marge stark über- oder unterschätzt wurde.

2. In der Natur erleben wir Häufigkeiten, nicht Wahrscheinlichkeiten

Eine Grösse wie «70 Prozent» lässt sich in der Natur – anders als Höhe, Länge, Gewicht – nicht beobachten oder messen. «Den aggregierten Blick, die Wahrscheinlichkeit, gibt es in der Natur nicht – er ist eine Errungenschaft der Aufklärung», sagt Pachur. Diese Perspektive entspricht also nicht der Alltags­erfahrung von Menschen. Viel eher entspricht es unserem Alltag, mehrere einzelne Ereignisse und ihre Ausgänge zu beobachten.

Wir können etwa in einer Reihe von Einzel­erfahrungen zehnmal würfeln und dabei erfahren, wie häufig die Sechs oben liegt. «In dieser Form können wir Wahrscheinlichkeiten besser begreifen», sagt Pachur. Da die Darstellung in Wahrscheinlichkeiten in der Evolution erst spät aufgetreten sei, müssten wir den Umgang damit noch lernen.

Experimente zeigen, dass Probandinnen das richtige Ergebnis eher finden, wenn ihnen eine Aufgabe in natürlichen Häufigkeiten gestellt wurde, als wenn Wahrscheinlichkeiten vor ihnen liegen. Betrachten Sie folgendes Beispiel, das etwa in einem Statistik­lehrbuch stehen könnte:

Sie möchten wissen, ob Sie in Ihrem Blut Antikörper gegen Covid-19 haben, und machen einen Antikörper­test. Wir nehmen mal an, Sie seien Zürcherin. (Und hoffen, falls Sie es nicht sind, dass Sie das nicht als allzu grosse Anmassung wahrnehmen.)

  • Die Wahrscheinlichkeit, dass der Test vorhandene Antikörper erkennt, sei 98 Prozent.

  • Die Wahrscheinlichkeit, dass er fälschlicher­weise Antikörper anzeigt, obwohl Sie noch nie mit Sars-CoV-2 infiziert waren, sei 5 Prozent.

  • Sie erhalten einen positiven Befund. Wie gross ist die Wahrscheinlichkeit, dass Sie tatsächlich Antikörper haben?

Hm.

Um die Frage zu beantworten, muss man auf den Satz des englischen Statistikers Thomas Bayes zurück­greifen. Sein Theorem gelangte im 18. Jahrhundert, erst nach seinem Tod, an die Öffentlichkeit. Auf unsere Daten angewendet geht es so:

0,03 × 0,98 / (0,03 × 0,98 + 0,97 × 0,05) = 0,377

Die Wahrscheinlichkeit, bei einem positiven Testresultat tatsächlich Antikörper zu haben, beträgt also nur knapp 38 Prozent. Das wirkt auf den ersten Blick überraschend.

Nachvollziehbar wird der scheinbare Wider­spruch aber, wenn man die Wahrscheinlichkeiten in Häufigkeiten ummünzt (hilfreich übrigens auch für Ärzte, deren Intuition hier ebenfalls oft versagt):

  • Von 10’000 Zürcherinnen haben 300 Antikörper. Von diesen 300 erhalten 294 ein positives Resultat.

  • Von den restlichen 9700 Personen, die keine Antikörper haben, erhalten 485 trotzdem einen positiven Antikörpertest.

  • Wenn Sie positiv auf Antikörper getestet werden, gehören Sie also zu einer dieser zwei Gruppen.

  • Da die zweite Gruppe grösser ist als die erste, ist die Chance, dass Sie bei einem positiven Testergebnis zu ihr gehören, ebenfalls grösser.

Weil in der Bevölkerung viel mehr Personen noch keine Antikörper haben, ist ein positiver Test also häufiger irrtümlich als korrekt positiv – die Darstellung anhand eines Beispiels mit absoluten Zahlen hilft, dies zu erkennen. (Das ist übrigens auch der Grund, weshalb Antikörpertests nicht wirklich dazu taugen, anzugeben, ob eine einzelne Person schon Covid-19 hatte – aber durchaus dazu, abzuschätzen, welcher Anteil der Bevölkerung das Virus schon hatte.)

3. Eine Wahl ist kein wiederholbares Ereignis

Beim Würfeln können wir das Ereignis so oft wiederholen, wie wir möchten. Und erleben dabei: Würfeln wir 100-mal, liegt die Sechs rund 17-mal oben. Bei den nächsten 100 Würfen sind es vielleicht nur 9 Sechsen, bei weiteren 100 sind es vielleicht 20. Aber wir haben es nie erlebt, dass bei 10 Wahlen unter den spezifischen Bedingungen des Novembers 2016 3-mal Trump gewählt wird und 7-mal Clinton. Und wir werden nie erleben, dass bei 10 Wahlen unter den aktuellen Bedingungen 9-mal Joe Biden gewinnt und 1-mal Donald Trump. Vielleicht fällt es uns deshalb schwerer, Wahl­prognosen einzuschätzen als etwa Regen­wahrscheinlichkeiten.

Auch Entscheidungsforscher Thorsten Pachur hat das Wahl­ergebnis 2016 «überrascht, ja, schockiert». Er habe sich die genauen Vorhersagen damals zwar nicht angesehen. «Aber ich habe auch relativ selten Wahl­ausgänge erlebt, wo es trotz engem Verhältnis in der Vorhersage dann zum anderen Ausgang kam. Meine Intuition war also nicht so gut kalibriert.»

Auch wenn wir Wahlen nie als exakt wieder­holbares Ereignis erleben: Wahlergebnisse, die der Intuition zuwiderlaufen, sind wertvolle kognitive Erfahrungen. «Wenn Trump diesmal wieder gewinnen würde, wäre der Schock nur halb so gross. Denn wir haben schon einmal die Erfahrung gemacht, dass ein solcher Kandidat gewinnen kann», sagt der Kognitions­psychologe Klaus Oberauer.

4. Wir haben eine Vorliebe für Informationen, die uns bestätigen

Mit Widersprüchen konfrontiert, picken wir Menschen gerne die Information heraus, die unser (vermeintliches) Vorwissen bestärkt – und ignorieren die andere. Psychologen nennen diesen Effekt confirmation bias: Bestätigungsfehler.

Die meisten Probandinnen, die zwei widersprüchliche Umfrage­resultate sehen – eines, das ihren bevorzugten Kandidaten vorne zeigt, und eines, das ihn hinten sieht –, verwerfen Letzteres gern als ungenau oder falsch. «Wer glaubte und hoffte, dass Hillary Clinton gewinnt, sah sich durch die damaligen Prognosen bestätigt», sagt Psychologin Schaper. «Sie passten sehr schön in ihr Weltbild.» Als dieses wiederholt verstärkte Weltbild innerhalb einer Wahlnacht erschüttert wurde, waren diese Menschen umso überraschter. Und vielleicht auch zorniger.

Liberale Journalistinnen fokussierten etwa auf die Erwartung, dass Clinton bei hispanischen Wählerinnen Gewinne holen würde – und weniger auf Hinweise darauf, dass die Wahlbeteiligung schwarzer Amerikaner sinken könnte.

Personen, die eher für Trump waren, haben die Prognosen möglicher­weise anders wahrgenommen oder sich andere Umfrage­resultate gemerkt.

5. Im Nachhinein glauben wir, es besser gewusst zu haben

«Die Vorwürfe nach der Trump-Wahl unterstellen Fehler in der Vorhersage; sie unterstellen, dass man es hätte besser wissen müssen», sagt Schaper. Das habe möglicherweise mit dem zu tun, was Psychologinnen hindsight bias nennen – Rückschau­fehler: Nach Kenntnis eines Ereignisses denkt man, dessen Ausgang wäre von Vornherein klar gewesen.

Dass es diese kognitive Verzerrung gibt, haben Experimente wiederholt nachgewiesen. Man stelle Probanden, sagt Schaper, eine Wissensfrage, etwa: «Wie hoch ist der Eiffelturm?» Sie geben eine Schätzung ab. Später hören sie die richtige Antwort und sollen sich an ihre frühere Schätzung erinnern. In ihrer Erinnerung sind die Probanden jeweils näher an der richtigen Lösung, als sie es tatsächlich gewesen waren.

Schaper kann sich vorstellen, dass der Effekt im Nachgang der Wahl eine Rolle gespielt hat: «Die Vorher­sagen haben Unsicherheit ausgedrückt – eine Chance von 70 Prozent ist ja ziemlich unsicher –, doch durch die Rückschau-Verzerrung hatte man vielleicht das Gefühl, der Ausgang hätte für die Statistikerinnen und Meinungs­forscher klarer vorhersehbar sein müssen.»

Solche kognitiven Verzerrungen hätten meist ihren Zweck. Wir Menschen müssten ja dazulernen, sagt Schaper, und neue Informationen in unser vorheriges Wissen integrieren. Das sei nützlich. Es bewirke aber, dass wir nicht so gut darin seien, uns daran zu erinnern, welches Wissen wir zu welchem Zeitpunkt gehabt hätten.

6. Dass Trump gewinnt, war undenkbar

Der amerikanische Journalist Sean Trende warnte im Sommer vor der Wahl davor, dass Analysten, ähnlich wie im Vorfeld des Brexit-Referendums, ihrem eigenen unthinkability bias (etwa: Undenkbarkeits­fehler) erliegen könnten. Dass sie die Wahrheit – die realistische Einschätzung von Prognosen – einfach nicht wahrhaben wollen und können.

Der Schock beim Wahlresultat sei weit darüber hinaus­gegangen, dass Wahrscheinlichkeiten schwer zu verstehen sind, sagt Psychologe Klaus Oberauer. «Meine Intuition hat mir damals etwa gesagt: All die Wahlen, die ich beobachte, laufen nach relativ normalem Muster ab. Manche Kandidaten haben sich halt in der Öffentlichkeit besser präsentiert, andere weniger. Aber Trump hatte sich ja nach allen herkömmlichen Massstäben unmöglich gemacht. Das war das Unheimliche daran.»

7. Das amerikanische Wahlsystem ist kompliziert

Die Mehrheit der Wählerinnen bestimmt nicht den Präsidenten, sondern den Gewinner ihres Bundes­staats, dem dann gleich alle Elektoren in diesem Staat zufallen (merken Sie es sich mit diesem Lied von Abba: The winner takes it all). Diese wählen den Präsidenten (oder, vielleicht irgendwann, die Präsidentin).

Das System sei schwer zu verstehen, sagt Psychologin Schaper, weil die landesweiten Umfragen kaum widerspiegeln könnten, wie die Wahl ausgeht. Deshalb fliessen in Prognose­modelle übrigens nicht nur nationale Umfrage­daten, sondern auch Umfragen auf bundes­staatlicher Ebene, historische Wahldaten sowie wirtschaftliche Daten mit ein – und dieses Jahr auch pandemiebedingte Effekte.

«Winner takes it all, dieses Prinzip kann auf einer psychologischen Ebene dafür sorgen, dass man das Gefühl hat, es sei sowieso egal, ob oder wen man wähle», sagt Schaper. Manche dächten etwa, die eigene Kandidatin gewinne sowieso, also bräuchten sie selber nicht zu wählen. Andere könnten denken, ihr bevorzugter Kandidat habe ohnehin keine Chancen. So wählen sie jemand anderen – oder gar nicht. Diese Effekte, die das Wahlsystem fördern kann, machen es wiederum schwierig, die Wahl­beteiligung verschiedener Wähler­gruppen vorherzusagen.

Gerade Personen, die mit dem amerikanischen System nicht so vertraut sind, seien möglicher­weise auch auf den Unterschied zwischen Umfrage­resultaten und Prognosen herein­gefallen, sagt Statistiker Dümbgen. Denn 70 Prozent Wählerstimmen sind eine satte Mehrheit (denken Sie etwa an Umfragen kurz vor einer Schweizer Abstimmung). Aber 70 Prozent Wahlchancen, das wären im Schnitt 3 Trumps in 10 Wahlen – hier geht es also nicht um Wähleranteile.

Wir müssen anders über Wahrscheinlichkeiten sprechen

Die Aufzählung verdeutlicht: Geht es um Wahrscheinlichkeiten, spielt uns das Gehirn verschiedenste Streiche. Wir Menschen sind unzulängliche Wahlprognosen-Verarbeiterinnen.

Umso wichtiger ist es, dass Wissenschaftlerinnen und Journalisten präzise kommunizieren, wie solche Prognosen entstehen, welche Unsicherheiten dabei mitschwingen und was sie für künftige Ereignisse bedeuten können.

Die gute Nachricht ist: Man sieht, dass sich (Daten-)Journalistinnen und Forscher damit auseinander­gesetzt haben, mit welcher Sprache und welchen Visualisierungen sie über die diesjährigen Prognosen berichten wollen.

Was können wir noch tun, um kognitive Verzerrungen zu kontern?

Russisches Roulette, Sie erinnern sich. Am 3. November wählen die Amerikanerinnen ihren neuen Präsidenten. Dieser Revolver hat zehn Kammern, nur eine davon enthält eine Patrone. Joe Biden hat heute bedeutend grössere Chancen, die Wahl zu gewinnen, als Hillary Clinton vor vier Jahren.

Die Trommel dreht sich ein paar Sekunden lang, und dann …

… drücken Sie ab. Sie laden nach. Und drücken wieder ab.

1-mal, 2-mal, 9-mal. Wann fällt der erste Schuss?

Ich will es genauer wissen: Wie die Wahlprognose von «Fivethirtyeight» entsteht

Die Statistiker des daten­journalistischen Mediums berechnen aus Umfragen auf nationaler und bundesstaatlicher Ebene sowie weiteren Faktoren für jeden solchen Staat zwei Werte: die Wahrscheinlichkeit, dass Joe Biden den Bundes­staat gewinnt, und die, dass ihn Donald Trump gewinnt. Damit simuliert das Team 40’000-mal den Wahlausgang in jedem Bundesstaat. Die Wahl­chancen für jeden Kandidaten ergeben sich aus dem Anteil der Simulationen, bei denen der jeweilige Kandidat die Mehrheit der Elektoren gewinnt.

In das Prognose­modell fliessen zwei Typen von Daten ein:

  • Umfrageresultate verschiedener Umfrageinstitute. Diese Daten werden gewichtet: Aktuelle Umfrage­resultate erhalten mehr Gewicht als ältere; Umfragen mit grösseren Stich­proben mehr als solche mit kleineren; Umfragen unter Wählerinnen, die vermutlich wählen werden, mehr als solche, die lediglich schon registrierte Wählerinnen befragen; und als qualitativ hochstehend eingeschätzte Umfragen erhalten ebenfalls mehr Gewicht.

  • Daten, die nichts mit Umfragen zu tun haben. Ergebnisse aus voran­gehenden Wahlen, demografische und wirtschaftliche Daten und ein Unsicherheits­index, der verschiedene Faktoren berücksichtigt.

Hier gehts zur Prognose von «Fivethirtyeight». Und hier zu den methodischen Details.

Wir haben noch einmal 100-mal gewürfelt. Die Sechs liegt nun rund 17-mal oben (statt rund 12-mal, wie in einer früheren Version geschrieben). Bei den nächsten 100 Würfen könnte dies aber auch 9-mal der Fall sein, oder vielleicht 20-mal. Wir bitten um Entschuldigung.