Umfragewerte oder Medienpräsenz: Was kommt zuerst?

[This article was first published on R on Sastibe's Data Science Blog, and kindly contributed to R-bloggers]. (You can report issue about the content on this page here)
Want to share your content on R-bloggers? click here if you have a blog, or here if you don't.

Einleitung und Fragestellung

In den letzten Jahren1 konnten in diversen Ländern der Aufstieg populistischer Phänomene beobachtet werden: der Aufstieg der AfD in Deutschland, die seit ihrer Gründung binnen 5 Jahren in sämtlichen deutschen Landtagen, dem Bundestag und dem europäischen Parlament vertreten ist; der Wahlsieg Donald J. Trumps in den USA; der Aufstieg der Lega in Italien und viele weitere Beispiele. Ein Verlaufsmuster, das bei jedem einzelnen dieser Aufstiege in der Öffentlichkeit auftritt ist das folgende Ping-Pong-Spiel zwischen Medien und Umfragewerten: Je größer die gesellschaftliche Bekanntheit, desto größer das Medienecho, desto größer die Bekanntheit, etc. In diesem Artikel werde ich diesen Zusammenhang empirisch untersuchen, und dabei folgenden Fragestellungen nachgehen:

1) Gibt es einen messbaren, zeitlichen Zusammenhang zwischen medialer Aufmerksamkeit für die AfD und den Umfragewerten der Partei?

2) Wenn ja, welche zeitliche Abfolge gilt: Erst Medienecho, dann Umfrageergebnis, oder umgekehrt?

In der Folge erkläre ich detailliert meine Vorgehensweise, nehme hier aber bereits die Antworten vorweg:

1) Ja, in der Phase zwischen “erster Spaltung” der AfD (Juli 2015) bis zur Bundestagswahl 2017 ist dieser Zusammenhang deutlich messbar

2) Laut Zahlenwerk am plausibelsten: Die Steigerung der Berichterstattung erfolgt knapp vorher oder genau zeitlich synchron; es lassen sich aber keine eindeutigen Aussagen treffen.

Datenquellen und erste Einblicke 2

Als Datenquelle für die Analyse verwende ich zwei verschiedene Datenquellen:

  • für Umfrageergebnisse stütze ich mich auf die Ergebnisse der Umfrageinstitute Allensbach, Emnid, Forsa, FGW, GMS, Infratest und INSA, allesamt aufbereitet und bereitgestellt von www.wahlrecht.de3.
  • für Medienpräsenz habe ich auf die DeveloperAPI der Wochenzeitung Zeit zugegriffen, die sämtliche Artikel der gedruckten Zeit seit 1946 durchsuchbar macht4

Für einen ersten Überblick der verwendeten Daten hier zunächst der Blick auf die Anzahl der veröffentlichten Artikel in der Zeit, die den String “AfD”:

Hmmm, ggplot2.

Anzahl monatlicher Artikel auf zeit.de mit dem Stichwort “AfD”

Interessante Beobachtungen hierbei sind zum Einen die Spitzen, deren erste im Jahre 2017 sich einfach mit der Bundestagswahl in diesem Jahr erklären lässt. Der hohe Ausschlag im Jahr 2020 fällt auf den Februar, als die Bürgerschaftswahl in Hamburg anstand. Zum Anderen durchaus spannend ist das “Tal” zwischen 2018 und Mitte 2019, in welchem die Aufmerksamkeit für die Partei, zumindest in der Berichterstattung von zeit.de erstmal zu erlahmen schien. Erst die Bürgerschaftswahl und dann der beginnende Wahlkampf zur Bundestagswahl 2021 scheint das Interesse wieder geweckt zu haben.

Der zweite Datentopf besteht aus den aggregierten Wahlumfragen von wahlrecht.de (“Wenn nächsten Sonntag Bundestagswahl wäre…”), und ergibt folgendes Bild:

Hmmm2, ggplot2.

Monatlich aggregierte Umfragewerte der AfD und Zeitpunkte der Bundestagswahlen

Auf den langen Zeitraum betrachtet zeigt sich ein bewegter, insgesamt leicht steigender Verlauf mit bisherigem Höchststand Anfang 2018. Der Einfluss der Corona-Pandemie mit Begin um die Jahreswende 2019/20 scheint ein deutlich negativer zu sein, trotz (oder vielleicht gerade wegen) der Nähe der AfD zur pandemieskeptischen Kreisen.

Die Analysemethode

Zur Ermittelung eines Zusammenhangs zwischen den beiden Datentöpfen wird hier die Korrelation berechnet, je höher dieser Wert ausfällt, desto deutlicher ausgeprägt ist auch der Zusammenhang zwischen beiden Größen. Hierbei ist festzuhalten, dass Korrelation keine Kausation bedeutet, d.h. der festgestellte Zusammenhang muss nicht derart ausgeprägt sein, dass das Auftreten des einen Ereignisses direkt das andere Ereignis herbeiführt.

Um die zeitliche Komponenten der Untersuchung wiederzuspiegeln, wird die Korrelation in einem laufenden Fenster aus paarweise zueinander geordneten Beobachtungen berechnet. Hierbei werden verschiedene zeitliche Abstände probiert, um bspw. die Bewertung “tritt ein erhöhter Umfragewert zwei Monate nach Steigerung der Berichterstattung an?” beantworten zu können. Die Wahl der Länge des zeitlichen Fensters, das jeweils über den Zeithorizont geschoben wird, hat hierbei Auswirkungen in zwei Richtungen: Ein kurzes Fenster ermöglicht den Blick in sehr kurzfristige Veränderungen des Geschehens, hat aber eine statistisch viel größere Streuung als dies ein längeres Fenster hat. In den unten gezeigten Plots habe ich eine Fensterlänge von einem halben Jahr, d.h. 18 Messpunkten gewählt.

Das Ergebnis

In der folgenden Grafik sind die Verläufe von zwei verschiedenen Varianten der laufenden Korrelationsfenster angegeben:

  • in *Rot*: der Korrelationkoeffizient zu “synchronem” Verlauf,
  • in *Hellblau*: der Korrelationkoeffizient zu Berichterstattung läuft einen Monat voraus.

Hmmm3, ggplot2.

Zeitlicher Verlauf der “laufenden Korrelationen” zu Zeitversatz 0 und 1

Weiterhin wurde der Schwellwert 0.708 eingezeichnet, als der Schwellwert zur Signifikanz des Tests auf Unkorreliertheit zum Niveau 0,1% für n=18 5. Die Tatsache, dass beide Kurven über einen Zeitraum von fast einem Jahr über diesem Schwellwert rangieren, deutet auf die Deutlichkeit des Zusammenhangs hin. Der Zeitraum bezieht sich hierbei auf die vorhergehenden 18 Monate je Messpunkt, die Grafik zeigt somit, dass die Aussage “Umfragewerte und Berichterstattung steigen gleichzeitig” für den Zeitraum zwischen September 2014 bis Februar 2017 statistisch sehr plausibel bewertet wird. Das gleiche gilt aber auch für die Aussage “Umfragewerte steigen einen Monat nach erhöhter Berichterstattung”, und deutet damit auf die Unschärfen hin, die dieser Untersuchung zugrunde liegen. In der Tat steigen auch die Kurven zu anderen zeitlichen Abständen (+2 bis -2) in diesem Zeitraum auf statistisch signifikante Werte, jedoch nicht über einen derart langen Zeitraum.

Zusammengefasst: Die Fragestellung 1) kann eindeutig beantwortet werden, alle weiteren Fragestellungen entziehen sich einer eindeutigen Klärung. Dennoch halte ich das dargestellte Vorgehensweise für einen interessanten Weg, politische und mediale Phänomene messbar und bewertbar zu machen.


  1. Diesen Artikel schreibe ich, entgegen meiner üblichen Vorgehensweise, auf Deutsch, da das Thema sich dediziert mit deutscher Politik beschäftigt. [return]
  2. Den verwendeten Code gibt es hier zum Download. [return]
  3. Mit freundlichen Grüßen und herzlichem Dank auch an die Entwickler des R packages coalitions. [return]
  4. An dieser Stelle noch einmal meinen persönlichen Dank ans Entwicklerteam für die Genehmigung des Antrags an Silvester! [return]
  5. Siehe Lothar Sachs, Angewandte Statistik, 8. Ausgabe, Tabelle 193. [return]

To leave a comment for the author, please follow the link and comment on their blog: R on Sastibe's Data Science Blog.

R-bloggers.com offers daily e-mail updates about R news and tutorials about learning R and many other topics. Click here if you're looking to post or find an R/data-science job.
Want to share your content on R-bloggers? click here if you have a blog, or here if you don't.

Never miss an update!
Subscribe to R-bloggers to receive
e-mails with the latest R posts.
(You will not see this message again.)

Click here to close (This popup will not appear again)