Markt- und Meinungsforschung gehört bei uns zum täglichen Handwerkszeug. Deshalb ist es keine Überraschung, dass wir zu methodischen Aspekten immer wieder Fragen beantworten müssen. Der vor knapp zwei Jahren verfasste Text „Ab wann ist repräsentativ repräsentativ“? gehört noch heute zu den am meisten aufgerufenen Beiträgen auf unserer Webseite.
Aus aktuellem Anlass – den bevorstehenden Wahlen in einigen Ländern und im Bund – wollen wir das Thema deshalb am Beispiel vertiefen.
Versuchsanordnung: Wir schauen uns einige Tage nach der kommenden Bundestagswahl (26.9.21) die Ergebnisse für die Partei „XY“ in Sachsen und in Bayern an. In Sachsen hat „XY“ 17 % errungen, in Bayern 18 %. Ein Prozent Unterschied – eine sehr knappe Differenz. Aber dieses eine Prozent kann über einen Sitz mehr oder weniger entscheiden, mit Blick auf die 5-Prozent-Hürde sogar darüber, ob eine Partei überhaupt ins Parlament einzieht (5,5 %) oder außen vor bleibt (4,5 %). Denn wir reden vom amtlichen Endergebnis und selbst wenn der Unterschied nur wenige Stimmen beträgt, gilt: „Every vote counts.“
Was ist aber, wenn wir die oben skizzierten Ergebnisse im Rahmen einer repräsentativen Bevölkerungsbefragung in Bayern und Sachsen erhalten? „1.000 repräsentativ befragte Bürger und Bürgerinnen“ bedeutet zunächst, dass in Bayern rund 760 BürgerInnen befragt werden und in Sachsen 240. Dies entspricht dem Verhältnis der wahlberechtigten Bevölkerung in den beiden Bundesländern. Und schnell stellt sich die alles entscheidende Frage: Ist bei einer solchen Datenbasis der Unterschied von einem Prozent zwischen Bayern und Sachsen inhaltlich begründet („Die Bayern mögen die „XY“-Partei ein klein wenig mehr als die Sachsen.“) oder beruht der Unterschied auf methodischen Unzulänglichkeiten der repräsentativen Befragung? Wir haben schließlich nicht alle WählerInnen befragt (in der Marktforschung würde man dies eine „Vollerhebung“ nennen), sondern nur einen kleinen „Ausschnitt“ – die Stichprobe von 1.000 Befragten. Was wir die „Unzulänglichkeiten“ einer Stichprobe nannten, hat mehrere Facetten:
> Eine Stichprobe hat immer eine mathematische Fehlertoleranz (mehr dazu in: Ab wann ist „repräsentativ“ „repräsentativ“?). Hat eine Partei bei einer Wahl 4,97 % der Stimmen errungen, dann hat sie Pech gehabt. Ist dies das Ergebnis einer Befragung, dann besteht – rein statistisch gesehen – immer noch Hoffnung.
> Eine solche mathematische Betrachtung setzt aber voraus, dass mit einer methodisch sauberen Stichprobe gearbeitet wurde. Es gilt der Lehrsatz: Lieber eine echte Zufallsstichprobe von 500 Befragten als 5.000 Personen, die man vermeintlich „zufällig“ – z. B. in einer Fußgängerzone – befragt. Aus diesem Grund arbeiten wir mit ADM-Instituten zusammen, die in Deutschland den Standard definieren, was Stichprobenqualität (aber auch Datenschutz!) angeht.
> Und selbst wenn die beiden oben genannten Bedingungen (Beachtung der mathematischen Fehlertoleranz sowie eine methodisch saubere Stichprobe) erfüllt sind, dann kann eine Studie noch durch tendenzielle Fragestellungen zunichte gemacht werden. Wer nur an einer Bestätigung der eigenen Meinung durch Umfragen interessiert ist, der bekommt die Ergebnisse, die er sich wünscht. Wer echten Erkenntnisgewinn sucht, der muss an einer neutralen Fragestellung interessiert sein.
In Summe lassen sich zwei Dinge feststellen:
a) Die Sache mit der „Repräsentativität“ ist und bleibt kompliziert (siehe oben) – leider.
b) „Qualität“ schlägt fast immer „Quantität“. Das betrifft das Thema „Stichprobe und Repräsentativität“, aber auch die Konzeption einer Umfrage sowie die Interpretation der Daten.