Handbuch der Soziologie. Группа авторов

Handbuch der Soziologie

in der Regel drei Kriterien, die erfüllt sein müssen, um eine Kausalbeziehung statistisch nachzuweisen: 1) die Verteilung einer Variable korrespondiert bzw. korreliert systematisch mit der Verteilung einer anderen Variable; 2) es ist keine Scheinkorrelation, d. h. die gemeinsame Variation der Verteilung von abhängiger und unabhängiger Variable bildet auch wirklich den direkten Zusammenhang der beiden Variablen ab und nicht den Einfluss einer unbeobachteten Drittvariable; 3) die Ursache wird vor der Wirkung gemessen (Kelle 2008).

Das experimentelle Design kommt der Modellierung einer Kausalbeziehung am nächsten, weil es den Kausaleffekt im Vergleich zwischen den Probanden der Untersuchungs- und der Kontrollgruppe direkt produziert und misst. Aus ethischen und praktischen Gründen ist es allerdings nur selten für soziologische Fragestellungen geeignet. Als quasi-natürliches Experiment gelten Settings, in denen zwei Gruppen miteinander verglichen werden, von denen nur eine Gruppe einem bestimmten Einfluss ausgesetzt war. Eine Herausforderung besteht hier darin, dass die beiden Gruppen in allen übrigen Merkmalen identisch sein müssen, so dass Unterschiede in der abhängigen Variable wirklich auf diesen Kausaleffekt zurückgeführt werden können. Darüber hinaus muss der Einfluss anderer möglicher Ursachen kontrolliert werden, um die Stärke des Effekts möglichst unverzerrt zu messen.

Häufiger bedient sich die quantitative Sozialforschung allerdings Umfragen, um ihre Hypothesen zu testen – nicht zuletzt auch, um eine höhere Fallzahl und Generalisierbarkeit der statistischen [65]Befunde zu erzielen. Die ersten beiden Kriterien der Kausalitätsprüfung können durch ein Querschnittdesign erfüllt werden, während das dritte Kausalitätskriterium ein Längsschnittdesign erfordert. Die Entwicklung von Panelstudien hat die quantitative Sozialforschung in Deutschland während der letzten beiden Jahrzehnte stark geprägt, das Interesse an Zeitreihen- und Ereignisdatenanalysen hat stetig zugenommen (vgl. Diekmann 2004).

c) Datenerhebung

Aufgrund der Randständigkeit experimenteller Designs beschränken sich die folgenden Ausführungen auf die sozialwissenschaftliche Umfrageforschung. Die Datengewinnung erfolgt über mündliche, schriftliche, telefonische oder internetgestützte Formen der Befragung. Im Mittelpunkt steht zunächst die Entwicklung des Fragebogens. Dabei sind alle für den Hypothesentest erforderlichen Indikatoren zu berücksichtigen. Je mehr eindimensionale Indikatoren man verwendet, desto mehr Informationen können insgesamt erfragt werden. Bei eindimensionalen Indikatoren kann eine missverständliche Frageformulierung allerdings auch zu einer falschen Klassifizierung der Befragten führen, und dieser Fehler kann weder korrigiert noch das Ausmaß des Fehlers eingeschätzt werden. Mit ihrem Interesse an einer möglichst differenzierten Messung ihrer Konzepte durch komplexe multidimensionale Indikatoren laufen Forscher umgekehrt aber auch möglicherweise Gefahr, Befragte zu überfordern, was ebenfalls fehlerhafte Antworten, fehlende Antworten oder sogar den Abbruch des Interviews zur Folge haben kann (z. B. Schnell et al. 2011: 199 ff.; Neuman 1997: 132 ff.).

Bei der Frageformulierung spielen messtheoretische Gesichtspunkte der Reliabilität und Validität eine entscheidende Rolle. Beide Gütekriterien lassen sich anhand standardisierter Verfahren in Pretests prüfen. So kann die Stabilität eines Indikators durch wiederholte Messungen innerhalb derselben Untersuchungsgruppe geprüft werden (Test-Retest-Methode). Für multidimensionale Indikatoren gilt es auch, die Konsistenz der Messergebnisse zwischen den Indikatoren zu testen (klassischer Test: Cronbachs Alpha). Die Replizierbarkeit der Ergebnisse hängt eng mit der Reliabilität der Indikatoren zusammen. Die Validität stellt quantitative Studien vor größere Herausforderungen, denn es gibt keine absolute Sicherheit darüber, dass ein Indikator auch wirklich das gemeinte Konzept abbildet (Neuman 1997: 141). Die inhaltliche Validität eines Indikators kann durch das Urteil anderer Experten oder möglicher Probanden über seinen Sinngehalt geprüft werden. Er sollte außerdem möglichst viele relevante Dimensionen des zugrunde liegenden Konzeptes abbilden. Aber auch der Vergleich mit bereits etablierten alternativen Indikatoren oder seine Vorhersagekraft können dazu dienen, die Validität eines Indikators zu steigern (ebd.: 144).

Um die Objektivität bzw. Replizierbarkeit der Messungen sicherzustellen, gilt es auszuschließen, dass Messfehler einen unkontrollierten Einfluss auf die Datengewinnung ausüben. Mögliche Fehlerquellen werden daher nacheinander eliminiert, indem der Fragebogen auf den Effekt der Fragenreihenfolge, den Einfluss von Suggestivfragen oder die Rolle sozialer Erwünschtheit überprüft wird.

Seit dem Zweiten Weltkrieg hat die quantifizierende Bestimmung des Sozialen stark zugenommen. Die Einrichtung großer Forschungsdatenzentren (Statistische Bundes- und Landesämter, GESIS, ICPSR, etc.), die Ausbreitung von Markt- und Meinungsforschungsinstituten (Allensbach, Emnid, Forschungsgruppe Wahlen, Infratest Dimap, etc.) sowie die regelmäßige Durchführung großer Bevölkerungsumfragen (ALLBUS, SOEP, ISSP, Eurobarometer, etc.) haben die wissenschaftliche Sekundäranalyse prozessproduzierter statistischer Daten vereinfacht. Während kosten- und zeitintensive Primärerhebungen die Freiheit lassen, Forschungsdesigns eng an eigenen Forschungsinteressen und Methodenkenntnissen zu entwickeln, setzt die freie bzw. [66]kostengünstige Nutzung unterschiedlicher Sekundärdatensätze ein breiteres Methodenwissen voraus (Fleck 2010).

d) Datenanalyse

Die Auswertung empirischen Datenmaterials wurde in den letzten Jahrzehnten durch die explosionsartige Steigerung der Rechnerkapazitäten (von der Hollerith-Lochkarte bis zum modernen Supercomputer) und die Implementierung leistungsfähiger Softwarepakete (wie Stata, SPSS, R oder LISREL) erheblich vereinfacht, so dass mittlerweile riesige Informationsmengen und komplexe Modelle innerhalb kürzester Zeit verarbeitet werden können (»Big Data«).

Die Datenanalyse erfolgt in der Regel in zwei Schritten: Univariate Analysen sollen anhand von Häufigkeitsverteilungen und Maßen der zentralen Tendenz darüber Aufschluss geben, a) wie häufig die unterschiedlichen Ausprägungen einer Variable in der Stichprobe vorkommen und b) welche Ausprägung für die Verteilung einer Variable charakteristisch sind und daher am häufigsten vorkommen. Die multivariate Analyse untersucht dann die Stärke und Richtung der in den Forschungshypothesen postulierten Kausaleffekte unter Kontrolle möglicher weiterer Ursachen. Aber auch intervenierende Variablen, welche die Stärke des Effekts beeinflussen, und moderierende Variablen, die seine Richtung verändern können, gehen in diesen Forschungsschritt ein. Zu den klassischen Instrumenten der multivariaten Datenanalyse gehören die Faktorenanalyse sowie die lineare und die logistische Regression.

In der Regel sind Wissenschaftlerinnen nicht allein an der deskriptiven Vermessung ihrer Stichprobe interessiert, sondern versuchen, ihre Befunde mit Hilfe inferenzstatistischer Verfahren zu verallgemeinern. Die gemeinsame Logik inferenzstatistischer Testverfahren besteht darin, eine Nullhypothese zu formulieren, die davon ausgeht, dass zwischen abhängiger und unabhängiger Variable kein Zusammenhang besteht, es wird also versucht, die erkenntnisleitende Theorie aktiv zu falsifizieren (vgl. Schnell et al. 2005: 447–454). Zu diesem Zweck wird anhand geltender Konventionen ein Signifikanzniveau festgelegt, und auf dieser Basis wird a) die Wahrscheinlichkeit getestet, mit der die Nullhypothese fälschlicherweise abgelehnt wird (»Alpha-Fehler«). Wenn der Forscher nun b) ein möglichst rigides Signifikanzniveau wählt, um den unter a) beschriebenen Fehler zu vermeiden, erhöht er damit zugleich aber auch die Wahrscheinlichkeit, die Nullhypothese anzunehmen, obwohl sie hätte verworfen werden müssen – d. h. er geht irrtümlicherweise davon aus, dass seine Forschungshypothese empirisch widerlegt ist (»Beta-Fehler«). Dabei beruhen alle statistischen Tests allerdings auf der Grundannahme, dass das gewählte lineare Modell den untersuchten Kausalzusammenhang richtig modelliert (Aachen 1982). Auch elaborierte statistische Prüfkriterien der richtigen Modellspezifikation und des richtigen statistischen Schätzers können Überlegungen über die inhaltlich-theoretische Validität des Modells nicht ersetzen.

Da Längsschnittdesigns kostspielig sind, greifen quantitativ ausgerichtete Forschungsprojekte häufig auf nationale Panelstudien oder die amtliche Statistik zurück. Während die Qualitätsstandards dieser Studien hoch sind, konfrontieren sie die Forscher zugleich mit der Herausforderung der Sekundäranalyse: Sie müssen ihre Forschungsfrage so modifizieren, dass sie auf Grundlage der bereitgestellten Daten angemessen bearbeitet werden kann, und sie müssen sich mit den Stärken und Schwächen des von anderen erhobenen Datenmaterials vertraut machen (Bryman 2008: 297 ff.). Insgesamt erfordern Längsschnittuntersuchungen ein hohes Maß an Methodenwissen und haben die Spezialisierung

Скачать книгу