Forschungsmethoden in der Fremdsprachendidaktik. Группа авторов
Um die Verteilung der zu untersuchenden Merkmalsausprägung in einer Stichprobe analog zu ihrer Verteilung auf verschiedene Schichten innerhalb der Grundgesamtheit replizieren zu können, muss diese Verteilung (z.B. aus Vorstudien) bekannt sein. Die Mitglieder aus den Schichten der Grundgesamtheit werden zufällig in die entsprechende Schicht der Stichprobe gewählt (vgl. z.B. Döring/Bortz 2016: 312; Bortz/Schuster 2010: 81; Cohen/Manion/Morrison 2018: 216). Ist beispielsweise bekannt, dass sich Leistungskurse in der Fremdsprache Französisch im Mittel aus 20 % männlichen und 80 % weiblichen Jugendlichen zusammensetzen, dann sollte sich diese Quote auch in der Stichprobe einer entsprechenden Studie wiederfinden. Gleiches gilt für alle Merkmale, die Einfluss auf die im Forschungsfokus stehende Eigenschaft haben könnten.
KlumpenstichprobeKlumpenstichprobe: Als Klumpen werden natürliche Teilkollektive oder bereits bestehende Gruppen bezeichnet, wie etwa Schulklassen und Schulen. Analog zur Zufallsstichprobenziehung ist auch hier eine Liste aller studienrelevanten Klumpen notwendig, aus der per Zufall eine bestimmte Anzahl an Klumpen in ihrer Gesamtheit für die Stichprobe ausgewählt wird (vgl. z.B. Döring/Bortz 2016: 314; Bortz/Schuster 2010: 81; Cohen/Manion/Morrison 2018: 216). Es ist beispielsweise nicht möglich, im Rahmen einer Klumpenstichprobenziehung, für die ganze Schulklassen ausgewählt werden, nur einige Schüler aus einer gewählten Schulklasse in die Stichprobe aufzunehmen.
Mehrstufige StichprobeStichprobemehrstufige: Klumpenstichproben können oftmals zu umfangreich werden, wenn die Klumpen selbst schon sehr groß sind. In diesen Fällen bieten sich zwei- oder mehrstufige Stichprobenziehungen an. Dabei wird in einem ersten Schritt eine Liste aller untersuchungsrelevanten Klumpen erstellt, aus der per Zufall eine bestimmte Anzahl an Klumpen ausgewählt wird (Klumpenstichprobe). In einem zweiten Ziehungsschritt wird wiederrum per Zufall eine bestimmte Anzahl an einzelnen Untersuchungsobjekten für die Stichprobe ausgewählt. Diese Schritte können mehrfach wiederholt werden (vgl. z.B. Döring/Bortz 2016: 315; Cohen/Manion/Morrison 2018: 217). Die Stichprobenziehungen der PISA-Studien folgen annäherungsweise einer zweistufigen Sampling-Strategie: Zuerst werden per Zufall aus einer vollständigen Liste infrage kommender Bildungseinrichtungen Schulen ausgewählt (Klumpenstichprobe), aus denen dann in einem zweiten Schritt zufällig die 15-jährigen Probandinnen und Probanden gezogen werden.
Um größtmögliche Repräsentativität der Stichprobe zu gewährleisten, muss in der Forschungspraxis oft auf mehrstufige Sampling-Verfahren zurückgegriffen werden. Dies lässt sich beispielhaft an der Studie von Grum (2012) darstellen: Untersucht wurde das Leistungsspektrum mündlicher englischer Sprachfähigkeit von Schülerinnen und Schüler der zehnten Jahrgangsstufe mit und ohne Bilingualem Sachfachunterricht in Berlin. Da es zum Erhebungszeitpunkt eine überschaubare Menge an Schulen mit bilingualem Sachfachunterricht gab (drei Gymnasien und drei Realschulen), wurden alle Schulen in die Studie aufgenommen. Anschließend wurden zu gleichen Anteilen aus den bilingualen wie regulären Klassen per Zufall, stratifiziert nach Geschlecht und Leistung, 84 Schülerinnen und Schülern gezogen, die an einem mündlichen Test teilnahmen. Der Stichprobenplan stellt somit eine Kombination aus Vollerhebung und geschichteter Stichprobe dar. Als weiteres Beispiel aus der Sprachlehr-Lernforschung sei hier die Studie von Özkul (2011) zur Berufs- und Studienfachwahl von Englischlehrenden genannt. Auch hier wurde auf eine Mischform der Stichprobenziehung zurückgegriffen. Die GrundgesamtheitGrundgesamtheit lässt sich folgendermaßen beschreiben: alle Lehramtsstudierende mit Anglistik/Amerikanistik an deutschen Hochschulen im Wintersemester 2008, die an studieneinführenden Veranstaltungen teilnahmen. An 19 von 40 möglichen Hochschulen wurden Fragebögen verschickt, die von den Studierenden beantwortet wurden. Dieses Verfahren scheint zu einer Klumpenstichprobe in Kombination mit einer Zufallsstichprobe zu führen. Allerdings kann dieses Verfahren nicht als probabilistisch beschrieben werden, da sich Hochschulen und Studierende selbst für die Teilnahme an der Fragebogenergebung entschieden haben (SelbstauswahlSelbstauswahl) und nicht per Zufall ausgewählt wurden. Somit ist die Stichprobe nicht zufällig, sondern willkürlich entstanden und als nicht-probabilistisch einzustufen.
Bei nicht-probabilistischen Sampling-Strategien (QuotenauswahlstrategienQuotenauswahlstrategien) spielt der Zufall keine Rolle, sodass ein höheres Risiko besteht, Auswahlfehler zu begehen, die zu einem verzerrten Abbild der Grundgesamtheit führen. Aus nicht-probabilistischen Stichproben gewonnene Ergebnisse erlauben daher keine verallgemeinernden Aussagen über die Grundgesamtheit, gleichwohl lässt sich aber die Stichprobe beschreiben. Daher sind nicht-probabilistische Stichprobenverfahren dann sinnvoll, wenn beispielsweise die Grundgesamtheit unbekannt ist oder eine Studie zu rein deskriptiven oder explorativen Zwecken durchgeführt wird. Zu nicht-probabilistischen Sampling-Strategien gehören u.a. folgende Stichprobentypen:
Ad-hoc-Ad-hoc-StichprobeStichprobe (BequemlichkeitsauswahlBequemlichkeitsauswahl oder GelegenheitsstichprobeGelegenheitsstichprobe): Eine bereits bestehende Personengruppe bildet die Stichprobe (z.B. eine Schulklasse oder Lerngruppe, Passanten). Es ist meist nicht zu rekonstruieren, welche Grundgesamtheit eine Ad-hoc-Stichprobe abbildet (vgl. z.B. Döring/Bortz 2016: 306; Bortz/Schuster 2010: 82; Cohen/Manion/Morrison 2018: 217–218). Das für die Untersuchung von Kienberger (2020, s. Kap. 7) vorgenommene Sampling stellt ein Beispiel für eine Gelegenheitsstichprobe dar.
QuotenstichprobeQuotenstichprobe: Die Zusammensetzung der Stichprobe erfolgt nach Merkmalsquoten, die analog zur Zusammensetzung dieser in der Population erfolgt. Es werden gezielt vermeintlich passende Untersuchungsobjekte in die Stichprobe aufgenommen, um die Quote für bestimmte Merkmalskategorien zu erfüllen. Die Erfüllung der Quoten spielt dabei eine größere Rolle als die zufällige Auswahl der Stichprobe und erfolgt nicht per Zufall, sondern nach subjektiven Kriterien der Datenerhebenden (vgl. z.B. Döring/Bortz 2016: 307; Bortz/Schuster 2010: 82; Cohen/Manion/Morrison 2018: 218). Von einer Quotenauswahl kann beispielsweise dann gesprochen werden, wenn die Vorgabe ist, je vier Englischlehrerinnen und -lehrer zu befragen und der Interviewer sich in den Schulpausen im Lehrerzimmer solange passende Interviewpartner sucht, bis die Quote erfüllt ist.
Theoretische StichprobeStichprobetheoretische: Nicht zufalls-, sondern theoriegeleitet werden für eine Forschungsfrage besonders typische oder untypische Fälle ausgewählt, mit dem Ziel, deren Verteilung in der Grundgesamtheit in der Stichprobe widerzuspiegeln (vgl. z.B. Döring/Bortz 2016: 302; Bortz/Schuster 2010: 82; Cohen/Manion/Morrison 2018: 222–23). Dieses Verfahren wird auch bei quantitativen Studien eingesetzt, findet aber primär in der qualitativen Forschung Anwendung (s. Kap. 4.3).
3 StichprobengrößeStichprobengröße
Um eine möglichst hohe Repräsentativität für die Aussagekraft der Ergebnisse einer Studie zu erzielen, ist neben der Genauigkeit, mit der eine Stichprobe die Grundgesamtheit abbildet, und dem Grad an Zufälligkeit, mit der die Elemente der Grundgesamtheit in die Stichprobe gewählt werden, auch die Größe der Stichprobe von Bedeutung. Prinzipiell lassen sich statistische Kennzahlen mit jedem ‚irgendwie‘ erhobenen Datensatz jeglicher Größe berechnen – jedoch lassen sich weder die Qualität der Ergebnisse noch die Aussagekraft der Studie nachvollziehen. Wird ein quantitativ-empirisches Forschungsdesign mit auf die Grundgesamtheit schließenden inferenzstatistischen Verfahren angestrebt, lässt sich a priori der Umfang für die probabilistisch zu erhebende Stichprobe berechnen. Dabei wird ein möglichst optimaler Stichprobenumfang angestrebt, denn zu kleine Stichproben verringern die TeststärkeTeststärke und zu große Stichproben erhöhen den Erhebungsaufwand unnötig. „Stichprobenumfänge sind optimal, wenn sie einem Signifikanztest genügend Teststärke geben, um einen getesteten Effekt bei vorgegebener Effektgröße entdecken und auf einem vorgegebenen Signifikanzniveau absichern zu können“ (Bortz/Döring 2006: 736). Statistisch gesehen hängen Teststärke, EffektgrößeEffektgröße, α-Fehlerniveau und Stichprobenumfang voneinander ab. Dies bedeutet, dass sich die Stichprobengröße berechnen lässt, wenn man Teststärke, Effektgröße und α-Fehlerniveau festlegt. Diese Berechnung ist auch abhängig vom gewählten statistischen Verfahren, das auf die Daten angewendet werden soll. Das α-Fehlerniveau wird oftmals auf 5 % oder 1 % festgelegt und die Teststärke auf 80 %. Die Effektgröße hingegen ist stark abhängig vom Forschungszusammenhang und dem Studiendesign. Sie wird oft in kleinere, mittlere und größere Effekte unterteilt (s. hierzu Grum 2019). Der optimale Stichprobenumfang lässt sich für spezifische statistische