Forschungsmethoden in der Fremdsprachendidaktik. Группа авторов
der Messungen; statistische Tests, die zum Einsatz kamen; Moderatorvariablen.
Abbildung 1:
Kodiervorschläge nach In’nami (s. Fußnote 7)
Spätestens bei der KodierungKodierung der Studien kann es sein, dass fehlende Daten zu Tage treten. Hier kann es helfen, die Autoren direkt anzuschreiben, um gezielt nach fehlenden Informationen zu fragen. Im Zweifelsfall müssen Studien, zu denen keine hinreichenden Daten vorliegen, ausgeschlossen oder die fehlenden Werte mittels statistischer Verfahren imputiert werden. Auch dies sollte dokumentiert werden.
Das Konzept der EffektstärkenEffektstärke sei hier kurz skizziert (s. auch Kap.: 5.3.11), da sie die zentrale Analyseeinheit von Meta-Analysen darstellen (s. Borenstein et al. 2011, insbesondere Kap. 3–9; Plonsky 2012b). Die Ergebnisse empirischer Studien werden in der Regel mittels zweier Statistiken berichtet: Zum einen interessiert die Größe oder die Stärke eines untersuchten Effekts (die so genannte Effektstärke), zum anderen ist die Signifikanz der EffekteEffekteSignifikanz der wichtig – man bedenke, dass nicht-signifikante Ergebnisse ebenso bedeutsam sind wie signifikante Effekte, doch werden sie meist nicht publiziert (s. oben, publication bias). Effektstärken sind statistische Indizes, welche grundsätzlich auf zwei Wegen bestimmt werden können: mittels KorrelationenKorrelation (die Gruppe der sogenannten r Indizesr Indizes) oder mittels (standardisierter) Unterschiede in Mittelwerten oder Standardabweichungen (die Gruppe der d Indizesd Indizes). Die in den für eine Meta-Analyse ausgewählten Studien berichteten Statistiken lassen sich problemlos in die Effektstärken r oder d überführen2, je nachdem, welche Herangehensweise für die Meta-Analyse verwendet werden soll. Johnson/Eagly (2000) empfehlen r für Studien, die vorwiegend Korrelationen berichten, und d für Studien, welche ANOVA und t-Tests einsetzen.
Zur eigentlichen DatenanalyseDatenanalyse und zur Untersuchung der Ergebnisse gibt es eigens für Meta-Analysen entwickelte Computerprogramme, beispielsweise das Programm Comprehensive Meta-Analysis3. Eine Evaluation verschiedener Programme ist unter https://www.um.es/metaanalysis/software.php zu finden. Es empfiehlt sich, Einführungen und Workshops zur Nutzung eines bestimmten Programms zu besuchen, um sich mit den Spezifika, Modellen, Annahmen und Anforderungen vertraut zu machen. Generell besteht die zentrale Datenanalyse einer Meta-Analyse aus der Berechnung des Mittelwerts und der Varianz der in den ausgewählten Studien berichteten EffektstärkenEffektstärke (Plonsky/Oswald 2012b: 275). Dazu gibt es verschiedene Modelle (die so genannten fixed-, random- oder mixed-effect Modelle, s. Borenstein et al. 2011, insb. Kap. 10–14 und 19), von denen das angemessenste gewählt werden muss. Ebenso müssen Entscheidungen getroffen werden hinsichtlich der zu nutzenden EffektstärkeindizesEffektstärkeindizes (s. oben) und der Gewichtung bestimmter Studien. Zur Interpretation der Ergebnisse ist es nötig, die Effektstärken, Konfidenzintervalle und die Richtung der Effekte der einzelnen Studien sowie Mittelwert und Varianz der Effekte über die Studien hinweg zu betrachten, um die Homogenität der gefundenen Effektstärken beurteilen zu können. Zur Interpretation helfen neben den statistischen Indizes so genannte forest plots, graphische Darstellungen, welche von den Programmen erstellt werden. Es kann nötig sein, den erwähnten publication biaspublication bias statistisch zu korrigieren; hierzu gibt es verschiedene Möglichkeiten (s. z.B. Banks/Kepes/Banks 2012; Borenstein et al. 2011, Kap. 30), von denen die graphische Methode des funnel plottings in der Fremdsprachenforschung die verbreiteste ist (z.B. Norris/Ortega 2000). Es empfehlen sich weiterführende Moderator-Analysen, um den Effekt bestimmter Moderatorvariablen auf die zu untersuchende Variable festzustellen; beispielsweise haben Jeon/Yamashita (2014) Befunde zum Leseverstehen in der Fremdsprache in einer groß angelegten Meta-Analyse zusammengestellt und dabei u.a. die Moderatoren Alter und Vokabelwissen untersucht. Abschließend darf auf so genante Power AnalysenPower-Analyse verwiesen werden (z.B. Cohen 1988; Plonsky 2013), um die Wahrscheinlichkeit zu bestimmen, dass ein bestimmter statistischer Test einen gegebenen Effekt auch erfassen kann. Dazu werden die notwendige minimale Stichprobengöße oder die minimal zu erwartende EffektgrößeEffektgröße bei einer gegebenen Stichprobengröße bestimmt. Power Analysen können für die Einzelstudien, die in eine Meta-Analyse einfließen, ebenso wie retrospektiv für eine gegebene Meta-Analyse durchgeführt werden.
Sind die Effektgrößen bestimmt und die Ergebnisse interpretiert, so schließt sich die Phase der Berichterstattung und PublikationPublikation an. Hier darf auf die APA Meta-Analysis Reporting Standards (American Psychological Association 2010, 2020) verwiesen werden, ebenso wie auf die Hinweise in Plonsky (2012b); letztere eignen sich auch gut zur Evaluation publizierter Meta-Analysen. Folgende Elemente sollte die Publikation minimal abdecken:
Eingeschlossene Studien | Resultate |
Auswahlkriterien, Publikationsstatus, Referenzen, Datenbanken; Forschungskontext; Teilnehmende: demographische Angaben, Stichprobengrößen; Forschungsdesign: experimentelles (oder anderes), Pre-/Post, Längs-/Querschnitt; eingesetzte Instrumente. | Effekgrößen: Datenbasis, Methode der Bestimmung, Gewichtung; Konfidenzintervalle, obere und untere Grenzen, Mittelwert, Varianz, forest plots; weiterführende Analysen (Moderatoren, publication bias); Interpretation, Kontextualisierung der Ergebnisse; Implikationen. |
Abbildung 2:
Minimale Publikationselemente von Meta-Analysen
4.5.3 Replikationsstudien
ReplikationsstudienReplikationsstudien dienen der Wiederholung bestimmter Experimente, Interventionen oder Studiendesigns, einerseits zum Zweck der Überprüfung der Generalisierbarkeit der Ergebnisse der Originalstudie für andere Zielgruppen oder Kontexte, andererseits zur ValidierungValidierung der berichteten Ergebnisse (Abbuhl 2012; Porte 2010). In empirischen Untersuchungen kommt der Replizierbarkeit einer Studie und deren Ergebnissen besondere Bedeutung zu, können doch auf diese Weise die Fehlertypen I und II (fälschliches Verwerfen bzw. Akzeptieren der Nullhypothese) kontrolliert werden (Schmidt 2009).
Abbuhl (2012) unterscheidet verschiedene Typen von Replikationsstudien, die sie auf einem Kontinuum von exakter Replikation (eher selten in den Sozialwissenschaften zu finden) über systematische oder approximative ReplikationapproximativeReplikationReplikationsystematische bis hin zur konzeptuellen oder konstruktiven ReplikationkonstruktiveReplikationReplikationkonzeptuelle anordnet. Bei der approximativen Replikation wird die Originalstudie so getreu wie möglich repliziert, doch eine der SchlüsselvariablenSchlüsselvariablen wird variiert, um etwa eine andere Zielgruppe oder einen anderen Kontext zu untersuchen. Die konzeptuelle Replikation bleibt dem Untersuchungsgegenstand treu, doch verwendet sie zusätzlich zu den qualitativen der Originalstudie andere Zugänge, wie etwa andere Instrumente oder quantitative Methoden.
Replikationsstudien beginnen mit der Forschungsfragestellung und der Evaluation und Auswahl einer geeigneten Studie, welche die Forschungsfrage in relevanter Weise operationalisiert und untersucht. Es schließt sich die Entscheidung an, welche Art der Replikation für die zu untersuchende Fragestellung angemessen ist. Hierbei muss die Vergleichbarkeit und Anschlussfähigkeit zwischen Replikation und Originalstudie bedacht werden in Hinblick auf Zielpopulationen und Stichproben, Untersuchungsgegenstand, Design, eingesetzte Instrumente und Analysemethoden. Etwaige Abweichungen sollten wohlbegründet sein (Gass/Mackey 2005). Nach der Durchführung und Analyse der Replikationsstudie erfolgt die Interpetation der Ergebnisse, immer auch in Bezug auf die Resultate der Originalstudie. Unterstützen die Replikationsbefunde die Ergebnisse der Originalstudie, so kann dies als ein weiterer Hinweis auf die Validität der ursprünglichen Befunde gedeutet werden. Widersprechen die Replikationsergebnisse denen der Originalstudie, kann dies als Anlass genommen werden, die GeneralisierbarkeitGeneralisierbarkeit bestimmter Ergebnisse kritisch zu diskutieren, oder die Parameter, die in die Studien einflossen, zu hinterfragen und gezielt in weiteren Untersuchungen zu erforschen (z.B. Eden 2002). Abschließend steht der Schritt der Publikation an, in welcher der Anlass der Replikationsstudie