Schreibkompetenzen in der Fremdsprache. Группа авторов
des ErwartungshorizontsErwartungshorizont sollten den Lernenden transparent gemacht werden, damit diese wissen, welche Aspekte (z.B. inhaltlicheInhalt Gestaltung, sprachliche Korrektheit, TextsortenadäquatheitTextsorte) sie beim Schreiben fokussieren sollen.
Außerdem sollte die Bewertung nicht von den Leistungserwartungen der Lehrkraft bezüglich einzelner Lernender oder auch von individuellen Urteilstendenzen (wie Strenge/Milde oder Vermeidung von Extremwerten) abhängen. Diese im Hinblick auf die FairnessFairness einer Prüfung wichtige Voraussetzung kann man z.B. dadurch zu erreichen suchen, dass man in bestimmten (High-Stakes-)Prüfungssituationen einen zweiten unabhängigen Bewertenden einsetzt (vgl. Kapitel 6).
InterpretationsobjektivitätObjektivitätInterpretationsobjektivität kann schließlich dadurch gewährleistet werden, dass genau festgelegt wird, welche Leistungen z.B. als „gut“ und welche noch als „ausreichend“ zu bewerten sind. Prüfende sollten zur Gewährleistung der InterpretationsobjektivitätObjektivitätInterpretationsobjektivität bei derselben Punktzahl stets zu derselben Benotung kommen.
Der Prozess der Vereinheitlichung der zu stellenden AufgabenAufgaben, der Durchführung der Prüfung, der Beurteilung der Leistungen sowie der Interpretation der Ergebnisse wird auch als StandardisierungStandardisierung bezeichnet. StandardisierungStandardisierung hilft nicht nur dem Kriterium der ObjektivitätObjektivität zu genügen, sondern kann auch einen wichtigen Beitrag zur ReliabilitätReliabilität, ValiditätValidität und FairnessFairness von Prüfungen leisten. Außerdem ist nur im Fall einer hinreichenden StandardisierungStandardisierung eine verlässliche Einschätzung der Qualität einer Schreibprüfung im Hinblick auf die intendierten Prüfungsteilnehmenden und Einsatzbereiche möglich (vgl. Moss, 2016, S. 238).
Bei Lernenden mit spezifischen Behinderungen, wie einer Rechtschreibschwäche, kann ein standardisierter Testeinsatz allerdings dazu führen, dass die Lernenden die zu messenden Kompetenzen nicht in optimaler Weise zeigen können und als Folge nicht hinreichend valide und fair beurteilt werden. Ähnliches kann für Lernende mit einem Migrationshintergrund gelten. Es können dann testteilnehmerspezifische Anpassungen, wie z.B. ein Verzicht auf die Bewertung der Rechtschreibleistung, nötig sein. Es ist allerdings stets zu prüfen, inwieweit etwaige Anpassungen mit dem Ziel eines Nachteilsausgleichs die zu erfassenden Aspekte von Schreibkompetenz und damit das TestkonstruktTestkonstrukt verändern (vgl. z.B. American Educational Research Association et al., 2014, S. 67–70, 190–191 sowie auch die Ausführungen zum TestkonstruktTestkonstrukt in Kapitel 5).
Außerdem ist etwa im Rahmen einer lernorientierten Evaluation, die darauf zielt, mit Hilfe von Feedback das Lernen zu fördern, eine StandardisierungStandardisierung der Evaluation in der Regel weder sinnvoll noch wünschenswert (vgl. hierzu Jones & Saville, 2016 sowie auch Kapitel 9 im vorliegenden Band).
4.2.2 ReliabilitätReliabilität
4.2.2.1 ReliabilitätReliabilität als umfassendes Konzept
Eine ausreichende ObjektivitätObjektivität gilt in der Regel als eine notwendige Voraussetzung für eine zufriedenstellende ReliabilitätReliabilität (Zuverlässigkeit/Verlässlichkeit) und wird deshalb auch häufig als ein spezifischer Aspekt der ReliabilitätReliabilität gesehen. Wenn z.B. eine Lehrkraft aufgrund subjektiver Vorlieben bei bestimmten Schülerinnen und Schülern besonders milde urteilt, so hat dies Auswirkungen auf die Messgenauigkeit.
ReliabilitätReliabilität kann sich u.a. auf die Präzision der verwendeten Instrumente, die Konsistenz der resultierenden Messwerte (Punktwerte) und die Verlässlichkeit der anhand der Messwerte getroffenen kriterialen Entscheidungen beziehen1Reliabilität – und zwar unabhängig davon, ob wirklich die Merkmale gemessen werden, die gemessen werden sollen. Bei den kriterialen Entscheidungen kann es sich z.B. um die Zuordnung zu einer GERGemeinsamer europäischer Referenzrahmen-NiveaustufeNiveaustufe oder um die Zulassung zu einem Sprachkurs handeln (vgl. auch Kapitel 4.2.2.5). Zur Bezeichnung dieser unterschiedlichen Bedeutungen und Verwendungsweisen wird in der neuesten Version der Standards for Educational and Psychological Testing auch das Begriffspaar Reliability/Precision verwendet (siehe American Educational Research Association et al., 2014, Kap. 2). Zur Vereinfachung der Darstellung verwenden wir im Folgenden ReliabilitätReliabilität in einer weiten Bedeutung, die alle genannten Aspekte mit beinhaltet.
ReliabilitätReliabilität im Sinne von Messfehlerfreiheit wird im Hinblick auf eine bezugsgruppenorientierteEvaluationgruppenorientiert Messung in der klassischen Testtheorie als Anteil der Varianz der ‚wahren‘ (idealen, messfehlerfreien) Werte an der tatsächlichen Varianz der vom Test gelieferten Messwerte definiert und anhand der beobachteten Testwerte in Form eines ReliabilitätskoeffizientenReliabilität geschätzt (vgl. z.B. Schermelleh-Engel & Werner, 2012).2ReliabilitätEvaluationgruppenorientiertReliabilitätEvaluationkriteriumsorientiertEvaluationgruppenorientiertEvaluationkriteriumsorientiertReliabilität Bei standardisierten Tests ist die Berechnung eines ReliabilitätskoeffizientenReliabilität ein notwendiger Bestandteil der Qualitätssicherung. Der Wert 0 zeigt völlig fehlende ReliabilitätReliabilität an (der Test produziert nur Messfehler) und der Wert 1 eine perfekte ReliabilitätReliabilität (keine Messfehler). Beim Testen sprachlicher Kompetenzen treten stets Messfehler auf (vgl. die folgenden Ausführungen). Je nach Kontext und zu treffenden Entscheidungen ist man daher mit deutlich niedrigeren ReliabilitätswertenReliabilität als 1 zufrieden.
Die klassische ReliabilitätstheorieReliabilität geht davon aus, dass die beobachtete Varianz der Testwerte ausschließlich durch das zu messende Merkmal sowie zufällige Messfehler bedingt ist. Dabei wird das zu messende Merkmal, wie z.B. Schreibkompetenz, in der Regel als relativ konstante Disposition der aktuellen und potenziellen Testteilnehmenden verstanden. Die sogenannte Generalisierbarkeitstheorie als Weiterführung der klassischen ReliabilitätstheorieReliabilität teilt die Messfehler darüber hinaus in einen nichtsystematischen Anteil (Zufallsfehler) und einen systematischen konstruktirrelevanten Anteil auf (vgl. auch die Ausführungen zur konstruktirrelevanten Varianz in Kapitel 4.2.3.3).
Unter die Kategorie Zufallsfehler fällt etwa die unsystematische Beeinträchtigung der Leistung durch äußere Einflüsse wie z.B. nicht vorhersehbare Müdigkeit. Der systematische konstruktirrelevante Anteil kann im Fall der Messung von Schreibkompetenzen z.B. in folgende Komponenten (Facetten) zerlegt werden: Prüfungsteilnehmende (z.B. Gruppen von Erstsprachen), AufgabenAufgaben (z.B. unterschiedliche ThemenThemen und TextsortenTextsorte), Beurteilende (z.B. Muttersprachler vs. Nicht-Muttersprachler) und BewertungskriterienBeurteilungskriterien (z.B. analytisch vs. holistisch) (vgl. Brennan, 2011; Eckes, 2015a, S. 164 sowie auch Kapitel 6). Ziel ist eine Schätzung des Effekts sowohl des Zufallsfehlers als auch der systematischen konstruktirrelevanten Messfehlerkomponenten auf die Güte der Messung der Schreibkompetenz. Damit sollen Aussagen ermöglicht werden hinsichtlich der Generalisierbarkeit der Interpretation der Testwerte (z.B. über die jeweils eingesetzten Aufgaben hinaus) und der Verlässlichkeit der anhand der Testwerte getroffenen kriterialen Entscheidungen. Entsprechende Informationen können dann für eine Optimierung des Messinstruments sowie der Test- und Auswertungsprozeduren genutzt werden, z.B. bezüglich der Zahl der einzusetzenden Schreibtexte und Beurteilenden. Die Generalisierbarkeitstheorie fokussiert damit zugleich auch wichtige Aspekte der ValiditätValidität (vgl. Kapitel 4.2.3).3
Bezieht man sich ohne weitere Differenzierung auf die Zuverlässigkeit des gesamten Messinstruments im Hinblick auf eine bestimmte Population von Testteilnehmenden und einen bestimmten Einsatzbereich, spricht man auch von der TestreliabilitätReliabilitätTestreliabilität. Vor dem Hintergrund der Generalisierbarkeitstheorie kann man konzeptuell und statistisch insbesondere folgende in komplexer Wechselwirkung stehende Facetten der Testreliabilität unterscheiden: Reliabilität der Aufgaben (AufgabenreliabilitätReliabilitätAufgabenreliabilität), Reliabilität der BeurteilungskriterienReliabilitätKriterienreliabilität bzw. Beurteilungsskalen (SkalenreliabilitätReliabilitätSkalenreliabilität) sowie Reliabilität der Beurteilenden (BeurteilerreliabilitätReliabilitätBeurteilerreliabilität/Raterreliabilität).
Häufig wird im Zusammenhang mit der ReliabilitätReliabilität eines Messinstruments noch der sogenannte Standardmessfehler zur Beurteilung der Güte der Messung herangezogen. Der Standardmessfehler