Schreibkompetenzen in der Fremdsprache. Группа авторов
Testwert den „wahren“ Wert des Testteilnehmenden schätzt und gilt in seiner klassischen Form global für die gesamte Messwertskala. Darüber hinaus lässt sich – allerdings aufwändiger – z.B. mit Hilfe der Generalisierbarkeitstheorie oder probabilistischer Messmodelle ein bedingter, variabler Messfehler für jeden Skalenwert berechnen. Dieser trägt der Tatsache Rechnung, dass mit zunehmender Diskrepanz zwischen der Fähigkeit der Testteilnehmenden und der Test- bzw. AufgabenschwierigkeitAufgabenschwierigkeit auch der Fehler bei der Messung der individuellen Leistung tendenziell zunimmt.
4.2.2.2 AufgabenreliabilitätReliabilitätAufgabenreliabilität
AufgabenreliabilitätReliabilitätAufgabenreliabilität bedeutet u.a., dass die AufgabenAufgaben – unter Einschluss der Instruktion, Situierung sowie InputmaterialienAufgabenInputmaterial – eine über die betreffenden Aufgaben hinausgehende Generalisierung hinsichtlich der zu erwartenden Leistungen bei äquivalenten TestaufgabenAufgabenTestaufgaben, Testsituationen, BewertungskriterienBeurteilungskriterien und Beurteilenden erlauben (Gültigkeit der sogenannten Generalisierungsinferenz). Gerade bei Schreibaufgaben ist das Erreichen einer zufriedenstellenden AufgabenreliabilitätReliabilitätAufgabenreliabilität im Sinne von statistischer Generalisierbarkeit ein massives Problem, da die Art der eingesetzten Aufgaben einen deutlichen Einfluss auf das Messergebnis haben kann. So führen Unterschiede im Genre (z.B. zwischen Erzählungen und Beschreibungen) oder auch Aufgaben mit unterschiedlichen thematischen Schwerpunkten oder mit unterschiedlichen Zeitvorgaben bei den gleichen Testteilnehmenden häufig zu deutlich divergierenden Messwerten. Zudem konnten z.T. massive Wechselwirkungen zwischen Aufgabe, Beurteilenden und BeurteilungskriterienBeurteilungskriterien nachgewiesen werden (vgl. z.B. Bouwer, Béguin, Sanders & van den Bergh, 2015; In’nami & Koizumi, 2016; Schoonen, 2005; Van Steendam, Tillema & Rijlaarsdam, 2012).
Das Problem der AufgabenreliabilitätReliabilitätAufgabenreliabilität stellt sich gerade auch im unterrichtlichen Kontext, da Lehrkräfte häufig die Schreibkompetenz nur anhand einer einzigen längeren Aufgabe überprüfen und die Ergebnisse dann als Beleg für ein weit gefasstes Konstrukt „Schreibkompetenz“ interpretieren. Angesichts des Einflusses insbesondere der eingesetzten AufgabenAufgaben auf das Messergebnis, sollte ein Urteil über ein breit definiertes Konstrukt stets auf mehreren, in ihren Anforderungen deutlich unterschiedlichen Schreibaufgaben beruhen. Werden nur eine Schreibaufgabe oder mehrere vom Typ her homogene Aufgaben eingesetzt (z.B. Aufgaben zum Schreiben argumentativer Texte), dann ist die Breite des Konstrukts hinreichend einzuschränken (z.B. als Fähigkeit zum Schreiben argumentativer Texte).
Ist der Einsatz mehrerer Schreibaufgaben innerhalb einer Prüfung nicht möglich, sollte zumindest zeitlich versetzt mit unterschiedlichen AufgabenformatenAufgabenformate geprüft werden. Sind aus Gründen der PraktikabilitätPraktikabilität lediglich kurze Textproduktionen gefordert, sollte man sich zudem darüber im Klaren sein, dass möglicherweise andere Kompetenzen erfasst werden als anhand von längeren Texten (z.B. im Bereich KohärenzKohärenz/KohäsionKohäsion; vgl. Kapitel 5, 6 und 8). Die Beispiele zeigen zugleich, dass eine Erhöhung der ReliabilitätReliabilität, z.B. durch Vergrößerung der Zahl der AufgabenAufgaben, zwar prinzipiell wünschenswert ist, aber nicht notwendigerweise auch zu einer valideren Messung führt und unter bestimmten Voraussetzungen die ValiditätValidität (im Sinne von Konstruktrepräsentation) sogar verringern kann (vgl. zum Verhältnis von ReliabilitätReliabilität und ValiditätValidität sowie zur Unterrepräsentation des Konstrukts auch Kapitel 4.2.3.3).
4.2.2.3 Kriterien- und BeurteilerreliabilitätReliabilitätBeurteilerreliabilität
Die KriterienreliabilitätReliabilitätKriterienreliabilität bezieht sich auf den Einfluss der eingesetzten Kriterien, Skalen und Raster (z.B. holistische oder analytische Skala; Fokus der jeweiligen Skala) auf die Beurteilung von Schreibkompetenzen (vgl. auch Kapitel 6). Entsprechend wird im vorliegenden Band zuweilen auch der Begriff SkalenreliabilitätReliabilitätSkalenreliabilität verwendet.
Die BeurteilerreliabilitätReliabilitätBeurteilerreliabilität erfasst den Einfluss der eingesetzten Bewertenden auf das resultierende Urteil. Dabei ist zwischen der Intrarater-ReliabilitätReliabilität und der Interrater-Reliabilität zu unterscheiden. Bezogen auf den Unterrichtskontext bedeutet dies u.a.: Eine hinreichende Intrarater-Reliabilität ist dann gegeben, wenn ein und dieselbe Lehrkraft sich bei der Beurteilung der Schreibprodukte seiner Schülerinnen und Schüler in konsistenter Weise an den BewertungskriterienBeurteilungskriterien orientiert (z.B. die Kriterien bei den einzelnen Schülerinnen und Schülern in vergleichbarer Weise interpretiert oder auch in vergleichbarer Weise streng oder milde urteilt). Eine hinreichende Interrater-Reliabilität ist gegeben, wenn unterschiedliche Lehrkräfte bei der Bewertung ein und desselben Schreibprodukts an Hand derselben Kriterien in ihrem Urteil möglichst weitgehend übereinstimmen, d.h. z.B. nur wenig differierende Punktzahlen vergeben oder die Schülerinnen und Schüler zumindest in eine weitgehend gleiche Rangreihe bringen.
4.2.2.4 RetestreliabilitätReliabilitätRetestreliabilität
Schließlich sollte im Sinne der sogenannten RetestreliabilitätReliabilitätRetestreliabilität (Testwiederholungsreliabilität) ein erneuter Einsatz ein und desselben Schreibkompetenztests bei den gleichen Schülerinnen und Schülern zu einer annähernd gleichen Einschätzung der Schreibkompetenz führen, sofern sich in der Zwischenzeit die Schreibkompetenz – verstanden als relativ stabile Disposition – nicht z.B. aufgrund des Unterrichts (deutlich) verändert hat und es keine Transfereffekte gibt. ReliabilitätReliabilität der eingesetzten Beurteilenden, AufgabenAufgaben und Kriterien sind wichtige Voraussetzungen für eine adäquate TestwiederholungsreliabilitätReliabilitätRetestreliabilität.
Aufgrund der komplexen Wechselwirkungen zwischen Merkmalen der getesteten Person, Merkmalen der Aufgabe, Merkmalen der BewertungskriterienBeurteilungskriterien, Merkmalen der Bewertenden und Merkmalen des produzierten Textes ist der spezifische Einfluss der eingesetzten AufgabenAufgaben, der verwendeten Kriterien und Skalen sowie der jeweiligen Beurteilenden auf die ReliabilitätReliabilität des resultierenden Messwerts nur sehr eingeschränkt und mit hohem Aufwand abschätzbar. Aufgrund der Wechselwirkungen sind in der Regel die üblichen Maße der Beurteilerübereinstimmung auch nicht als Maß der ReliabilitätReliabilität z.B. der Ratingskala selbst, d.h. als inhärente Eigenschaft der Skala, zu interpretieren, sondern als Maß der Zuverlässigkeit der Ratingskala in Verbindung mit bestimmten Aufgaben und Ratern in einer bestimmten Stichprobe. Wir werden auf die ReliabilitätReliabilität der Beurteilung und insbesondere auf die Frage nach der ReliabilitätReliabilität der verwendeten Kriterien und Skalen noch in Kapitel 6 zurückkommen.
4.2.2.5 Verlässlichkeit von Entscheidungen
Ordnet man Testteilnehmende verschiedenen KompetenzniveausKompetenzniveau zu, handelt es sich um sogenannte absolute Entscheidungen. Diese stellen höhere Anforderungen an die Messgenauigkeit als sogenannte relative Entscheidungen, die lediglich die Rangordnung der Testteilnehmenden betreffen (vgl. Sawaki, 2016 sowie auch die Ausführungen zur kriteriumsorientierten vs. bezugsgruppenorientiertenEvaluationkriteriumsorientiertEvaluationgruppenorientiert Evaluation in den Kapiteln 3.2.1 und 6.3).
Unterteilt man die Testwerteverteilung mit Hilfe von Schwellenwerten (Trennwerten; Cut-Scores) in KompetenzniveausKompetenzniveau, dann ist im Fall eines hohen Standardmessfehlers (vgl. Kapitel 4.2.2.1) die Klassifikation von Teilnehmenden mit Testwerten in der Nähe der Schwellenwerte mit einer hohen Unsicherheit und Gefahr der Fehlklassifikation verbunden. Muss z.B. für die Zulassung zu einem Kurs eine bestimmte Punktzahl erreicht werden, dann ist bei einem Ergebnis knapp unter oder knapp über dem geforderten Wert im Fall eines hohen Standardmessfehlers die Gefahr einer Fehlentscheidung tendenziell größer als im Fall eines geringen Standardmessfehlers. Hierüber sollte man sich beim Einsatz von Schreibprüfungen für Klassifikationsentscheidungen im Klaren sein. Genauere Aussagen zur tatsächlichen Verlässlichkeit von Klassifikationsentscheidungen im Hinblick auf spezifische Trennwerte lassen sich mit Hilfe von speziell für kriteriale Messungen entwickelten Koeffizienten treffen (vgl. z.B. Brown