Schreibkompetenzen in der Fremdsprache. Группа авторов
definiert wird, ist deutlich unterrepräsentiert. c) Entsprechende TestaufgabenAufgabenTestaufgaben können eine negative RückwirkungRückwirkung auf die unterrichtliche Vermittlung von Schreibkompetenzen haben (z.B. in Form eines teaching to the test). AuthentizitätAuthentizität und Augenscheinvalidität stehen damit auch im engen Zusammenhang zur konsequentiellen ValiditätValiditätAugenscheinvalidität und zum RückwirkungseffektRückwirkung (Washback) von Tests.
4.2.4.4 PraktikabilitätPraktikabilität und Ökonomie
Gerade im Unterrichtskontext sind auch die PraktikabilitätPraktikabilität und Ökonomie (im Sinne von Wirtschaftlichkeit) einer Prüfung wichtige Kriterien. Diese beiden Kriterien können sich auf die Herstellung, Durchführung, Auswertung und Verwendung von Prüfungen beziehen. Nach Moosbrugger & Kelava (2012, S. 21) erfüllt ein Test das GütekriteriumGütekriterien der Ökonomie, „wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig finanzielle und zeitliche Ressourcen beansprucht“. Ähnlich definieren Bachman & Palmer (2010, S. 262) PraktikabilitätPraktikabilität (engl. practicality) als die Differenz zwischen verfügbaren Ressourcen und notwendigen Ressourcen. Unter dem Gesichtspunkt der PraktikabilitätPraktikabilität/Ökonomie wird man z.B. bei einer eher informellen ÜberprüfungEvaluationinformell von Schreibkompetenzen nicht für jeden möglichen Punktwert eine detaillierte Kann-Beschreibung formulieren und auch auf eine Bewertung durch eine weitere Lehrkraft verzichten. Es ist allerdings zu bedenken, dass eine Erhöhung der Wirtschaftlichkeit einer Prüfung in vielen Fällen zu einer Verringerung der ValiditätValidität führt. So würde z.B. die indirekte Überprüfung von Schreibkompetenzen anhand von Multiple-Choice-AufgabenAufgaben zu GrammatikGrammatik und LexikLexik die für die Durchführung und Bewertung notwendigen Ressourcen reduzieren. Zugleich wäre damit jedoch eine deutliche Einschränkung der AuthentizitätAuthentizität, AugenscheingültigkeitValiditätAugenscheinvalidität und KonstruktvaliditätValiditätKonstruktvalidität der Prüfung sowie die Gefahr einer negativen RückwirkungRückwirkung verbunden (vgl. die vorangehenden Ausführungen).
4.2.4.5 NützlichkeitNützlichkeit
NützlichkeitNützlichkeit (auch Zweckmäßigkeit; engl. usefulness) gilt für einige Autoren als übergeordnetes GütekriteriumGütekriterien und bestimmt dann den Stellenwert der anderen Kriterien (vgl. z.B. Bachman & Palmer, 1996, 2010 sowie auch Moss, 2016). Vor dem Hintergrund des Kriteriums der NützlichkeitNützlichkeit wird man je nach Zielsetzung einer Prüfung und den zur Verfügung stehenden Ressourcen insbesondere der ValiditätValidität, ReliabilitätReliabilität, AuthentizitätAuthentizität und dem Washback-Effekt ein jeweils unterschiedliches Gewicht geben. So wird man für einen informellen TestEvaluationinformell der Schreibkompetenz im Unterrichtskontext die ReliabilitätReliabilität eher geringer gewichten. Dagegen ist es bei einem Vergleich größerer Bildungseinheiten, wie etwa im Fall der vom IQBIQB durchgeführten Bildungstrend-Studien (ehemals LändervergleicheLändervergleich/Bildungstrend) oder auch bei einer Prüfung, deren Ausgang für die Testteilnehmenden mit gravierenden Konsequenzen verbunden ist, nicht akzeptabel, wenn z.B. eine Erhöhung der AuthentizitätAuthentizität zugleich zu einer massiven Verringerung der ReliabilitätReliabilität führt.
4.2.4.6 TransparenzTransparenz
Schließlich wird zunehmend auch TransparenzTransparenz als GütekriteriumGütekriterien genannt. TransparenzTransparenz bedeutet im schulischen Kontext u.a., dass den Lernenden die Testdurchführungsmodalitäten, AufgabenformateAufgabenformate, BewertungskriterienBeurteilungskriterien und Leistungserwartungen hinreichend vertraut sein sollten und dass das gewählte Vorgehen den Lernenden gegenüber auch begründet werden sollte (vgl. auch Kapitel 6). Außerdem sollte eine Rückmeldung zu den Leistungen in einer Form erfolgen, die für die Schülerinnen und Schüler nachvollziehbar ist (vgl. auch Kapitel 9).
4.2.4.7 SchwierigkeitSchwierigkeit/Leichtigkeit
Auch die SchwierigkeitSchwierigkeit bzw. Leichtigkeit einer Aufgabe oder auch der gesamten Prüfung ist ein wichtiges Qualitätsmerkmal. Die SchwierigkeitSchwierigkeit ist dabei zum einen im Hinblick auf die Messgenauigkeit von Schreibprüfungen und insbesondere im Hinblick auf die Passung von Personenfähigkeit und AufgabenschwierigkeitAufgabenschwierigkeit zu betrachten. Wenn z.B. die Überprüfung von Schreibkompetenzen auf dem NiveauNiveaustufe B1 intendiert ist, die Lösung der Aufgabe aber lediglich Kompetenzen auf dem NiveauNiveaustufe A1 verlangt – wie z.B. das Ausfüllen eines einfachen Formulars mit Fragen zur Person (Alter, Schulform usw.) –, dann können die Prüflinge mit ihren Schreibprodukten nicht zeigen, dass sie auch über Fähigkeiten verfügen, die über das NiveauNiveaustufe A1 hinausgehen (vgl. auch Kapitel 6 sowie die Ausführungen zu Unilevel- und Multilevel-AufgabenAufgaben in den Kapiteln 5, 6 und 7).
Weiterhin ist die SchwierigkeitSchwierigkeit im Zusammenhang mit der KonstruktvaliditätValiditätKonstruktvalidität zu sehen. Unterscheiden sich die Testteilnehmenden z.B. deutlich in ihrem thematischen Wissen im Hinblick auf die zu bearbeitende Schreibaufgabe und ist dieses Wissen nicht Teil des TestkonstruktsTestkonstrukt (vgl. Kapitel 5), dann kann dies zu einer konstruktirrelevanten Erhöhung der SchwierigkeitSchwierigkeit bzw. Leichtigkeit der Aufgabe für die betroffenen Testteilnehmenden und damit zugleich zu einer Beeinträchtigung der FairnessFairness führen (vgl. zur Konstruktrelevanz von SchwierigkeitSchwierigkeit bzw. Leichtigkeit Bühner, 2011, S. 66f.). Es ist deshalb bei der Erstellung von TestaufgabenAufgabenTestaufgaben stets zu überlegen, inwieweit das ThemaThemen möglicherweise bestimmte Lernende benachteiligt.
Auch die BewertungskriterienBeurteilungskriterien müssen natürlich in ihrer SchwierigkeitSchwierigkeit dem jeweiligen KompetenzniveauKompetenzniveau der Gruppe entsprechen. Wenn z.B. die Testteilnehmenden ein Kriterium fast alle erfüllen, dann erlaubt es dieses Kriterium nicht, messgenau zwischen den Schreibleistungen der Teilnehmenden zu differenzieren. Ist allerdings in erster Linie eine kriteriale Evaluation z.B. anhand eines lernzielorientierten Tests intendiert (vgl. Kapitel 3.2.1 und 6.3), darf ein Kriterium auch von allen Testteilnehmenden erfüllt sein. Die durchgängige Erfüllung würde dann lediglich bedeuten, dass alle Testteilnehmenden das entsprechende Lernziel erreicht haben.
Schließlich müssen die Bewertenden die Kriterien natürlich auch im intendierten Sinne interpretieren. Das heißt u.a., dass die Beurteilenden keine Tendenz zu einer unangemessenen Strenge oder Milde zeigen dürfen.
Insgesamt gilt, dass die SchwierigkeitSchwierigkeit einer Schreibaufgabe für einen bestimmten Testteilnehmenden über die Schreibkompetenz hinaus in komplexer Weise von Merkmalen der Aufgabe (unter Einschluss u.a. der Instruktion, der Kontextualisierung sowie der Zeit- und Umfangsvorgaben), von Merkmalen der Bewertungsskala (z.B. Gewichtung der sprachlichen Korrektheit) sowie von Eigenschaften der jeweiligen Beurteilenden abhängt (vgl. auch die Ausführungen zum GütekriteriumGütekriterien der ReliabilitätReliabilität in Kapitel 4.2.2). Wir werden auf diesen Aspekt noch genauer in den Kapiteln 5 bis 8 des Studienbuches eingehen.
4.2.4.8 TrennschärfeTrennschärfe
Die bisher genannten GütekriterienGütekriterien können sich sowohl auf einzelne AufgabenAufgaben als auch auf den gesamten Test beziehen, d.h. sie können sowohl als Test- als auch als AufgabengütekriteriumGütekriterien fungieren. Das Kriterium der TrennschärfeTrennschärfe wird dagegen üblicherweise nur zur Bewertung der Güte einzelner Aufgaben verwendet.
Die TrennschärfeTrennschärfe einer Aufgabe steht in engem Zusammenhang mit der SchwierigkeitSchwierigkeit bzw. der Leichtigkeit der entsprechenden Aufgabe sowie auch mit der Test- und AufgabenreliabilitätReliabilitätAufgabenreliabilität. Erreichen z.B. bei einer Aufgabe alle Schülerinnen und Schüler gleichermaßen eine hohe oder auch eine niedrige Punktzahl, d.h. ist die Aufgabe sehr leicht oder sehr schwer für die entsprechende Gruppe, dann trägt – wie bereits angedeutet – eine solche Aufgabe nichts oder nur sehr wenig zur Differenzierung zwischen den Prüflingen bei.
Setzt man mehrere Schreibaufgaben ein und ermittelt an Hand der Einzelaufgaben einen Gesamtpunktwert,