Schreibkompetenzen in der Fremdsprache. Группа авторов
und empirische Befunde. Folgt man Kane (2012, 2013, 2016), dann besteht der erste Schritt dabei in einer möglichst detaillierten Spezifikation der vorgesehenen Interpretationen und Verwendungen der Testwerte (Interpretations- und Verwendungsargument). Anschließend ist in einem zweiten Schritt die Gesamtplausibilität der Interpretationen und Verwendungen zu prüfen (ValiditätsargumentValidität; vgl. auch Chapelle, 2012; Eckes, 2015b). Hierbei wird man z.B. im Fall eines eher informellen unterrichtsbezogenen SchreibtestsEvaluationinformell geringere Ansprüche an die argumentbasierte Validierung stellen als bei einem Hochschulzulassungstest wie dem TOEFL iBT oder IELTS (vgl. das umfassende ValiditätsargumentValidität zum TOEFL iBT in Chapelle, Enright & Jamieson, 2008 sowie auch Chapelle & Voss, 2014, S. 1091f.). Zentrale Kriterien sind aber in allen Fällen die Klarheit und KohärenzKohärenz des Gesamtarguments sowie die Plausibilität der einzelnen Inferenzen und der impliziten und expliziten Annahmen.
Es kann konzeptuell zwischen einer Reihe von Einzelaspekten der ValiditätValidität als übergreifendes Konzept oder auch – in Übereinstimmung mit den Standards for Educational and Psychological Testing (American Educational Research Association et al., 2014, S. 13ff.) – zwischen unterschiedlichen Quellen für die Begründung der ValiditätValidität differenziert werden. Da die Ergebnisse der Evaluation von Schreibkompetenzen u.a. von den eingesetzten AufgabenAufgaben, von den verwendeten BewertungskriterienBeurteilungskriterien und von den jeweiligen Beurteilenden abhängen, kann man ähnlich wie bei der ReliabilitätReliabilität zunächst zwischen der Validität der Aufgaben (AufgabenvaliditätValiditätAufgabenvalidität), der BeurteilungskriterienBeurteilungskriterien bzw. Beurteilungsskalen (KriterienValiditätkriterienbezogen- bzw. Skalenvalidität) und der Beurteilenden (Beurteilervalidität/RatervaliditätValiditätRatervalidität) unterscheiden. AufgabenvaliditätValiditätAufgabenvalidität, Kriterien- bzw. SkalenvaliditätValiditätkriterienbezogen und Ratervalidität sind wiederum im Zusammenhang mit den etablierten GütekriterienGütekriterien der InhaltsvaliditätValiditätInhaltsvalidität und KonstruktvaliditätValiditätKonstruktvalidität zu sehen. Wir werden auf die Kriterien- bzw. SkalenvaliditätValiditätkriterienbezogen sowie die RatervaliditätValiditätRatervalidität noch genauer in Kapitel 6 eingehen.
4.2.3.2 InhaltsvaliditätValiditätInhaltsvalidität und curriculareValiditätcurricular ValiditätValidität
Die InhaltsvaliditätValiditätInhaltsvalidität gibt das Ausmaß an, in dem die TestaufgabenAufgabenTestaufgaben z.B. bestimmte sprachliche oder thematische Aspekte oder auch bestimmte sprachliche Aktivitäten, die curricularCurricula vorgesehen und/oder im Unterricht behandelt wurden oder die als prototypisch für einen bestimmten beruflichen Verwendungskontext angesehen werden, repräsentieren. Die InhaltsvaliditätValiditätInhaltsvalididät wird zumeist anhand von Expertenurteilen ermittelt. Insbesondere dann, wenn sich die TestaufgabenAufgabenTestaufgaben auf curricularCurricula vorgesehene Kompetenzen und Inhalte beziehen, wird anstelle von InhaltsvaliditätValiditätInhaltsvalidität häufig von curricularer ValiditätValidität gesprochen. Es ist zu beachten, dass sich curriculareValiditätcurricular und inhaltliche ValiditätValiditätInhaltsvalidität nicht notwendigerweise decken müssen. Ist z.B. das Schreiben einer komplexen Argumentation in Lehrplänen vorgesehen, aber im Unterricht nicht gelehrt worden, dann ist eine Prüfungsaufgabe, die eine komplexe Argumentation verlangt, curricular valide im Hinblick auf das intendierte CurriculumCurricula, nicht jedoch valide in Bezug auf das im Unterricht realisierte CurriculumCurricula. Lehrkräfte sollten in einem solchen Fall die Ergebnisse der Leistungsüberprüfung zum Anlass nehmen, die curricularCurricula verlangten Kompetenzen und Inhalte auch im Unterricht zu vermitteln. Wenn dies als Folge des Einsatzes der TestaufgabenAufgabenTestaufgaben eintritt, ist dies ein Beispiel für einen positiven RückwirkungseffektRückwirkung des Tests auf den Unterricht (vgl. die Ausführungen zur konsequentiellen Validität und zum GütekriteriumGütekriterien der RückwirkungRückwirkung (Washback) in den Kapiteln 4.2.3.7 und 4.2.4.1).
4.2.3.3 KonstruktvaliditätValiditätKonstruktvalidität
Während die Konzepte der InhaltsvaliditätValiditätInhaltsvalidität und der curricularen Validität die Relevanz und Repräsentativität von TestaufgabenAufgabenTestaufgaben im Hinblick auf im Unterricht vermittelte InhalteInhalt und Kompetenzen und/oder bestimmte zukünftig zu bewältigende Domänen und Situationen fokussieren, geht es bei der Bestimmung der KonstruktvaliditätValiditätKonstruktvalidität darüber hinaus um eine theoriebasierte Interpretation der beobachteten Testleistungen im Hinblick auf nicht direkt beobachtbare zugrunde liegende Kompetenzen (vgl. auch Hartig, Frey & Jude, 2012, S. 152–162). Bezogen auf „Schreibkompetenz“ sind in diesem Zusammenhang u.a. folgende Fragen zu beantworten: Inwieweit kann man an Hand eines vorliegenden Schreibprodukts auf bestimmte Aspekte des theoretischen, nicht direkt beobachtbaren Konstrukts „Schreibkompetenz“ schließen? Oder als Kausalzusammenhang formuliert: Inwieweit sind Unterschiede in der zugrunde liegenden Schreibkompetenz der jeweiligen Testteilnehmenden die zentrale Ursache für die beobachteten Leistungsunterschiede?
Im Fall des Schreibens ist der Schluss vom Produkt auf das zu Grunde liegende theoretische Konstrukt zwar direkter und damit offensichtlicher als z.B. im Fall einer HörverstehensaufgabeHörverstehen im Multiple-Choice-Format, bei der von der angekreuzten Lösung auf Aspekte der zu Grunde liegenden HörverstehenskompetenzHörverstehen geschlossen werden soll. Zur Beurteilung der KonstruktvaliditätValiditätKonstruktvalidität bedarf es allerdings auch im Fall der Evaluation von Schreibkompetenzen neben einer Beschreibung der zielsprachlichen Verwendungssituation eines theoretischen Modells des zu messenden Konstrukts „Schreibkompetenz“. Darüber hinaus müssen auch die Anforderungscharakteristiken der zur Messung benutzten TestaufgabenAufgabenTestaufgaben, die Merkmale der zugrunde gelegten BewertungskriterienBeurteilungskriterien sowie Eigenschaften der eingesetzten Bewertenden bei der Beurteilung der KonstruktvaliditätValiditätKonstruktvalidität berücksichtigt werden.
Auf die Frage nach der zielsprachlichen Verwendungssituation sowie auf theoretische Modelle von Schreibkompetenz wird in Kapitel 5 „TestkonstruktTestkonstrukt und TestspezifikationenTestspezifikation“ eingegangen. In Kapitel 6 „Kriteriale Evaluation von Schreibkompetenzen“ werden dann Bewertungskriterien und Bewertende thematisiert. Die Anforderungen, die mit der Bearbeitung bestimmter Schreibaufgaben z.B. hinsichtlich der Komplexität der inhaltlichenInhalt Darstellung oder auch in Bezug auf die notwendigen lexikalischLexik-grammatikalischenGrammatik Ressourcen verbunden sind, werden in Kapitel 7 „Entwicklung von TestaufgabenAufgabenTestaufgaben zum Schreiben“ noch genauer aufgeführt.
Bei der Beurteilung der KonstruktvaliditätValiditätKonstruktvalidität eines Tests oder auch einer einzelnen Aufgabe sind u.a. folgende Ursachen für eine unzureichende Test- bzw. AufgabenvaliditätValiditätAufgabenvalidität zu berücksichtigen: a) Unterrepräsentation des zu messenden Konstrukts; b) konstruktirrelevante Test- und Aufgabenvarianz.
Im Fall einer Unterrepräsentation des Konstrukts sind der Test oder die AufgabenAufgaben zu eng gefasst und lassen wichtige Dimensionen des Konstrukts unberücksichtigt. Geht man von einem breiten Verständnis von Schreibkompetenzen aus, dann würde z.B. der Einsatz eines Diktats zu einer Konstruktunterrepräsentation und damit auch zu einer unzureichenden AufgabenvaliditätValiditätAufgabenvalidität führen. Das Diktat erfasst zwar z.B. orthografischeOrthografie Fähigkeiten und HörverstehenskompetenzenHörverstehen, nicht aber die Fähigkeit, einen zusammenhängenden Text selbstständig zu verfassen. Natürlich kann ein Test stets nur einen kleinen Ausschnitt der im Unterricht zu entwickelnden Kompetenzen erfassen; der Unterricht wird also wesentlich breiter z.B. auch auf strategische und interkulturelleKompetenzinterkulturell Kompetenzen ausgerichtet sein. Außerdem wird man aus Gründen der PraktikabilitätPraktikabilität und Ökonomie nicht immer die zielsprachliche Verwendungssituation in allen Aspekten im Test abbilden können (vgl. die Ausführungen zu PraktikabilitätPraktikabilität und Ökonomie in Kapitel 4.2.4.4).
Konstruktirrelevante Varianz liegt vor, wenn bestimmte Merkmale, die keinen inhaltlichenInhalt Bezug zu der zu messenden Fähigkeit aufweisen, die Leistung systematisch beeinflussen. Konstruktirrelevante Varianz führt zu einer Minderung der ValiditätValidität der Interpretation der