Erstellung von Fragebogen. K. Wolfgang Kallus
zur Entwicklung von (korrelierten) Subtests empfohlen. Dabei wird versucht, die unterschiedlichen Facetten oder Ebenen des Merkmals mit jeweils vier bis sechs Items aus der Perspektive der Befragten abzubilden. Der Königsweg ist hier immer der theoriegeleitete. Dieser stellt sicher, dass die ermittelten Subtestwerte gut interpretierbar sind und damit auch gute Validitäten erreichen. Der Einsatz der Faktorenanalyse erfolgt dabei dann in einem gestuften Vorgehen. Nach Bildung der Subtests kann einer explorativen Faktorenanalyse der Subtests oder mit einer konfirmatorischen Faktorenanalyse in linearen Strukturgleichungsmodellen die Merkmalsstruktur dargestellt werden.
2.5.2 Faktorenanalysen auf Subtestebene
Bei den Analysen auf Subtestebene werden zunächst hinreichend homogene Subtests entwickelt, wobei neben den Trennschärfen auch Itemreliabilitäten aus Messwiederholungen oder Itemvaliditäten einbezogen werden können (s. Kapitel 4). Die Prüfung der Subtestqualität kann über die Homogenität erfolgen, die sich in hinreichend hohen Werten von Cronbach’s α niederschlägt.
Alternativ kann die Testkonstruktion in den sog. Messmodellen eines linearen Strukturgleichungsmodells vorgenommen werden. Dabei schlagen sich Verletzungen der Annahme, dass jedes Item nur zwei Varianzanteile aufweisen sollte („wahre“ Varianz plus der von den anderen Items völlig unabhängigen Fehlervarianz), direkt in schlechten Kennwerten für die Modellpassung nieder (vgl. Eid & Schmidt, 2014). Die Verletzung der Grundannahme der Klassischen Testtheorie (Unkorreliertheit von wahrem Wert und Messfehler) schlägt sich in korrelierten Messfehlern nieder. Korrelierte Messfehler ergeben sich, wenn zwei oder mehr Items spezifische Gemeinsamkeiten haben, die die übrigen Items des Subtests nicht aufweisen. Diese Gemeinsamkeiten können durch die Iteminhalte bedingt sein, aber auch durch Formulierungsähnlichkeiten, itemspezifische Antworttendenzen etc.
Die alte Regel, 50% der Items negativ zu formulieren, um einer Zustimmungstendenz vorzubeugen, ist im Licht der Ergebnisse aus Strukturgleichungsmodellen neu zu betrachten. Negativ formulierte Items erfassen das Konzept oft in anderer Form und haben jeweils eine durch die Negation bedingte, gemeinsame merkmalsunabhängige Varianz. Diese schlägt sich entweder in korrelierten Messfehlern oder in eigenen Unterfaktoren für positiv und negativ formulierte Items nieder. Möglicherweise liegt aber auch kein bipolares Konzept vor – wie wir es am Beispiel der (Arbeits-)Zufriedenheit (Herzberg, 1966) oder auch der Messung der Stimmung (Diener & Emmons, 1984) bereits aus unterschiedlichen Modellen kennen. Umgepolte Items sind bestenfalls für Zustimmungsskalen (z. B. die Antwortskala „trifft zu“/„trifft nicht zu“) zur Kontrolle von Zustimmungstendenzen notwendig. Eine Umformulierung/Negation von Items mit anderen Antwortskalen (z. B. Häufigkeitsskalen) ist inhaltlich in vielen Fällen kaum möglich, nicht notwendig und nur sinnvoll, wenn der „negative“ Aspekt (möglicherweise in einem eigenen Subtest) explizit einbezogen werden soll. Zumindest innerhalb eines Subtests (und insbesondere außerhalb der Einstellungsmessung) ist die alte Regel der „50 : 50-Polung von Items“ daher als überholt zu bewerten.
Wenn eine Faktorenanalyse der Subtests zwei oder mehr unabhängige Faktoren ergibt, die sinnvoll interpretierbar sind, ist die Bildung eines einzelnen Gesamtwerts in der Regel wenig sinnvoll, auch wenn Statistikprogramme wie SPSS dafür routinemäßig einen Wert ausgeben. Dazu sei jedoch auf die langjährige Diskussion zum „Generalfaktor“ der Intelligenz und den IQ verwiesen.
2.5.3 Grenzen der faktorenanalytischen Konzeptdefinition
Die möglichst ökonomische Charakterisierung von Individuen zur Beschreibung interindividueller Unterschiede ist nur einer der Einsatzbereiche von Fragebogen. Bei der Zustands- und Prozessbeschreibung und der Ableitung von Interventionsansätzen, d. h. im Bereich der (formativen) Evaluation und des Monitorings, geht es nicht um eine möglichst sparsame Differenzierung von Personen. Vielmehr sollen Facetten von Veränderungsprozessen abgebildet werden, die frühestmöglich eine Korrektur unerwünschter Wirkungen, aber auch das Ausbleiben angezielter Effekte aufzeigen. Die Ableitung konkreter Beratungs- und Interventionshinweise erfordert ein differenziertes, verhaltensnahes Monitoring der Umsetzung von Veränderungen bei Personen, Teams und Organisationen. Ein Monitoring des Zustandes von Teams oder Personen sollte so verhaltensnah wie möglich stattfinden. Damit wird neben der Messung auf dem Niveau von Globalwerten (vergleichbar der Typenebene im Eysenck’schen Modell der Personenbeschreibung; s. Stemmler, Hagemann, Amelang & Bartusek, 2011, S. 57) eine Messung auf der Ebene konkreter Verhaltensmuster (z. B. beim Führungsverhalten) benötigt, die eher dem Konzept der Habits im Eysenck’schen Modell entsprechen. In diesen Fällen sind differenzierte, konzeptorientiert konstruierte Messverfahren den faktorenanalytisch zusammengefassten Itemgruppen immer vorzuziehen. Gerade das Profil der korrelierten Facetten von Führung, von Stress, von Ressourcen oder von sozialen Beziehungen oder Konflikten spiegelt erst die Charakteristik von Veränderungen wider und gibt Ansatzpunkte für Interventionen. Für prozess- und interventionsorientierte Messungen steht die Globalinformation in ihrem Wert immer weit hinter der Profilinformation zurück. Im Unterschied dazu ist bei der summativen Evaluation von Programmen oder Maßnahmen die zusammengefasste Information von Bereichssubtests zur einfachen Kommunikation von Ergebnissen besonders hilfreich. Bereichssubtests, die mit der Profilinformation kompatibel sind, lassen sich mit einer Faktorenanalyse auf Subtestebene generieren.
Weitere Schwächen faktorenanalytisch konstruierter Verfahren ergeben sich aus der Methode selbst und aus der mangelnden Stabilität der faktorenanalytischen Ergebnisse über Populationen, Situationen und Merkmalsebenen. Hier sei auf das Problem der Kalibrierung von Items verwiesen (Kapitel 3.3). Ohne repräsentative Items auf vergleichbarem Abstraktionsniveau mit theoretisch gleich gewichteter Verteilung steht eine faktorenanalytische Testkonstruktion auf unzureichend stabilem Fundament.
Die (explorative) Faktorenanalyse stellt eine (aber nicht „die“) Methode zur Entwicklung von psychometrischen Tests und Fragebogen dar. Die Faktorenanalyse eignet sich insbesondere für die Konstruktion von Kurzfragebogen zur Orientierung und Diagnostik in großen Gruppen von Personen. Hier kommen kurze Fragebogen mit nur einer oder wenigen Messdimensionen zum Einsatz. Dabei sind faktorenanalytisch entwickelte Verfahren aufgrund ihrer hohen Ökonomie besonders für Fragestellungen im Kontext großer Organisationen (wie MitarbeiterInnenbefragungen) oder für Gruppenvergleiche geeignet (vgl. ISO 10667-2: 2011; Jiménez, Dunkel & Kallus, 2016). Oft erreichen Kurzfragebogen dabei nur einen Präzisionsgrad, den ISO 10075-3: 2004 für Screening und Orientierungszwecke bei der Messung psychischer Beanspruchung einordnet. Für individuelle Diagnostik und die Ableitung von Interventionen sind mehrdimensionale Fragebogen oft besser geeignet, welche die Komplexität des Merkmalsbereichs nicht künstlich unangemessen reduzieren. Komplexe Konzepte wie „Stress“ umfassen unterschiedliche Funktionssysteme, die im Hinblick auf die Indikatoren eher wenig homogen sind, obwohl die Stresssysteme vergleichsweise gut beschrieben sind und die wechselseitigen Abhängigkeiten durch experimentelle Analysen der Funktionssysteme bekannt sind. Würde man versuchen, sich diesem Phänomen faktorenanalytisch zu nähern, müsste man feststellen, dass die der Faktorenanalyse zugrunde liegende Funktion (lineare Korrelation) nicht geeignet ist, die vorhandenen zeitversetzten nichtlinearen Abhängigkeiten angemessen abzubilden. Daher werden in diesem Leitfaden alternative bzw. ergänzende Methoden betont (siehe dazu auch Eid & Schmidt, 2014).
Bei der Entwicklung von Fragebogen oder auch von „Fragebogensystemen“ ist der Messzweck bereits früh einzubeziehen. Wichtige Messziele werden z. B. im Bereich der ISO-Normen definiert, in dem „Orientierung“, „Screening“ und „exakte Messung (auf Expertenniveau)“ unterschieden werden (Jiménez, Dunkl & Kallus, 2016).
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную