Marktforschungs-Wiki
Advertisement

Grundlegendes zur Korrelationsmatrix

Faktoren sind als „hinter den Variablen stehende Größen“ zu begreifen. Sie repräsentieren damit den Zusammenhang zwischen verschiedenen der betrachteten Ausgangsvariablen. Dieser Zusammenhang kann durch eine Korrelationsrechnung messbar gemacht werden. Korrelationen zeigen den Grad des Zusammenhangs zwischen Variablen, wodurch diese im Sinne der Faktorenanalyse als „bündelungsfähig“ oder „nicht bündelungsfähig“ identifiziert werden können. Die Korrelationsmatrix für die Faktorenanalyse wird anhand des Bravais-Pearson-Korrelationskoeffizienten berechnet.

Vor der Berechnung der Korrelationsmatrix sind gegebenenfalls noch die Ausgangsdaten zu standardisieren. Dadurch werden die Korrelationsrechnung und die Rechenschritte der Faktorenanalyse erleichtert und die Interpretation der Ergebnisse vereinfacht. Außerdem ist die Standardisierung die einzige Möglichkeit, Variablen mit unterschiedlichen Maßeinheiten vergleichbar zu machen – und mit dem Auftreten unterschiedlicher Maßeinheiten und Dimensionen ist ja bei entsprechend vielen Variablen durchaus zu rechnen. Das verwendete Standardisierungsverfahren ist als Z-Standardisierung bekannt: Es wird die Differenz zwischen Mittelwert und Beobachtungswert einer Variablen gebildet und durch die Standardabweichung dividiert. Dadurch ist sichergestellt, dass der neue Erwartungswert Null und die neue Standardabweichung Eins ist – dass also die standardisierte Variable (zumindest approximativ oder asymptotisch) einer Standardnormalverteilung folgt.

Eignung der Korrelationsmatrix[]

Die generelle Eignung der Ausgangsdaten für die Faktorenanalyse spiegelt sich in der Korrelationsmatrix wieder.

Insgesamt stehen sechs Prüfkriterien zur Auswahl:

  • Analyse der Struktur der Inversen der Korrelationsmatrix
  • Durchführung eines Bartlett-Tests auf Spherizität
  • Analyse der Anti-Image-Kovarianz-Matrix
  • Überprüfung des Kaiser-Meyer-Olkin-Kriteriums

Nicht alle diese Kriterien (die im wesentlichen das gleiche aussagen) müssen vor der Weiterführung der Analyse zwingend überprüft werden. Anzuraten ist aber die Überprüfung anhand mehr als nur eines Kriteriums. Insbesondere das Signifikanzniveau der Korrelationen und das Kaiser-Meyer-Olkin-Kriterium sollten beachtet werden.

Signifikanzniveaus der Korrelationen[]

Der Signifikanzwert gibt die Wahrscheinlichkeit wieder, mit welcher der Marktforscher beim Verwerfen einer zuvor formulierten Nullhypothese einen Irrtum begeht. Die Nullhypothese H0 besagt in diesem Fall, dass in der Grundgesamtheit kein Zusammenhang zwischen den Variablen existiert (der Bravais-Pearson-Korrelationskoeffizient r liegt bei Null). Ergeben sich sehr niedrige Signifikanzwerte nahe Null bedeutet dies, dass der Marktforscher mit einer Wahrscheinlichkeit von nahezu 0% einen Fehler begeht, wenn er die Nullhypothese verwirft – in einem solchen Fall ist also von einem signifikanten Zusammenhang zwischen den Variablen auszugehen.

Struktur der Inversen[]

Die Eignung einer Korrelationsmatrix für die Faktorenanalyse lässt sich auch an der Struktur der Inversen erkennen. Es ist davon auszugehen, dass die Daten dann für die weitere Analyse geeignet sind, wenn die Inversen eine Diagonalmatrix bilden, also die nicht-diagonalen Elemente der inversen Korrelationsmatrix relativ nahe bei Null liegen. Dabei ist zu beachten, dass kein mathematisches Kriterium dafür existiert, wie stark oder wie häufig die nicht-diagonalen Elemente von Null abweichen dürfen, ohne dass die Eignung der Daten für die weitere Analyse in Frage gestellt werden muss – diese Entscheidung bleibt somit dem Marktforscher überlassen.

Bartlett-Test auf Spherizität[]

Mittels des Bartlett-Test auf Spherizität (test of sphericity) wird die Nullhypothese H0 überprüft, dass alle (!) Variablen der Grundgesamtheit, aus der die untersuchte Stichprobe stammt, untereinander unkorreliert sind. Dies würde implizieren, dass sich die in der Korrelationsmatrix erkennbaren Korrelationen allesamt auf Zufallseffekte bei der Stichprobenziehung zurückführen lassen, während in der Grundgesamtheit kein „realer“ Zusammenhang zwischen den Variablen besteht. Träfe diese Nullhypothese zu, wäre der Datensatz für eine Faktorenanalyse vollkommen ungeeignet, da er, wenn er keine korrelierten Variablen enthält, sicher auch keine Variablen enthält, die sich in irgendeiner Form auf gemeinsame Hintergrundfaktoren zurückführen lassen könnten.

Der Bartlett-Test fußt auf zwei Voraussetzungen:

  • Die Prüfgröße folgt näherungsweise einer Chi²-Verteilung

Die erste Voraussetzungen wurde bereits eingangs erwähnt, und gilt als allgemein sinnvoll für Daten, die mittels einer Faktorenanalyse untersucht werden sollen. Sie kann anhand diverser Methoden überprüft werden (Histogramm, Kolmogorov-Smirnov-Anpassungstest). Die zweite Voraussetzung kann durch den Test selbst festgelegt werden (indem die Prüfgröße einfach der Chi²-Verteilung entnommen wird), sie bringt aber mit sich, dass der Wert der Prüfgröße auch von der Stichprobengröße abhängig ist – dies ist bei der Interpretation der Testergebnisse zu beachten.

Wichtig: Der Bartlett-Test erlaubt keinerlei Rückschlüsse auf die Signifikanz der einzelnen Korrelationen. Ein hoher Chi²-Wert ist keineswegs dahingehend zu interpretieren, dass alle Korrelationen, die der Korrelationsmatrix entnommen werden können, auch in der Grundgesamtheit signifikant werden. Um dies zu überprüfen, ist für jeden Korrelationskoeffizienten ein eigener Signifikanztest durchzuführen – wie bereits oben im Zusammenhang mit dem Signifikanzniveau der Korrelation gezeigt.

Anti-Image-Kovarianz-Matrix[]

Dem Anti-Image liegt folgende Idee zugrunde: Wenn zwei Variablen miteinander korrelieren, lässt sich die Varianz jeder der beiden Variablen wenigstens teilweise durch die andere Variable erklären. Je stärker diese Korrelation ist, desto größer ist der Anteil an Varianz, der durch die Korrelation erklärt werden kann. Solange der Zusammenhang zwischen beiden Variablen aber nicht perfekt ist, gibt es auch immer noch einen unerklärbaren Varianzanteil. Nach dieser Logik lässt sich die Gesamtvarianz einer korrelierenden Variablen also aufteilen in:

  • einen durch die korrelierende Variable erklärbaren Teil (das Image)
  • einen durch die korrelierende Variable nicht erklärbaren Teil (das Anti-Image)

Schlussfolgerung: Ein Variablenpaar mit einem niedrigen Anti-Image-Wert weist eine starke Korrelation auf.

Bei der Faktorenanalyse ist zu beachten, dass stets mehr als zwei Variablen betrachtet werden und jede dieser Variablen mit jeder anderen Variablen im Datensatz korrelieren kann. Daher sind nicht die einfachen Korrelationen (wie in der Korrelationsmatrix) sondern die partiellen Korrelationen zu beachten. Eine partielle Korrelation ist die Korrelation zwischen zwei Variablen bei Ausschaltung aller anderen Variablen. Das Anti-Image eines Variablenpaars lässt sich in diesem Zusammenhang also begreifen als der Teil der Varianz einer Variablen, der sich nicht durch die korrelierende Variable erklären lässt, wenn zugleich der Einfluss aller übrigen Variablen ausgeschaltet wird. Variablenpaare sind dann für die Faktorenanalyse geeignet, wenn ihre Anti-Image-Werte möglichst gering ausfallen.

Idealerweise ergibt sich für die Anti-Image-Kovarianz-Matrix in SPSS sogar eine Diagonalmatrix, wobei in der Realität und vor allem bei Vorliegen von Daten aus einer Zufallsstichprobe mit einer perfekten Diagonalmatrix kaum gerechnet werden kann. Es stellt sich daher die Frage, wann das Kriterium der Diagonalmatrix zumindest näherungsweise erfüllt ist. Dziuban & Shirkey schlagen vor, dass der Anteil an nicht-diagonalen Elementen ungleich Null in jedem Fall unter 25% liegen sollte, wobei ungleich Null als > 0,09 definiert wird.

Wichtig: Bei SPSS werden in der Anti-Image-Kovarianz-Matrix nicht die partiellen Korrelationskoeffizienten, sondern deren invertierte negative Werte ausgewiesen.

Kaiser-Meyer-Olkin-Kriterium[]

Kaiser, Meyer & Olkin entwickelten auf der Basis der Anti-Image-Kovarianz-Matrix eine leicht zu interpretierende Prüfgröße, mit der das Problem der komplexen Beurteilung der Matrix nach Dziuban & Shirkey umgangen wird. Diese Prüfgröße wird als KMO-Kriterium oder MSA (measure of sampling adequacy) bezeichnet. Das KMO-Kriterium gibt an, wie sich die absoluten Korrelationen der verwendeten Variablen relativ zu den partiellen Korrelationen verhalten. Da die Faktoranalyse zumindest implizit annimmt, dass die Korrelation zwischen Variablen aufgrund des unbeobachteten Faktors entsteht, sollte die Korrelation zwischen den Variablen niedrig sein wenn der Einfluss des Faktors herausgerechnet wird. Genau dies versucht man mit der partiellen Korrelation zu erreichen. Dementsprechend sinkt der Wert des KMO je niedriger die paarweisen partiellen Korrelationen sind. Es ist somit ein geeigneter Indikator dafür, ob mit der Faktorenanalyse fortgefahren werden sollte oder nicht. Der KMO-Wert liegt dabei stets zwischen 0 und 1. Er kann für einzelne Variablenpaare ebenso wie für die gesamte Korrelationsmatrix berechnet werden. Zur Interpretation des KMO-Werts schlagen Kaiser und Rice das folgende Schema vor:

Kmo-kriterium

Eine Korrelationsmatrix als Ganzes ist also dann für eine Faktorenanalyse geeignet, wenn der KMO-Wert wenigstens oberhalb von 0,5 liegt, wobei Werte oberhalb von 0,8 auf jeden Fall wünschenswert sind.

Quellen[]

C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.

Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (1999). Statistik. Der Weg zur Datenanalyse (2. Aufl.). Berlin: Springer.

Brosius, F. (2002). SPSS 11. Bonn: mitp-Verlag.

Advertisement