Marktforschungs-Wiki
Advertisement

Fundamentaltheorem[]

Nachdem die Eignung der Variablen für die Faktorenanalyse im vorangegangenen Schritt bestätigt wurde, werden nun im nächsten Schritt die Faktoren extrahiert. Die Grundannahme hinter der Extraktion, wie auch hinter der gesamten Faktorenanalyse, ist dabei, dass jeder Wert einer Ausgangsvariablen sich als Linearkombination hypothetischer Faktoren beschreiben lässt. Die Grundaussage dieses Fundamentaltheorems lässt sich mit Worten wie folgt formulieren: Die Korrelationsmatrix R lässt sich in ihrer Gänze durch die Faktorladungen A und die Korrelationen zwischen den Faktoren C reproduzieren. Für voneinander unabhängige (also unkorrelierte) Faktoren entspricht C einer Einheitsmatrix.

Wichtig: Diese vereinfachte Form des Fundamentaltheorems setzt sowohl die Unabhängigkeit der Faktoren untereinander als auch das Vorhandensein einer Linearverknüpfung voraus.

Grafische Interpretation der Faktoren[]

Der Informationsgehalt einer Korrelationsmatrix lässt sich auch grafisch in einem Vektor-Diagramm darstellen. Aus der Interpretation solcher Diagramme sollte noch bekannt sein, dass zwei Vektoren dann als linear unabhängig voneinander gelten, wenn sie im Diagramm senkrecht (orthogonal) zueinander stehen. Sind die Vektoren (und damit die hinter den Vektoren stehenden Variablen) dagegen auf irgendeine Weise miteinander korreliert, so drückt sich dies grafisch in einem Winkel aus.

Dazu ein Beispiel: Eine lineare Korrelation mit einem Bravais-Pearson-Korrelationskoeffizienten von r = 0,5 drückt sich im Vektor-Diagramm als ein Winkel von genau 60° aus. Wie lässt sich dieser Winkel berechnen? Es zeigt sich, dass der grafische Ausdruck für einen Korrelationskoeffizienten der Cosinus ist, und der Cosinus eines 60°-Winkels exakt 0,5 beträgt. Analog zu dieser Überlegung lassen sich nun auch die Winkel für zwei charakteristische Sonderfälle in der Korrelationsmatrix ermitteln: Die perfekte Korrelation (r = 1,0) und die perfekte Unabhängigkeit (r = 0,0). Der Cosinus eines 90°-Winkels beträgt exakt 0,0. Aus diesem Grund stehen voneinander unabhängige Vektoren immer senkrecht zueinander. Ein gegenteiliges Bild ergibt sich bei der perfekten Korrelation: Der Cosinus eines 0°-Winkels beträgt genau 1,0 – Vektoren, die einen perfekten linearen Zusammenhang aufweisen, liegen daher unmittelbar übereinander.

Grundsätzlich gilt natürlich, dass die Zahl der zur Darstellung benötigten Dimensionen unmittelbar an die Zahl der Variablen im Datensatz gebunden ist: Je mehr Variablen im Datensatz vorliegen, desto mehr Dimensionen werden für die grafische Darstellung benötigt. Das Ziel der Faktorenanalyse ist aber die Reduktion der Komplexität. Bezogen auf die grafische Darstellung mittels der Vektoren bedeutet dies, dass das durch die Korrelationskoeffizienten wiedergegebene Verhältnis der Variablen untereinander in einem Raum mit möglichst wenig Dimensionen dargestellt werden soll. Die Zahl der benötigten Achsen dieser Darstellung entspricht dann der Zahl der gefundenen Faktoren.

Dazu ein Beispiel: Zwei Variablen, die eine Korrelation von r = 0,5 aufweisen, stehen sich als Vektoren A und B im 60°-Winkel gegenüber.

Faktorenanalyse-zwei-variablen

Der eingezeichnete zusätzliche Vektor C – die sogenannte Resultante – ist eine zusammenfassende (faktorielle) Beschreibung der beiden anderen Vektoren. Die beiden neu entstehenden 30°-Winkel geben den Zusammenhang zwischen der Resultante – unserem Faktor – und den beiden Ausgangsvariablen wieder. Sie repräsentieren gleichwohl die Korrelationskoeffizienten zwischen den Variablen und dem Faktor. Diese Korrelationskoeffizienten werden auch als Faktorladungen bezeichnet (cos 30° = 0,87), und werden später noch eine bedeutende Rolle bei der Interpretation des gefundenen Modells spielen.

Wie lassen sich nun aber Vektoren (Faktoren) finden, die zusammenfassend für die übrigen Vektoren (Variablen) stehen? Die Bildung des ersten Faktors ist relativ einfach: Er ergibt sich aus dem Schwerpunkt aller durch die Variablen gebildeten Vektoren. Da eine der Voraussetzungen des hier betrachteten Faktorenmodells ist, dass die Faktoren voneinander unabhängig sein sollen, also nicht miteinander korrelieren dürfen, und da völlige Unabhängigkeit, wie bereits festgestellt, sich in einer senkrechten Stellung der Vektoren zueinander manifestiert, steht der zweite Faktor dann genau rechtwinklig zum ersten Faktor, der dritte wieder rechtwinklig zu beiden etc. Erklären die extrahierten Faktoren die Variablen restlos, ist die Summe der Ladungsquadrate jeder Variablen gleich Eins.

Faktorenanalyse-zwei-faktoren

Bestimmung der Kommunalitäten[]

Das erklärte Ziel der Faktorenanalyse ist es, die vorhandenen Variablen auf eine geringere Zahl von Faktoren aufzuteilen. Es ist niemandem damit gedient, wenn, ausgehend von 8 miteinander korrelierten Variablen, genausoviele, also 8 Faktoren extrahiert werden! Wenn aber 8 Variablen durch die Extraktion von 3 Faktoren hinreichend gut erklärt werden, liegt bereits eine deutliche Reduktion der Komplexität vor. In der Praxis tritt nun das Problem auf, dass nicht die gesamte Varianz der Variablen durch die extrahierten Faktoren erklärt wird - durch die Reduktion der Komplexität "geht Varianz verloren". Zum Beispiel würden 8 Faktoren 100% der Gesamtvarianz von 8 Variablen aufklären - aber wem wäre damit geholfen? Es verbleibt eine Restvarianz, die durch andere, nicht extrahierte Faktoren oder auch durch Messfehler und Zufallseffekte verursacht wird. Beispielsweise würden 3 extrahierte ("gezogene") Faktoren vielleicht nur 60% der Gesamtvarianz der 8 Variablen erklären. Die restlichen 40% gingen dann auf nicht extrahierte Faktoren oder Messfehler zurück. Dabei gilt: Je mehr Faktoren im Modell extrahiert werden, desto mehr Varianz wird insgesamt durch diese Faktoren erklärt. Auch bezogen auf eine einzelne Variable kann man einen Wert berechnen, der anzeigt, wieviel Varianz dieser Variable durch alle extrahierten Faktoren erklärt wird: dieser Wert wird in der Faktorenanalyse als Kommunalität bezeichnet. Beispielsweise zeigt - nach Extraktion der Faktoren - eine Kommunalität von 0.57 an, dass 57% der Varianz einer Variable durch die extrahierten Faktoren erklärt werden können. Fast die Hälfte der Varianz (43%) "geht verloren" - ein Verlust, der zugunsten besserer Interpretierbarkeit durch wenige Faktoren gegenüber vielen Faktoren in Kauf genommen wird.

Das (gekürzte) Fundamentaltheorem ist aufgrund dieser unbestimmbaren Einflüsse um eine Unbekannten-Komponente U zu erweitern. In U fließen sowohl die spezifische Varianz als auch die potentiellen Messfehler ein (die sogenannten Einzelrestfaktoren). An dieser Stelle kommt der Marktforscher ins Spiel, der die Kommunalität, und damit auch den Anteil der nicht erklärbaren Varianz, selbst schätzen muss. Legt er beispielsweise eine Kommunalität von 0,7 fest, so bedeutet dies, dass er vermutet, dass insgesamt 70% der Ausgangsvarianz durch gemeinsame Faktoren erklärt werden können.

Neben fachlichen Überlegungen spielt vor allem die Variablenanzahl bei der Schätzung der Kommunalitäten eine große Rolle. Je größer nämlich die Anzahl der Variablen im Modell ist, umso unwichtiger ist die exakte Schätzung der Kommunalitäten. Der Grund dafür ist, dass bei einer steigenden Anzahl an Variablen der prozentuale Anteil der diagonalen Matrixelemente in der Korrelationsmatrix immer weiter abnimmt. In einer 2x2-Matrix machen diese diagonalen Elemente noch 50% aus, in einer 100x100-Matrix dagegen nur noch 1%. Wie man sich leicht vorstellen kann, hat eine fehlerhafte Einschätzung im letzteren Fall wesentlich geringere negative Auswirkungen als im ersten.

Wie kann der Marktforscher nun aber zu einem Schätzwert für die Kommunalität gelangen? In der Praxis sind heute vor allem zwei Verfahren der Kommunalitätenschätzung von Bedeutung.

Erste Möglichkeit: Der Marktforscher geht einfach davon aus, dass die gesamte Varianz aller Ausgangsvariablen durch die Faktoren erklärt werden kann. In diesem Fall ist die Summe der Kommunalitäten stets gleich Eins, da keine Einzelrestfaktoren auftreten. Eine explizite Schätzung der Kommunalitäten im Rahmen der Faktorenanalyse findet also in diesem Fall gar nicht statt.

Zweite Möglichkeit: Aufgrund verschiedener inhaltlicher Überlegungen wird ein Schätzwert für die Kommunalitäten vorgegeben. Der Vorgabewert für diese Schätzung ist häufig der höchste quadrierte Korrelationskoeffizient aus der Korrelationsmatrix. Grund dafür ist, dass die Faktoren in ihrer Gesamtheit mindestens den gleichen Erklärungsbeitrag liefern wie die höchste vorgefundene Korrelation, meist liefern sie jedoch deutlich mehr. Wird dieser Wert zur Schätzung der Kommunalitäten verwendet, fällt diese daher in der Regel zu niedrig aus – es handelt sich also um ein konservatives Schätzverfahren. Abweichende Schätzverfahren sind aber ebenfalls denkbar.

Die Art der Kommunalitätenschätzung wirkt sich unmittelbar auf die Wahl des Faktorextraktionsverfahrens aus. Auch hier wird in zwei wesentliche Verfahren unterschieden: Die Hauptachsenanalyse, bei der sich die Varianz stets in Kommunalitäten und Einzelrestvarianz aufteilt und die Hauptkomponentenanalyse, bei der die Varianz vollständig durch die Faktoren erklärt wird. Die Wahl des Faktorextraktionsverfahrens beeinflusst wiederum die Interpretation der gewonnenen Ergebnisse.

Hauptachsenanalyse[]

Der Hauptachsenanalyse liegt die Annahme zugrunde, dass sich die Varianz jeder Ausgangsvariablen stets in Kommunalitäten und Einzelrestvarianz aufteilt. Der Marktforscher muss hier also eine Schätzung bezüglich der Höhe der Kommunalitäten abgeben. Diese kann entweder auf inhaltlichen und fachlichen Überlegungen basieren oder sich aus einem Iterationsprozess ergeben, der ebenfalls Bestandteil der Hauptachsenanalyse ist. Das Ziel der Hauptachsenanalyse ist die inhaltliche Erklärung der Varianzen der Variablen in Höhe der Kommunalitäten durch die Faktoren. Aus diesem Grund ist die Hauptachsenanalyse das richtige Verfahren, wenn die inhaltliche Interpretation der Faktoren im Vordergrund steht – also immer dann, wenn eine kausale Interpretation gefragt ist.

Die entscheidende Frage der Hauptachsenanalyse lautet: Wie lässt sich die Ursache bezeichnen, die für hohe Ladungen der Variablen auf diesen Faktor verantwortlich ist?

Hauptkomponentenanalyse[]

Der Hauptkomponentenanalyse liegt die Annahme zugrunde, dass die Varianz jeder Ausgangsvariablen vollständig durch die Faktoren erklärt werden kann, die Kommunalität also bei Eins liegt. Wie wir aus den vorangegangenen Betrachtungen wissen, liegt die Kommunalität dann bei Eins, wenn genauso viele Faktoren extrahiert werden, wie Variablen im Modell sind – dann allerdings hat die Faktorenanalyse keinerlei Sinn mehr. Werden dagegen weniger Faktoren extrahiert, sinkt auch die Kommunalität. Im bewussten Verzicht auf Informationen zur Herbeiführung eines brauchbaren Modells spiegelt sich der Zielkonflikt der Faktorenanalyse wider. Das Ziel der Hauptkomponentenanalyse ist demzufolge auch die möglichst umfassende Reproduktion der Zusammenhänge im Datensatz mit einer möglichst geringen Anzahl von Faktoren. Aus diesem Grund wird in der Hauptkomponentenanalyse nicht in Kommunalitäten und Einzelrestvarianzen unterschieden, die Interpretation der Faktoren kann demzufolge dann auch nicht mehr kausal interpretiert werden.

Die entscheidende Frage der Hauptkomponentenanalyse lautet daher: Wie lassen sich die auf einen Faktor hochlandenden Variablen durch einen Sammelbegriff (Komponente) zusammenfassen?

Zur Vorgehensweise der Hauptkomponentenanalyse: Zunächst wird der erste Faktor (auch als erste Hauptkomponente bezeichnet) so bestimmt, dass durch ihn ein möglichst großer Teil der Gesamtvarianz erklärt wird. Der zweite Faktor wird dann so bestimmt, dass er orthogonal zum ersten Faktor steht (also unkorreliert ist) und gleichzeitig einen möglichst großen Teil der verbliebenen Restvarianz erklärt. Auf diese Weise lassen sich theoretisch so lange Faktoren ziehen, bis ein Faktor auf jede beobachtete Variable kommt, wobei in diesem Fall auch die Gesamtvarianz vollständig erklärt werden würde. Werden also n Variablen durch n Faktoren dargestellt, kann die Varianz komplett aufgeklärt werden. Dies liefe aber, wie bereits mehrfach erläutert, dem eigentlichen Ziel der Varianzanalyse zuwider. Werden dagegen weniger als n Faktoren extrahiert, wird ein Teil der Varianz nicht durch das Modell erklärt. Volkswirtschaftlich betrachtet liegt hier also eine Tradeoff-Situation zwischen dem Grad der Dimensionsreduktion und der Genauigkeit des Modells vor.

Es ist an dieser Stelle dem Marktforscher überlassen zu entscheiden, welche Faktoren in das Modell aufgenommen werden sollen und welche ausgeschlossen werden können. Dabei erscheint es logisch, solche Faktoren mit einem hohen Erklärungsgehalt aufzunehmen und solche Faktoren mit einem niedrigen Erklärungsgehalt auszuschließen. Hier bieten sich verschiedene Entscheidungskriterien an, die nachfolgend näher betrachtet werden sollen.

Bestimmung der Faktoranzahl[]

Zur Bestimmung der Anzahl der zu extrahierenden Faktoren existieren keine allgemeinverbindlichen Vorschriften. Ein Stück weit ist hier also die subjektive Entscheidung des Marktforschers gefragt, der aber auf sechs verschiedene Entscheidungskriterien zurückgreifen kann:

  • Fortsetzung der Extraktion, bis xy% der Varianz erklärt sind (vorher festlegen!)
  • Fortsetzung der Extraktion solange Anzahl der Faktoren < halbe Variablenanzahl
  • Extraktion aller inhaltlich noch sinnvoll interpretierbaren Faktoren
  • Extraktion von genau n Faktoren (Anzahl zuvor nach fachlichen Aspekten bestimmt)

Wie man leicht sehen kann, sind nur die letzten beiden Kriterien mathematischer Natur - daraus ist aber nicht der Schluss zu ziehen, dass sie auch „wichtiger“ oder gar „richtiger“ sind. Der Marktforscher kann an dieser Stelle der Faktorenanalyse vielmehr jedes der Kriterien, eine Kombination aus diesen oder auch eine eigene subjektive Entscheidung als Richtlinie für die Bestimmung der Faktoranzahl auswählen.

Quellen[]

C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.

Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (1999). Statistik. Der Weg zur Datenanalyse (2. Aufl.). Berlin: Springer.

Brosius, F. (2002). SPSS 11. Bonn: mitp-Verlag.

Götze, W., Deutschmann, C. & Link, H. (2002). Statistik. München: Oldenbourg.

Hair, J.F., Anderson, R.E., Tatham, R.L. & Black, W.C. (1998). Multivariate data analysis (5th ed.). Upper Saddle River, NJ: Prentice Hall.

Janssen, J. & Laatz, W. (2003). Statistische Analyse mit SPSS für Windows (4. Aufl.). Berlin: Springer.

Advertisement