R² und korrigiertes R²

Das Gütemaß R²[]

Die Regressionsgerade gibt Zusammenhänge, die nicht perfekt linear sind, auch nicht perfekt wieder. Es ist daher mit der Regressionsfunktion in der Regel nicht möglich, alle Veränderung der abhängigen Variablen Y durch die unabhängigen Variablen zu erklären. Ein Teil der Streuung der abhängigen Variablen wird daher durch das Modell erklärt werden, ein anderer Teil wird unaufgeklärt bleiben.

Das Verhältnis von erklärter Streuung zur Gesamtstreuung ist ein gutes Maß für die Güte des Regressionsmodells. Die Residuen werden quadriert, damit sich positive und negative Abweichungen nicht gegenseitig aufheben. Aus dem Verhältnis von erklärter Streuung zu Gesamtstreuung ergibt sich das Gütemaß R²:

TSS = Total Sum of Squares = Summe aller quadrierten Abweichungen
ESS = Explained Sum of Squares = Summe aller erklärten quadrierten Abweichungen
RSS = Residual Sum of Squares = Summe aller nicht erklärten quadrierten Abweichungen

Die Relation von erklärter Streuung zu Gesamtstreuung wird mit R² bezeichnet.

R² gibt also den Anteil der erklärten Streuung an der Gesamtstreuung an und drückt damit die Güte der Anpassung der Regressionsgerade an die Lage der Werte aus. R² ist als prozentualer Wert zu verstehen und liegt daher stets zwischen Null und Eins. Wird R² gleich Eins, so wird die gesamte Streuung durch das Regressionsmodell aufgeklärt – es besteht also ein perfekter linearer Zusammenhang. Je kleiner R² ausfällt, desto stärker weicht der vorliegende Fall von diesem Zusammenhang ab.

Vorsicht: R² ist lediglich ein Maß für die Stärke eines linearen Zusammenhangs, nicht aber für andere Zusammenhänge.

Das korrigierte R²[]

Zusätzlich zu R² wird von SPSS noch das korrigierte R² berechnet. Wieso ist dieses zusätzliche Gütemaß noch erforderlich? Gibt R² die Güte des Regressionsmodells nicht mit ausreichender Genauigkeit wieder?

Das Problem mit R² ist, dass die Aufnahme zusätzlicher erklärender Variablen (also unabhängiger Variablen) nie zu einer Verschlechterung von R² führt. Besteht gar kein Zusammenhang zwischen der neuen unabhängigen Variablen und der abhängigen Variablen bleibt R² unverändert. Besteht auch nur ein minimaler Zusammenhang oder ein Scheinzusammenhang, steigt R² leicht an. In keinem Fall aber kann R² sich verschlechtern.

Dies kann dazu führen, dass der Marktforscher beliebig viele unabhängige Variablen geradezu wahllos in das Regressionsmodell aufnimmt. Es ergibt sich ein hohes R² und damit ein vermeintlich gutes Regressionsmodell. Die prognostizierten Werte werden jedoch mit steigender Zahl der unabhängigen Variablen unzuverlässiger. Daher sollte man keine Variablen zur Minimalsteigerung von R² ins Regressionsmodell aufnehmen.

Zur Entscheidung der Frage, ob der zusätzliche Erklärungsgehalt einer weiteren unabhängigen Variablen die Zunahme an prognostischer Unsicherheit rechtfertigt, kann das korrigierte R² herangezogen werden.

Die Berechnungsvorschrift für das korrigierte R² lässt sich aus der für R² herleiten:

Wird nun eine zusätzliche erklärende Variable hinzugefügt, ergeben sich zwei gegenläufige Effekte: RSS verringert sich oder bleibt gleich, wodurch sich das korrigierte R² entweder erhöht oder gleich bleibt. Der Wert für k erhöht sich um Eins, wodurch sich das korrigierte R² verringert. Welcher der beiden Effekte überwiegt, entscheidet darüber ob das korrigierte R² durch die Hinzunahme der erklärenden Variable ansteigt oder absinkt – je nachdem, sollte diese Variable dann ins Modell übernommen werden oder nicht.

Quellen[]

C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.

Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (1999). Statistik. Der Weg zur Datenanalyse (2. Aufl.). Berlin: Springer.

Brosius, F. (2002). SPSS 11. Bonn: mitp-Verlag.

R² und korrigiertes R²

Das Gütemaß R²[]

Das korrigierte R²[]

Quellen[]

Fan Feed