Marktforschungs-Wiki
Advertisement

Bei einem Ausreißer handelt es sich, wie bereits weiter oben dargestellt, um einen gemessenen, erhobenen oder experimentell gefundenen Wert, der nicht den Erwartungen entspricht bzw. nicht zu den restlichen Werten der Verteilung passt. Es existiert keine klare Regel für die eindeutige Identifikation von Ausreißern, so dass nicht angegeben werden kann, ab welchem „Schwellenwert“ ein Wert als Ausreißer zu bezeichnen ist. Die bei der Konstruktion des Box-Plots geltende Unterscheidung in Ausreißer und Extremwerte außerhalb eines Bereichs von 4 bzw. 7 IQR ist also keineswegs als allgemeingültig zu betrachten, auch wenn sie einen guten Richtwert darstellt. Letzten Endes ist es aber stets eine Entscheidung des Analytikers, welche Werte als Ausreißer gekennzeichnet werden.

Ursachen für Ausreißer[]

Für das Auftreten von Ausreißern gibt es drei mögliche Ursachen:

Es wäre möglich, dass der Ausreißer durch einen verfahrenstechnischen Fehler verursacht wurde, beispielsweise einen Fehler bei der Dateneingabe (130 statt 13), einen Fehler beim Codieren der Daten oder aber einen technischen Ausfall bei der EDV-Datenspeicherung. Solche Ausreißer können immer auftreten und unter Umständen sogar wieder rückgängig gemacht werden, wenn sich der „echte“ Wert noch wiederherstellen lässt.

Der Ausreißer könnte auch einfach nur von einem ungewöhnlichen Wert herrühren, der so real bei der Erhebung aufgetreten ist, und damit auch erklärt werden kann. Der einzige befragte Millionär in einer Gruppe von Normalverdienern wäre genau ein solcher Fall. Solche Fälle können unter Umständen darauf hindeuten, dass die Befragung falsch angelegt oder durchgeführt wurde, da ein wichtiges Selektionskriterium nicht bedacht wurde und daher nun Merkmalsträger in der Stichprobe gelandet sind, die eigentlich gar nicht untersucht werden sollten. Allein schon aus diesem Grund müssen die Ausreißer vor jeder weiterführenden Analyse gründlich untersucht werden – sie könnten einen Hinweis auf mangelnde Repräsentativität der Stichprobe geben.

Schlußendlich könnte der Ausreißer auch einen „echten“ und ungewöhnlichen Wert kennzeichnen, der durch den Forscher nicht erklärt werden kann.

Multivariate Ausreißer[]

Generell ist noch zwischen univariaten und multivariaten Ausreißern zu unterscheiden. Bei univariaten Ausreißern handelt es sich um einen einzelnen außergewöhnlich hohen oder niedrigen Wert eines bestimmten erhobenen Merkmals – hier kann wieder der versehentlich befragte Millionär als Beispiel herangezogen werden, der im Datensatz auch schnell zu erkennen ist. Die Identifikation eines multivariaten Ausreißers ist dagegen komplizierter, denn hier handelt es sich um einen Datensatz, der mehrere für sich genommen normale Merkmalsausprägungen aufweist, die aber in ihrer Kombination äußerst ungewöhnlich sind. Ein Beispiel hierfür wäre eine 80jährige Frau, die über einen Internetanschluss verfügt. Weder 80jährige noch Personen mit Internetanschluss sind in einer Studie der Allgemeinbevölkerung eine große Seltenheit, diese Frau aber ganz sicher, da die beiden Merkmalsausprägungen üblicherweise nicht in Kombination zu erwarten sind.

Identifikation von Ausreißern[]

Es bieten sich mehrere Methoden an, mit denen der Marktforscher Ausreißer im Datensatz aufspüren kann. Am mühsamsten ist dabei die manuelle Durchsicht des gesamten Datensatzes, die bei umfangreicheren Untersuchungen auch irgendwann unmöglich wird. Effizienter ist da bereits die visuelle Identifikation anhand eines Box-Plots oder eines Streudiagramms, wobei der Box-Plot den zusätzlichen Vorteil aufweist, dass die Identifikationsnummern der auffälligen Datensätze gleich mit angegeben werden.

Box-plot

Leverage-Effekt[]

Warum ist es nun so wichtig, sich mit Ausreißern zu beschäftigen? Welche Gefahr könnten sie möglicherweise für die Richtigkeit und Genauigkeit einer Analyse darstellen? Soweit es beispielsweise die Berechnung des arithmetischen Mittels betrifft ist die Gefahr offensichtlich: ein oder mehrere Ausreißer können das Mittel in eine bestimmte Richtung „ziehen“ und so seine Aussagekraft erheblich schwächen. Es gibt allerdings auch „subtilere“ Probleme, die von Ausreißern ausgelöst werden können, beispielsweise den Leverage-Effekt.

Eines der am häufigsten verwendeten multivariaten Analyseverfahren ist die lineare Regressionsanalyse, bei der durch eine „Wolke“ von Messpunkten mit mehr oder weniger deutlichem linearen Trend eine Regressionsgerade gelegt wird, die möglichst viel Streuung erklären soll. Ist ein deutlicher linearer Trend vorhanden, so ergibt sich eine hohe Streuungsaufklärung und damit ein brauchbares Regressionsmodell. Bemerkenswerterweise kann aber schon ein einziger Ausreißer, wenn er an der „richtigen“ Stelle liegt, das Ziel der Streuungsaufklärung vollständig unterlaufen, indem er die Regressionsgerade in eine bestimmte Richtung „zieht“ und damit deren Erklärungswert deutlich verringert.

Leverage-effekt

Dieser Effekt macht deutlich, wieso die Analyse der Ausreißer vor der Durchführung einer weiterführenden Analyse, wie beispielsweise der linearen Regressionsanalyse, ein unbedingtes Muss für den Marktforscher ist.

Quellen[]

C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.

Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (1999). Statistik. Der Weg zur Datenanalyse (2. Aufl.). Berlin: Springer.

Brosius, F. (2002). SPSS 11. Bonn: mitp-Verlag

Advertisement