Regressionsdiagnostik in SPSS

Lesen Sie, welche Annahmen eines Regressionsmodells auf Ihre Daten zutreffen sollten und wie sie regressionsdiagnostisch in SPSS überprüft werden.

Erfolg seit 2004

In einem anderen Beitrag: lineare Regression in SPSS behandeln wir die Anwendung von linearen Regressionsmodellen in SPSS. Eine wichtige Voraussetzung für die Korrektheit bzw. Genauigkeit der Regression ist die Überprüfung der vorliegenden Daten vor dem Hintergrund der Modellannahmen. Sind diese Annahmen verletzt, sind Standardabweichungen, Schätzer und Signifikanzwerte des Regressionsmodells verzerrt. Die Regressionsdiagnostik dient folglich der Überprüfung der Modellannahmen und der Vermeidung inkorrekter Regressionsmodelle. Allgemein formuliert werden dabei einflussreiche Stichprobeneinheiten identifiziert und Aspekte der Multikollinearität detailliert analysiert.

Dieser Beitrag stellt die Annahmen vor und geht ausserdem anhand von Beispielen auf die Regressionsdiagnostik mit SPSS ein. Grundsätzlich bestehen bei SPSS zwei Alternativen, die gewünschten Berechnungen in das Programm einzugeben: via Menüleiste oder über einen Befehlscode, die sogenannte Syntax. Auf eine Eingabe mittels Menü geht der Beitrag ebenso ein wie auf die Eingabe via SPSS-Syntax.

Ist man im Umgang mit den Programm fortgeschrittener, so lassen sich Arbeitsschritte über diese Syntax effizienter abarbeiten als über manuelle Menüeingaben. Auch bei Seminar- und Abschlussarbeiten wird häufig gefordert, der Arbeit die verwendete Syntax anzuhängen. Sie dient gleichzeitig als von aussen nachvollziehbares Protokoll der Arbeitsschritte.

Häufig erfolgt ein anwendungsorientierter Gebrauch der linearen Regression, der die Modellannahmen ausser Acht lässt. Der Beitrag soll jedoch deutlich machen, dass wenigstens eine grobe Überprüfung wichtig für die Schlüsse ist, die aus den Ergebnissen der linearen Regression gezogen werden. Sollten die vorliegenden Daten für ein lineares Regressionsmodell partout ungeeignet sein, stehen verschiedene Ausweichverfahren zur Verfügung.


Annahme Linearität zwischen abhängiger und unabhängiger Variable

Eine erste zentrale Überprüfung sollte darin bestehen, einflussreiche Beobachtungen zu identifizieren, die die Regressionsgerade verschieben und somit zu verzerrten Ergebnissen führen können. Die Abbildung des Streudiagramms verdeutlicht diese Problematik. Infolge des Ausreisserwertes wird die Regressionsgerade nach oben gezogen, wodurch die darunterliegenden Datenpunkte nicht mehr ideal durch das Regressionsmodell repräsentiert werden. Auch der Schnittpunkt mit der Y-Achse wird dabei verschoben. Diese Hebelwirkung wird auch als Leverage-Effekt bezeichnet. Nach einer grafischen Betrachtung der Daten mittels Streudiagramm sollten solche einflussreichen Fälle daher aus der Analyse ausgeschlossen werden.

SPSS Regressionsdiagnostik
Abbildung 1: Verschiebung der Regressionsgeraden (Leverage-Effekt) durch einflussreiche Beobachtung.

Eine weitere wesentliche Annahme eines linearen Regressionsmodells ist eine lineare Beziehung zwischen der abhängigen (Y) und den unabhängigen (X) Variablen. Da das Regressionsmodell den Zusammenhang zwischen den Variablen mithilfe einer Geraden bestmöglich repräsentieren soll, sind andersartige Beziehungen (bspw. eine U-förmige) zwischen abhängiger und unabhängiger Variable für eine lineare Regression ungeeignet. Möglicherweise lassen sich nicht lineare Beziehungen jedoch durch eine Datentransformation anpassen.

SPSS Regressionsdiagnostik

SPSS Regressionsdiagnostik

Abbildung 2: Auf der linken Seite erkennt man eine für die lineare Regression ideale Datenverteilung. Eine Regressionsgerade lässt sich auch für die rechte Grafik abbilden, sie repräsentiert den Zusammenhang aber nicht angemessen.

Im Falle der linearen Einfachregression, die neben der abhängigen Variable nur eine unabhängige Variable enthält, kann eine Überprüfung dieser Annahme mithilfe eines einfachen Streudiagramms erfolgen. Dabei wird die unabhängige Variable in der Regel auf der X-Achse, die abhängige Variable auf der Y-Achse dargestellt.

Bei einer multiplen Regression, die neben der abhängigen Variable mehrere unabhängige Variablen berücksichtigt, ist das Vorgehen etwas umfangreicher. Hierbei werden Partial Residual Plots angefertigt, die den Zusammenhang zwischen den Y- und X-Variablen unter Berücksichtigung der übrigen unabhängigen Variablen (Kovariaten) darstellen.

Grundlage für das Anwendungsbeispiel ist ein aggregierter Länderdatensatz, der zur Erklärung der Höhe der Wahlbeteiligung in den EU-Staaten herangezogen wird. Als erklärende, unabhängige Variablen werden Kindersterblichkeit, Bildungsniveau, Urbanisationsgrad und Bruttoinlandsprodukt herangezogen. Eine relevante dichotome Variable wird ebenfalls integriert und gibt an, ob im jeweiligen Land eine Wahlpflicht besteht.

Die Partial Residual Plots sind per Menüführung über das Dialogfeld „Lineare Regression“ zu erreichen. Nachdem man die gewünschten Variablen definiert hat und auf die Schaltfläche „Diagramme“ klickt, kann das Häkchen bei „Alle partiellen Diagramme erzeugen“ aktiviert werden.

Dialogfeld Lineare Regression Statistiken

Diagrammoptionen Normalverteilungsdiagramm

Als Folge werden im Anschluss an die Ausgabetabellen des Regressionsmodells partielle Diagramme angezeigt, die ein Urteil über die Linearität des Zusammenhangs erlauben. Dies muss für jede unabhängige Variable überprüft werden. Exemplarisch wird hier das partielle Diagramm für den Zusammenhang zwischen Bruttoinlandsprodukt und Wahlbeteiligung gezeigt. Aus der Lage der Datenpunkte lässt sich schliessen, dass die Annahme eines linearen Zusammenhangs gerechtfertigt ist.

 

Diagramm partial

 

Eine Erweiterung um die partiellen Diagramme kann auch mithilfe der Syntax erfolgen. Hierfür werden die Befehle für die lineare Regression um die Zeile „/PARTIALPLOT ALL“ erweitert:

 

REGRESSION
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT wahlbeteiligung
  /METHOD=ENTER sterblichkeit bildungsniveau urbanisation bip wahlpflicht
  /PARTIALPLOT ALL.

Eigenschaften der berücksichtigten Variablen

Eine Reihe weiterer Annahmen der linearen Regression beziehen sich auf das Skalenniveau und die Messqualität der im Modell aufgenommenen Variablen. Hierunter fällt zunächst, dass die unabhängigen X-Variablen ein metrisches Messniveau haben müssen. Möglich ist ebenfalls die Aufnahme einer dichotomen (Dummy-)Variable. Hierdurch wird auch die Verwendung von ursprünglich nominal bzw. kategorial skalierten Variablen als unabhängige Variablen möglich. Auch für die abhängige Y-Variable gilt die Vorgabe eines metrischen Skalenniveaus mit bestenfalls mehr als 5 Ausprägungen. Eine Überprüfung dieser Annahmen ist nicht notwendig, da entsprechende Überlegungen schon bei der Formulierung des Modells erfolgen sollten.

Ähnliches gilt für mögliche Messfehler der unabhängigen und abhängigen Variable. Sind Messungen fehlerhaft durchgeführt worden, so verzerrt auch dies die Modellergebnisse. Solche Messfehler lassen sich durch die Verwendung etablierter Instrumente oder Validitäts- und Reliabilitätsanalysen vermeiden.

Daneben müssen die unabhängigen Variablen eine Varianz grösser 0 aufweisen. Hintergrund ist, dass die Regressionsgerade mithilfe einer Division durch die Varianz der unabhängigen Variable berechnet wird. Ist der Divisor gleich 0, kann diese Berechnung nicht erfolgen. Auch sehr geringe Varianzwerte können sich als problematisch herausstellen, da sie zur Vergrösserung der Standardfehler im Modell führen. Eine Überprüfung dieser Annahme kann leicht durch die deskriptive Untersuchung der Variablen erfolgen.


Multikollinearität

Hinzu kommt, dass unter den unabhängigen Variablen kein perfekter (positiver wie negativer) linearer Zusammenhang bestehen darf. In einem solchen Fall läge Kollinearität vor, die ebenfalls die Qualität der Berechnungen beeinträchtigen würde. Auch diese Annahme lässt sich durch eine planvolle Formulierung des Modells verhindern. Der Zusammenhang zwischen zwei unabhängigen Variablen lässt sich bei linearen Einfachregressionen über den Pearson-Korrelationskoeffizienten überprüfen. Liegt dieser nahe -1 oder +1, so ist die Modellvoraussetzung verletzt. Bei multiplen linearen Regressionsmodellen können hingegen sogenannte Hilfsregressionen berechnet werden. Dabei werden die X-Variablen des ursprünglichen Modells als jeweils abhängige Variable in Hilfsregressionsmodellen verwendet, wobei die übrigen X-Variablen als unabhängige Variablen dienen. Kollinearität lässt sich schliesslich an sehr hohen Werten des Bestimmtheitsmasses R² ablesen.


Fallzahl

Schliesslich sollte die Fallzahl des linearen Regressionsmodells mindestens der Anzahl der berechneten Koeffizienten entsprechen. Konkret bedeutet das im Falle einer Regression mit 3 unabhängigen Variablen (zzgl. der Konstante), dass das Modell mindestens 4 Untersuchungseinheiten berücksichtigt. In den meisten Fällen stellt dies kein Problem dar, da in der Regel deutlich grössere Stichproben untersucht werden. Relevanz hat die Annahme ggf. bei einer Aggregatanalyse auf Länderebene, bei der teils eine nur geringe Fallzahl zur Verfügung steht.


Residualdiagnostik

Eine Reihe weiterer Annahmen betreffen die sogenannten Residuen des Regressionsmodells. Als Residuen werden die messbaren Abstände zwischen Beobachtungspunkt und der berechneten Regressionsgerade bezeichnet. Diese Bestandteile der Regressionsdiagnostik werden daher auch Residualdiagnostik genannt.

Mittelwert der Residuen von etwa 0

Laut einer dieser Annahmen sollen die Residuen einen Mittelwert von etwa 0 aufweisen. Abweichungen von der Regressionsgeraden nach unten oder oben werden stets auftreten. Wichtig ist aber mit Blick auf die Annahme, dass sich diese „Ausschläge“ ausgleichen. Ist diese Voraussetzung nicht erfüllt, so besteht eine hohe Wahrscheinlichkeit, dass eine wesentliche unabhängige Variable nicht berücksichtigt wurde. Eine Überprüfung der Annahme erfolgt über die Ausgabe deskriptiver Statistiken der Residuen.

Homoskedastizität der Residuen

Eine weitere Modellvoraussetzung ist die sogenannte Homoskedastizität, die die gleiche Streuung der Residuen bezeichnet. Ist dies nicht der Fall, liegt eine heteroskedastische Streuung in den Residuen vor. Verzerrte Standardfehler können die Folge sein. Homoskedastizität lässt sich über eine theoretisch geleitete Spezifikation des Modells sicherstellen, bei der die relevanten Variablen integriert werden.

Eine Überprüfung der Annahme kann ebenfalls über ein Streudiagramm erfolgen. Dabei werden auf der X-Achse die standardisierten vorhergesagten Werte und auf der Y-Achse die studentisierten Residuen abgetragen. In der grafischen Darstellung sollte schliesslich deutlich werden, dass die Residuen eine gleichmässige Streuung um die X-Achse aufweisen. Würde eine trichterförmige Verteilung der Datenpunkte auftreten, müsste dagegen Heteroskedastizität angenommen werden. In SPSS lässt sich ein solches Diagramm ebenfalls über die Schaltfläche „Diagramme“ im Menü „Lineare Regression“ erstellen. Für die Y-Achse wird „*SRESID“, für die X-Achse „ZPRED“ ausgewählt und anschliessend mit „Weiter“ bestätigt. Im Ergebnis erhält man das nachfolgende Diagramm:

Diagrammoptionen Homoskedastizit

 

Streudiagramm Homoskedastizit

 

Über die Syntax kann das Streudiagramm zur Diagnose der Homoskedastizität über die zusätzliche Zeile „/SCATTERPLOT=(*SRESID ,*ZPRED)“ unter dem Befehl der linearen Regression angefordert werden:

 

REGRESSION
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT wahlbeteiligung
  /METHOD=ENTER sterblichkeit bildungsniveau urbanisation bip wahlpflicht
  /SCATTERPLOT=(*SRESID ,*ZPRED).

 

Zudem besteht die Möglichkeit eines Nachweises mit einem statistischen Test, z. B. dem Breusch-Pagan-Test, der über das Menü via „Analysieren“, „Allgemeines lineares Modell“ und schliesslich „Univariat“ zu erreichen ist. Nach Festlegung der Modellvariablen kann der Test unter der Schaltfläche „Optionen“ aktiviert werden. Ist der Signifikanzwert > 0,05, so kann die Annahme von Homoskedastizität bestätigt werden.

Normalverteilung der Residuen

Analog zu einer gleichen Streuung der Residuen sollten diese ausserdem einer Normalverteilung für jeden Wert der X-Variablen folgen. Die Normalverteilung der Residuen dürfte zu den bekanntesten und am häufigsten überprüften Modellannahmen gehören. Regressionsmodelle sind vor allem bei kleinen Fallzahlen für eine Verletzung der Annahme anfällig, sodass insbesondere in diesem Fall eine Überprüfung angezeigt ist. Hier kann ebenfalls eine grafische Überprüfung erfolgen, indem Normal-Probability-Plots der Stichprobenresiduen angefertigt werden.

Auch dieses Diagramm ist über die Schaltfläche „Diagramme“ im Dialogfeld „Lineare Regression“ zu erreichen. Hier wird nun das Kontrollkästchen „Normalverteilungsdiagramm“ aktiviert (alternativ kann die Normalverteilung der Residuen auch mithilfe eines Histogramms im selben Dialogfeld geprüft werden). Die Normalverteilung der Residuen kann nun anhand der diagonalen Linie überprüft werden, die als Referenzmarke dient. Wenn die Datenpunkte eng auf oder um die Linie liegen, kann eine Normalverteilung der Residuen geschlussfolgert werden.

Diagrammoptionen Normalverteilungsdiagramm

 

Regressionsdiagnostik in SPSS

In der SPSS-Syntax wird hierfür analog zu den o. g. Befehlen erneut eine Befehlszeile „/RESIDUALS NORMPROB(ZRESID)“ hinzugefügt:

 

REGRESSION
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT wahlbeteiligung
  /METHOD=ENTER sterblichkeit bildungsniveau urbanisation bip wahlpflicht
  /RESIDUALS NORMPROB(ZRESID).

 

Alternativ kann der Kolmogorov-Smirnov-Test Anwendung finden. Hierfür müssen die (studentisierten) Residuen zunächst als neue Variable gespeichert werden. Im Dialogfeld „Lineare Regression“ steht hierfür die Schaltfläche „Speichern“ zur Verfügung. Anschliessend wird im Bereich „Residuen“ nun „Studentisiert“ ausgewählt und mit „Weiter“ bestätigt.

 

Dialogfeld Lineare Regression Statistiken

 

Diagrammoption speichern

 

Die resultierende Variable wird dann im Zuge der „Explorativen Datenanalyse“ untersucht, die sich unter „Analysieren“ und anschliessend „Deskriptive Statistik“ findet. Hier wird die Schaltfläche „Diagramme“ ausgewählt und dann das Häkchen „Normalverteilungsdiagramm mit Tests“ aktiviert.

 

Menüführung explorativ

 

Dialogfeld explorativ

 

Explorativ Diagrammoptionen

 

Im vorliegenden Fall zeigt sich, dass sowohl Kolmogorov-Smirnov- als auch Shapiro-Wilk-Test nicht signifikant sind. Beide Tests sprechen somit für die Annahme der Normalverteilung der Residuen. Fallen die Tests signifikant aus (p < 0,05), so sind Zweifel an dieser Annahme gerechtfertigt.

Test auf Normalverteilung

Kolmogorov-Smirnova Shapiro-Wilk
Studentized Residual Statistik df Signifikanz Statistik df Signifikanz
Studentized Residual 0,126 25 ,200* 0,947 24 0,213

*. Dies ist eine untere Grenze der echten Signifikanz
a. Signifikanzkorrektur nach Lilliefors

Das Speichern der studentisierten Residuen über die Syntax erfolgt über die zusätzliche Befehlszeile „ /SAVE SRESID“. Die anschliessende explorative Analyse inkl. Test auf Normalverteilung der standardmässig benannten Residuenvariable „SRE_1“ wird mit den auf „EXAMINE VARIABLES=SRE_1“ folgenden Befehlen ausgelöst.

 

REGRESSION
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT wahlbeteiligung
  /METHOD=ENTER sterblichkeit bildungsniveau urbanisation bip wahlpflicht
  /SAVE SRESID.
EXAMINE VARIABLES=SRE_1
  /PLOT BOXPLOT STEMLEAF NPPLOT
  /COMPARE GROUPS
  /STATISTICS DESCRIPTIVES
  /CINTERVAL 95
  /MISSING LISTWISE
  /NOTOTAL.

 

Unabhängigkeit der Residuen

Zudem sollte das Regressionsmodell die Bedingung erfüllen, dass die Residuen untereinander keine Korrelation aufweisen, d. h. unabhängig sind. In diesem Fall läge eine zu vermeidende Autokorrelation vor. Im Regelfall tritt dieses Problem nicht auf, da meist Querschnittsdaten analysiert werden. Bei Längsschnittanalysen oder bei räumlicher Klumpung in Querschnittsdaten ist man dagegen häufiger mit der Autokorrelation konfrontiert. Will man das Modell dennoch auf Autokorrelation testen, so steht als statistischer Test die Durbin-Watson-Statistik zur Verfügung.

Der Test wird über die Schaltfläche „Statistiken“ im Dialogfeld „Lineare Regression“ erreicht. Im folgenden Dialogfeld wird das Kästchen bei „Durbin-Watson“ aktiviert.

Dialogfeld Lineare Regression Statistiken

Statistikoptionen Lineare Regression

 

Die Tabelle der Modellzusammenfassung wird nun um die Spalte „Durbin-Watson-Statistik“ ergänzt. Der Wertebereich der Statistik liegt in der Regel im Bereich 0 bis 4. Ist der Wert > 3, so muss eine Autokorrelation der Residuen angenommen werden. Im vorliegenden Fall beträgt der Wert etwa 2, sodass die Modellannahme erfüllt ist. Der Test ist allerdings nur dann anwendbar, wenn die Fälle im Datensatz sinnvoll sortiert sind, bspw. nach einer zeitlichen Abfolge im Falle von Längsschnittdaten. Bei einem Querschnittsdatensatz ist dies normalerweise nicht der Fall. Eine grafische Untersuchung von Autokorrelation ist daher ggf. vorzuziehen.

Modellzusammenfassungb

Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Durbin-Watson-Statistik
1 ,839a 0,703 0,625 7,69729 2,059

a. Einflussvariablen: (Konstante), Wahlpflicht, Bruttoinlandsprodukt, Bildungsniveau, Urbanisationsgrad, Kindersterblichkeit
b. Abhängige Variable: Wahlbeteiligung

Die Syntax zur Generierung einer linearen Regression wird für die Durbin-Watson-Statistik um die Zeile „ /RESIDUALS DURBIN“ ergänzt:

 

REGRESSION
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT wahlbeteiligung
  /METHOD=ENTER sterblichkeit bildungsniveau urbanisation bip wahlpflicht
  /RESIDUALS DURBIN.

 

Keine Korrelation von Residuen und X-Variablen

Schliesslich gehört ebenfalls zu den relevantesten Annahmen, dass Residuen und X-Variable keine Korrelation aufweisen. Liegt hier eine Korrelation vor, geht diese vermutlich auf den Zusammenhang zwischen einer unbeobachteten unabhängigen Variable zurück, die für die Erklärung der abhängigen Variable relevant ist und zugleich mit der bereits berücksichtigten X-Variable korreliert. Auch diese Annahme lässt sich also über eine theoretisch fundierte Modellspezifikation sicherstellen. Will man die Annahme dennoch überprüfen, ist dies mithilfe bivariater Zusammenhangsanalysen möglich.

Zusammenfassung

Modellannahmen der linearen Regression:

  • Keine einflussreichen Beobachtungen bzw. Ausreisser.
  • Lineare Beziehung zwischen unabhängigen Variablen und abhängiger Variable.
  • Unabhängige Variablen haben metrisches oder dichotomes Skalenniveau.
  • Weder für die abhängige Variable noch für die unabhängige Variable liegen zufällige oder systematische Fehler vor.
  • Die Varianz der unabhängigen Variablen ist grösser 0.
  • Unter den unabhängigen Variablen bestehen keine perfekten Korrelationen.
  • Die Fallzahl der Regression entspricht mindestens der Anzahl der zu berechnenden Regressionskoeffizienten (inkl. Konstante).
  • Residuen gleichen sich nach oben und unten aus, besitzen einen Mittelwert von 0.
  • Gleiche Streuung der Residuen (Homoskedastizität).
  • Keine Autokorrelation (Korrelation unter den Residuen).
  • Residuen sind normalverteilt.
  • Residuen und X-Variable korrelieren nicht.

Weiterführende Literatur:

  • Eckstein, P. P. (2017). Datenanalyse mit SPSS. Wiesbaden: Springer.
  • Steiner, E., Benesch, M. (2018). Der Fragebogen: Von der Forschungsidee zur SPSS-Auswertung. Stuttgart: UTB.
  • Wolf, C., Best, H. (Hrsg.) (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften.