-Multiple- Lineare Regression – Funktionsweise und Berechnung mit SPSS

Lesen Sie, wie lineare Regressionen funktionieren und wie Sie Regressionsmodelle in SPSS berechnen und interpretieren.

Erfolg seit 2004

Dieser Beitrag widmet sich der linearen Regressionsanalyse in SPSS. Das lineare Regressionsmodell stellt neben weiteren denkbaren Regressionsanalysen (bspw. binär-logistische Regression) nur eine statistische Methode dar. Zunächst kann ausserdem zwischen einer linearen Einfachregression und einer multiplen linearen Regression unterschieden werden. Im Falle der linearen Einfachregression fliessen nur zwei Variablen in das Modell ein: eine unabhängige (oder erklärende) sowie eine abhängige (oder erklärte) Variable. Dagegen erklärt man die abhängige Variable in einem multiplen linearen Regressionsmodell durch zwei oder mehr unabhängige Variablen.

Die Funktionsweise linearer Regressionsmodelle ist leicht zugänglich. Stellt man sich ein Streu- bzw. Punktdiagramm vor, versucht man mit einem solchen Modell die Werte auf der Y-Achse (abhängige Variable) durch eine oder mehrere Variable(n) auf der X-Achse zu erklären. Dabei wird eine lineare Regressionslinie, die den tatsächlichen Werten möglichst nahekommt, durch die Datenpunkte des Diagramms gezogen. Im Modell geht man daher von einem linearen Zusammenhang aus, der natürlich nur eine möglichst exakte Annäherung an die Realität ist.

SPSS lineare Regression

Praktisch wird dies anhand des Diagramms deutlicher. Wir versuchen naheliegenderweise, das Körpergewicht von Personen in unserem Datensatz durch ihre Körpergrösse zu erklären. Zu erkennen ist, dass eine höhere Körpergrösse durchschnittlich mit höheren Gewichtswerten einhergeht. Diesem durchschnittlichen Zusammenhang nähert man sich mithilfe der abgebildeten Regressionslinie an. Aus der positiven Steigung der Linie können wir ableiten, dass zwischen den Variablen ein positiver Zusammenhang besteht („je mehr, desto mehr“).

Einzelne untersuchte Personen, die trotz geringer Körpergrösse hohe Gewichtswerte oder trotz hoher Körpergrösse geringe Gewichtswerte vorweisen, verdeutlichen den näherungsweisen Modellcharakter der Regression. Die Abstände zwischen Regressionslinie und Datenpunkten (Residuen) wurden jedoch minimiert.

Im Folgenden wird ein Anwendungsfall der linearen Regressionsanalyse konkreter vorgestellt. Dabei werden einige Voraussetzungen hervorgehoben, die für die Anwendung eines linearen Regressionsmodells erfüllt sein sollten. Anschliessend werden die Berechnungsschritte in SPSS dargestellt.

Grundsätzlich bestehen bei SPSS zwei Alternativen, die gewünschten Berechnungen in das Programm einzugeben: via Menüleiste oder über einen Befehlscode, die sogenannte Syntax. Auf eine Eingabe mittels Menü geht der Beitrag ebenso ein wie auf die Eingabe via SPSS-Syntax.

Ist man im Umgang mit den Programm fortgeschrittener, so lassen sich Arbeitsschritte über diese Syntax effizienter abarbeiten als über manuelle Menüeingaben. Auch bei Seminar- und Abschlussarbeiten wird häufig gefordert, der Arbeit die verwendete Syntax anzuhängen. Sie dient gleichzeitig als von aussen nachvollziehbares Protokoll der Arbeitsschritte.

Vor der eigentlichen Regressionsanalyse sollten zunächst die wichtigsten Voraussetzungen für ihre Anwendung geprüft werden, die hier nur am Rande thematisiert werden. Zu diesen Voraussetzungen zählen:

  • Linearität des Zusammenhangs zwischen unabhängiger und abhängiger Variable,
  • Homoskedastizität, d. h. gleiche Varianz der Residuen,
  • annähernde Normalverteilung der Residuen,
  • keine Multikollinearität, d. h. kein statistischer Zusammenhang zwischen den unabhängigen Variablen (bei der multiplen linearen Regressionsanalyse),
  • möglichst keine Datenausreisser, die das Modell verzerren könnten.

 

Lineare Regression in SPSS

Wie bereits skizziert, wollen wir die Lebenszufriedenheit von 40 Personen zunächst nur durch ihre sportliche Aktivität erklären. Der entsprechende Datensatz wird in SPSS geladen.

SPSS Datensatz lineare Regression

Über das SPSS-Menü gelangt man zur linearen Regression, indem „Analysieren“, „Regression“ und anschliessend „Linear“ ausgewählt wird.

SPSS Menü lineare Regression

Das obere, rechte Feld ist zur Festlegung der abhängigen Variable bestimmt. Entsprechend wird aus der Gesamtliste der Variablen auf der linken Seite die relevante Variable markiert und in das genannte Feld verschoben.

SPSS Dialogfeld lineare Regression

Das Feld darunter dient der Festlegung der unabhängigen Variable. Auch hier werden die erklärenden Variablen wieder auf der linken Liste in die entsprechende Box verschoben. Die Differenzierung zwischen linearer Einfachregression und multipler linearer Regression spielt für Menüführung und Syntax in SPSS keine Rolle, da sich die beiden Varianten lediglich hinsichtlich der Anzahl der hinzugefügten unabhängigen Variablen unterscheiden. Die grundlegenden Spezifikationen für ein lineares Regressionsmodell sind damit bereits vorgenommen.

Als „Methode“ ist die Option „Einschluss“ voreingestellt. Mit der Methode wird festgelegt, auf welche Weise unabhängige Variablen in die Regression eingeschlossen werden. Je nach Einstellung resultiert eine unterschiedliche Anzahl an Regressionsmodellen. Die Voreinstellung hat zur Folge, dass nur ein Modell berechnet wird und alle unabhängigen Variablen gleichzeitig berücksichtigt werden. Alternativen liegen bspw. in einem schrittweisen Einschluss oder Ausschluss der unabhängigen Variablen.

SPSS Dialogfeld lineare Regression

Optional können in den unteren Feldern des Dialogfeldes weitere Einstellungen vorgenommen werden. So besteht über das Feld „Auswahlvariable“ die Möglichkeit, nur bestimmte Fälle in die Regression einfliessen zu lassen, bspw. wenn man nur männliche Personen oder solche aus einer bestimmten Region betrachten will. Darüber hinaus können Fälle beschriftet und eine Gewichtungsvariable aktiviert werden.

Über die Schaltfläche „Statistiken“ kann man genauere Modifikationen an der Ausgabe vornehmen. So sind die jeweiligen Kästchen zu aktivieren, sofern neben den Schätzern z. B. auch Konfidenzintervalle dargestellt werden sollen. Auch deskriptive Statistiken oder eine Kollinearitätsdiagnose als regressionsdiagnostisches Verfahren können mit ausgegeben werden.

Statistiken

SPSS Dialogfeld lineare Regression Statistiken

Optionen

SPSS Dialogfeld lineare Regression Optionen

Diagramme

SPSS Dialogfeld lineare Regression Diagramme

Der Umgang mit fehlenden Werten wird über die Schaltfläche „Optionen“ festgelegt. Hier kann bestimmt werden, ob bei fehlenden Werten ein listenweiser oder paarweiser Ausschluss erfolgen soll. Wird der listenweise Fallausschluss (Voreinstellung) gewählt, werden Fälle mit fehlenden Werten bei einer der beteiligten Variablen aus den Analysen ausgeschlossen. Die Fallzahl des Regressionsmodells kann sich also abhängig von der Anzahl fehlender Werte stark reduzieren.

Bei einem paarweisen Fallausschluss hingegen werden Fälle mit fehlendem Wert bei einer beteiligten Variable dennoch verwendet, da fallbezogene Werte für andere Variablen vorliegen. Es stehen mit dieser Methode also mehr Fälle für die Analyse zur Verfügung. Hierdurch ergibt sich jedoch möglicherweise das Problem, dass die Fallzahl innerhalb des Regressionsmodells stark variiert. Darüber hinaus ist SPSS in der Lage, fehlende Werte durch Variablenmittelwerte zu ersetzen. Auch dieses Verfahren geht mit einem Nachteil einher, da sich durch die Mittelwert-Methode die Varianz der betreffenden Variable zwangsläufig verkleinert.

Häufig will man bei linearen Regressionen Diagramme der Residuen anfertigen. Die Möglichkeit der gleichzeitigen Ausgabe dieser Diagramme bietet SPSS ebenfalls, konkret über das Dialogfeld „Diagramme“. So können diese Diagramme der standardisierten Residuen z. B. dabei helfen, die Voraussetzungen für ein Regressionsmodell im Rahmen der Regressionsdiagnostik zu prüfen.

 

Sind alle grundlegenden und ggf. optionalen Einstellungen vorgenommen, wird die Auswahl mit „OK“ bestätigt und das Programm berechnet das Regressionsmodell. Werden abgesehen von der Festlegung von unabhängiger und abhängiger Variable keine Voreinstellungen verändert, wird die nachfolgende Ausgabe produziert.

SPSS Ausgabe lineare Regression

SPSS Ausgabe lineare Regression

Der Abschnitt zu den aufgenommenen bzw. entfernten Variablen klärt darüber auf, wie viele Fälle infolge der Festlegung des Fallausschlusses nicht berücksichtigt werden konnten. Da in diesem Fall weder für die Körpergrösse noch für das Gewicht fehlende Werte vorliegen, fliesst der gesamte Datensatz in das Regressionsmodell ein.

Die anschliessende Modellzusammenfassung enthält Kennzahlen zur Beurteilung der Modellgüte. Im Mittelpunkt steht der R-Quadrat-Wert, der den Anteil der erklärten Varianz an der Gesamtvarianz der abhängigen Variable angibt. Entsprechend kann der R-Quadrat-Wert zwischen 0,0 (0 %) und 1,0 (100 %) liegen. In unserem Fall werden 58,9 % der Gesamtvarianz aufgeklärt. Würde es sich um einen realen Datensatz handeln, wäre das ein hoher Wert. Gleichzeitig verdeutlicht er, dass ein Teil der beobachteten Varianz ungeklärt ist. Das ist nicht überraschend, da das Körpergewicht einer Person nicht nur von ihrer Körpergrösse abhängt.

Im Mittelpunkt des Interesses steht der Abschnitt „Koeffizienten“. Hier werden die unabhängigen Variablen tabellarisch aufgelistet. Anhand des Regressionskoeffizienten kann geschlussfolgert werden, dass das Körpergewicht um durchschnittlich 1,42 kg steigt, wenn die Körpergrösse um eine Einheit (cm) erhöht wird. Der Koeffizient ist zudem statistisch signifikant mit p = 0,00. In einem multiplen linearen Regressionsmodell würden die Koeffizienten der weiteren unabhängigen Variablen analog interpretiert.

Um die dargestellte Ausgabe über die Syntax zu generieren, werden folgende Befehlszeilen in das Fenster eingegeben. Daneben besteht mit der weiteren angegebenen Variante die Möglichkeit, eine schlankere Ausgabe unter Verwendung der Voreinstellungen zu produzieren.

Die Syntax

*Variante 1

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Gewicht
/METHOD=ENTER Körpergröße
/SCATTERPLOT=(Gewicht.*ZPRED).


* Variante 2

REGRESSION
/DEPENDENT Gewicht
/METHOD=ENTER Körpergröße.

SPSS Syntax lineare Regression

Weiterführende Literatur

Eckstein, P. P. (2017). Datenanalyse mit SPSS. Wiesbaden: Springer.
Steiner, E., Benesch, M. (2018). Der Fragebogen: Von der Forschungsidee zur SPSS-Auswertung. Stuttgart: UTB.