Prüfung auf Normalverteilung und Diagrammerstellung in SPSS

Lesen Sie, wie Sie die Normalverteilungsannahme mithilfe verschiedener Methoden in SPSS überprüfen und wie Sie die Diagrammfunktion nutzen.

Sebastian | 02.02.2023 | Lesedauer 7 min

Die Überprüfung der Datenverteilung ist meist ein Zwischenschritt, bevor weitere empirische Analysen durchgeführt werden. Zum einen hilft uns ein Überblick über die Datenverteilung dabei, Muster in grossen Datenmengen zu erkennen. Zum anderen ist die Normalverteilung von Variablen eine häufige Voraussetzung für die Anwendung bestimmter statistischer Verfahren.

Dieser Beitrag zeigt zunächst, wie Variablen in SPSS auf Normalverteilung geprüft werden. Dabei kommen sowohl statistische Tests als auch grafische Verfahren zum Einsatz. Unter letztere fällt vor allem die Erstellung eines Histogramms.

Im zweiten Teil des Beitrags wird die direkte Erstellung einiger Diagrammarten in SPSS beschrieben. Mithilfe dieser Diagramme kann z. B. die Häufigkeits- bzw. Datenverteilung einer nominalen bzw. kategorialen Variable visualisiert werden.

Grundsätzlich bestehen bei SPSS zwei Alternativen, die gewünschten Berechnungen in das Programm einzugeben: via Menüleiste oder über einen Befehlscode, die sogenannte Syntax. Auf eine Eingabe mittels Menü geht der Beitrag ebenso ein wie auf die Eingabe via SPSS-Syntax.

Ist man im Umgang mit dem Programm fortgeschrittener, so lassen sich Arbeitsschritte über diese Syntax effizienter abarbeiten als über manuelle Menüeingaben. Auch bei Seminar- und Abschlussarbeiten wird häufig gefordert, der Arbeit die verwendete Syntax anzuhängen. Sie dient gleichzeitig als von aussen nachvollziehbares Protokoll der Arbeitsschritte.

Test auf Normalverteilung in SPSS

Einen Test auf Normalverteilung führen wir anhand eines beispielhaften Länderdatensatzes durch. Eine der enthaltenen Variablen ist die Wachstumsrate des Bruttoinlandsproduktes pro Kopf. Wir nehmen an, dass diese Variable für die spätere Anwendung eines statistischen Verfahrens normalverteilt sein sollte. Um diese Voraussetzung zu überprüfen, wird zunächst der Datensatz in das Programm geladen.

Normalverteilung und Diagrammerstellung in SPSS

An die gewünschten Diagramme und statistischen Tests auf Normalverteilung gelangen wir über das Programmmenü, indem wir «Analysieren», «Deskriptive Statistiken» und schliesslich «Explorative Datenanalyse» wählen.

Normalverteilung und Diagrammerstellung in SPSS

Nachdem sich das Dialogfeld «Explorative Datenanalyse» geöffnet hat, erkennen wir analog zu zahlreichen anderen Dialogfeldern in SPSS auf der linken Seite eine Liste der im Datensatz verfügbaren Variablen. Im ersten Schritt markieren wir in dieser Liste jene Variable, deren Verteilung wir überprüfen wollen, und verschieben sie mithilfe des oberen blauen Pfeils in das Feld «Abhängige Variablen». In diesem Fall handelt es sich um die Variable, die die Wachstumsrate des Bruttoinlandsproduktes pro Kopf (Gross Domestic Product/GDP per Capita) enthält.

Über das Feld «Faktorenliste» besteht die Möglichkeit, die gewünschten Statistiken und Tests nach bestimmten Gruppen im Datensatz aufzuschlüsseln. Bevor wir z. B. einen t-Test für unabhängige Stichproben durchführen, um Mittelwertunterschiede zwischen den Geschlechtern zu untersuchen, können wir zusätzlich das Geschlecht in die Faktorenliste aufnehmen. So könnten wir die Frage beantworten, ob die Normalverteilungsvoraussetzung der abhängigen Variable innerhalb beider Gruppen erfüllt ist.

Normalverteilung und Diagrammerstellung in SPSS

Über die Schaltfläche «Statistiken» besteht die Möglichkeit, sich deskriptive Statistiken der gewählten Variable ausgeben zu lassen. Wir lassen die Standardeinstellung unverändert, sodass das Häkchen bei «Deskriptive Statistik» aktiviert bleibt. Mit «Weiter» kehren wir zurück ins ursprüngliche Dialogfeld.

Normalverteilung und Diagrammerstellung in SPSS

Zentral für die Prüfung auf Normalverteilung ist die nächste Schaltfläche «Diagramme». Hier können wir zunächst einstellen, welche Form eines Boxplots ausgegeben wird. Da wir lediglich eine abhängige Variable und keine Faktoren definiert haben, kann die Standardeinstellung «Faktorstufen zusammen» unverändert bleiben. Für unsere Zwecke relevanter sind die Kontrollkästchen unter «Deskriptive Statistik», wobei wir das Kontrollhäkchen bei «Histogramm» aktivieren. Über ein solches Histogramm haben wir eine zusätzliche Möglichkeit, die Normalverteilung der Variable zu beurteilen.

Darüber hinaus aktivieren wir das Kontrollkästchen neben «Normalverteilungsdiagramm mit Tests». Über diese Option erhalten wir neben den Tests auf Normalverteilung (Kolmogorov-Test und Shapiro-Wilk-Test) Normalverteilungsdiagramme in Form von Quantil-Quantil-Diagrammen (Q-Q-Diagramme). Schliesslich können wir die Auswahl mit einem Klick auf «Weiter» bestätigen und kehren damit ins ursprüngliche Menü zurück.

Normalverteilung und Diagrammerstellung in SPSS

Da die übrigen Schaltflächen «Optionen» und «Bootstrap» für eine Überprüfung der Normalverteilung nicht benötigt werden, sind alle notwendigen Einstellung vorgenommen und wir können mit einem Klick auf «OK» die Ausgabe produzieren.

Die Ausgabe beginnt mit einer Zusammenfassung der Fallverarbeitung, sodass die Anzahl der gültigen und fehlenden Fälle resümiert wird. Die folgende Tabelle «Deskriptive Statistik» enthält eine Vielzahl statistischer Kennzahlen, die teilweise bereits Hinweise zur Beurteilung der Normalverteilung enthalten. So ist in diesem Fall der Median kleiner als der Mittelwert, was auf eine leicht linkssteile (rechtsschiefe) Datenverteilung hindeutet.

Die Symmetrie der Verteilung kann zusätzlich mit der Schiefe beurteilt werden, die separat ausgewiesen wird. Je symmetrischer eine Verteilung ist, desto stärker nähert sich der Wert 0 an. Ist die Verteilung linkssteil (rechtsschief), so nimmt die Kennzahl wie im vorliegenden Fall ein positives Vorzeichen an. Eine rechtssteile (linksschiefe) Verteilung würde zu einem negativen Vorzeichen führen.

Eine weitere ausgewiesene Kennzahl mit Relevanz für die Beurteilung der Normalverteilung ist die Kurtosis. Die Kurtosis gleicht die Randverteilung der ausgewählten Variable mit der Normalverteilung ab. Im Sinne der Voraussetzung der Normalverteilung ist auch hier ein Wert nahe 0 wünschenswert. Auch die Kurtosis kann ein negatives oder positives Vorzeichen annehmen. Sind die Randbereiche stärker als bei einer Normalverteilung ausgeprägt, erhält man ein positives Vorzeichen. Umgekehrt wird das Vorzeichen negativ, wenn wir Randverteilungen haben, die schwächer sind als bei einer Normalverteilung zu erwarten.

Zuletzt deutet die Standardabweichung darauf hin, dass sich die Werte um die Mitte der Verteilung häufen und somit eine Normalverteilung vorliegen könnte. Eine abschliessende Beurteilung ist jedoch erst nach Betrachtung der folgenden Ausgabe möglich.

Konkret folgt nun die Tabelle «Test auf Normalverteilung», die die Ergebnisse des Kolmogorov-Tests und Shapiro-Wilk-Tests enthalten. Dabei interessieren wir uns vor allem für die Signifikanzwerte. Sind die Werte p < .05, so müssen wir die Nullhypothese der Normalverteilung wie im vorliegenden Fall ablehnen.

Normalverteilung und Diagrammerstellung in SPSS

Auch anhand der folgenden Diagramme können wir mögliche Ursachen für die Testergebnisse des Kolmogorov-Tests und Shapiro-Wilk-Tests näher beleuchten. Dargestellt werden Histogramm, Q-Q-Diagramme sowie ein Boxplot. Nach Betrachtung der Diagramme wird die Ursache für die Testergebnisse deutlich. Demnach sorgen wenige Datenpunkte am oberen Ende der Verteilung dafür, dass die Annahme der Normalverteilung verletzt ist. Trotzdem kommt die Verteilung laut Histogramm und Q-Q-Diagrammen einer Normalverteilungskurve recht nahe.

Für die weiteren Analysen besteht also die Möglichkeit, die Datenausreisser zu identifizieren und auszuschliessen, um die Normalverteilung zu gewährleisten. Der Boxplot weist diese Ausreisser gesondert mit Fallnummern aus, sodass man diese Fälle vor Beginn der nächsten Analyseschritte leicht ausschliessen kann.

Normalverteilung und Diagrammerstellung in SPSS

Normalverteilung und Diagrammerstellung in SPSS

Die gezeigte Ausgabe wird mithilfe des folgenden Befehls alternativ über die Syntax produziert. Mit «EXAMINE VARIABLES» wird die Ausgabe einer explorativen Datenanalyse eingeleitet, bevor der Variablenname spezifiziert wird (hier: EconGrowth). Mit den folgenden Zeilen legt man fest, welche optionalen Tests und Diagramme das Programm ausgeben soll.

 

EXAMINE VARIABLES=EconGrowth
  /PLOT BOXPLOT HISTOGRAM NPPLOT
  /COMPARE GROUPS
  /STATISTICS DESCRIPTIVES
  /CINTERVAL 95
  /MISSING LISTWISE
  /NOTOTAL.

Die Erstellung von Diagrammen in SPSS

Neben dem Weg über die explorative Datenanalyse hat man in SPSS die Möglichkeit, unterschiedlichste Diagramme direkt ausgeben zu lassen. Die Wahl des jeweiligen Diagramms richtet sich vor allem nach der Beschaffenheit der interessierenden Variable und dem Zweck der Darstellung. Um einen deskriptiven Überblick über eine metrisch skalierte Variable zu gewinnen, bieten sich z. B. Boxplot oder Histogramm an.

Im Menü gelangt man über «Grafik», «Klassische Dialogfelder» und schliesslich «Histogramm» an diese Visualisierungsform. Alternativ kann aus dieser Liste auch der Boxplot ausgewählt werden.

Normalverteilung und Diagrammerstellung in SPSS

Anschliessend öffnet sich ein Dialogfeld, in dem von der linken Seite erneut die interessierende Variable ausgewählt und mithilfe des oberen blauen Pfeils in das Feld «Variable» verschoben wird. Mit einem zusätzlichen Klick auf das Kontrollkästchen «Normalverteilungskurve anzeigen» erleichtert man sich die Beurteilung, ob eine Normalverteilung vorliegt. Nach einem Klick auf «OK» wird das Histogramm ausgegeben.

Über die Syntax kann das Histogramm inklusive Normalverteilungskurve wie folgt produziert werden:

GRAPH
  /HISTOGRAM(NORMAL)=EconGrowth.

Normalverteilung und Diagrammerstellung in SPSS

Normalverteilung und Diagrammerstellung in SPSS

Die Auswahl eines geeigneten Diagramms richtet sich auch nach dem Zweck der Visualisierung. Um einen Eindruck über die Häufigkeitsverteilung einer nominal bzw. kategorial skalierten Variable zu erhalten, sind alternative Visualisierungsformen notwendig. Beispiele sind Balkendiagramme, Säulendiagramme oder Kreisdiagramme.

Auch diese Diagramme erreicht man über das Menü «Grafik», «klassische Dialogfelder». Wir interessieren uns für eine nominal skalierte Variable, die den Ländern im Datensatz die Kategorien «free», «partly free» oder «not free» zuweist (Freedom-House-Kategorien). Für die grafische Darstellung eignet sich z. B. das Kreisdiagramm, zu dem wir nach einem Klick auf «Kreis…» gelangen.

Normalverteilung und Diagrammerstellung in SPSS

SPSS fragt nun u. a. danach, ob eine Variable isoliert oder in Kombination mit anderen Variablen betrachtet werden soll. In diesem Fall ist ausschliesslich die Auswertung über Kategorien einer einzigen Variable gewünscht, sodass wir die Vorauswahl unverändert lassen und auf «Definieren» klicken.

Normalverteilung und Diagrammerstellung in SPSS

Im folgenden Dialogfeld muss die entsprechende Variable dann in der Variablenliste auf der linken Seite markiert und mithilfe des mittleren blauen Pfeils in das Feld «Ausschnitte definieren durch» verschoben werden. Oben wählen wir zudem «% der Fälle» aus, sodass die Ausschnitte des Kreisdiagramms den prozentualen Anteilen der Fälle entsprechen. Über die Schaltfläche «Optionen» könnten wir z. B. zusätzlich auswählen, dass das Kreisdiagramm nicht nur gültige Fälle berücksichtigt, sondern auch fehlende Fälle der Variable als eigenen Ausschnitt ausweist. Mit einem Klick auf «OK» wird abschliessend das Diagramm erstellt.

Normalverteilung und Diagrammerstellung in SPSS

Das erstellte Diagramm bietet eine erste Übersicht über die Häufigkeitsverteilung der Variable und visualisiert in diesem Fall, dass die meisten Länder im Datensatz der Kategorie «free» zugeordnet sind. Vor der Verwendung in einer wissenschaftlichen Seminar- oder Abschlussarbeit kann das Diagramm um Wertebeschriftungen ergänzt werden.

Normalverteilung und Diagrammerstellung in SPSS

Nach einem Doppelklick auf das Diagramm in der Ausgabe öffnet sich der Diagrammeditor. Links über dem Diagramm findet sich die Schaltfläche «Diagrammbeschriftungen einblenden», mit deren Hilfe sich die prozentualen Anteilswerte im Diagramm ergänzen lassen.

Normalverteilung und Diagrammerstellung in SPSS

Ein Kreisdiagramm kann über die folgende Syntax angefordert werden:

GRAPH
  /PIE=PCT BY fhcat14.

Zusammenfassend folgt eine Liste der gängigsten Diagrammtypen mit ihrem jeweiligen Zweck:

  • Histogramm
    • Darstellung der Häufigkeitsverteilung in Säulenform unter Zusammenfassung von Fällen bzw. Bildung von Klassen (Intervallen)
  • Boxplot
    • Darstellung von deskriptiven Lage- und Streumassen
  • Liniendiagramm
    • Darstellung von Daten im (Zeit-)Verlauf
  • Kreisdiagramm
    • Darstellung von Teilen innerhalb eines Ganzen
  • Balkendiagramm bzw. Säulendiagramm
    • Häufigkeitsverteilung in Säulen- bzw. Balkenform bzw. Gegenüberstellung von Mittelwerten und Streuungen (in Form von Standardabweichung oder Standardfehler)

Weiterführende Literatur:

Bühl, A. (2018). SPSS: Einführung in die moderne Datenanalyse ab SPSS 25. Hallbergmoos: Pearson.

Eckstein, P. P. (2017). Datenanalyse mit SPSS. Wiesbaden: Springer.

Steiner, E., Benesch, M. (2018). Der Fragebogen: Von der Forschungsidee zur SPSS-Auswertung. Stuttgart: UTB.