Normalverteilung und andere Formen der Datenverteilung

Lesen Sie die Grundlagen verschiedener Datenverteilungen sowie Verteilungsfunktionen und wenden Sie grafische und statistische Tests auf Normalverteilung korrekt an.
Redaktion | 11.05.2022 | Lesedauer 5 min

Der Begriff der Datenverteilung findet sowohl bei der deskriptiven als auch in der induktiven Statistik Anwendung. Während im deskriptiven Fall die Lage gemessener Werte beschrieben wird, dient die Datenverteilung in der Inferenzstatistik in Form einer Dichtefunktion zur Abschätzung von Wahrscheinlichkeiten. Im Folgenden erfolgt eine kurze Übersicht über mögliche Datenverteilungen, bei der ein Fokus auf die Normalverteilung gelegt wird. Hintergrund ist der Umstand, dass Daten als Voraussetzung für viele statistische Tests auf ihre Normalverteilung geprüft werden müssen.

 


Stetige und diskrete Daten

Grundsätzlich muss zunächst zwischen stetigen und diskreten Daten differenziert werden. Diskrete Daten liegen dann vor, wenn innerhalb eines Wertebereichs nur bestimmte Werte, häufig ganze Zahlen, angenommen werden können. Das ist z. B. bei einem Würfel der Fall, bei dem ausschliesslich die Werte 1, 2, 3, 4, 5 oder 6 möglich sind. Misst man hingegen das Körpergewicht von Personen, so resultiert eine stetige Verteilung von Werten, da hier jeder denkbare (Zwischen-)Wert möglich ist.

Die Unterscheidung zwischen diskreten und stetigen Daten hat u. a. Konsequenzen für die Erstellung von Diagrammen. Bei diskreten Daten können Säulendiagramme verwendet werden, wobei jeder Balken die Häufigkeit bzw. Wahrscheinlichkeit eines (diskreten) Wertes darstellt. Stetige Daten verlangen hingegen aufgrund der potenziell unbegrenzten Anzahl an Werten eine Einteilung in Wertintervalle, die mithilfe eines Histogramms dargestellt werden.

 


Normalverteilung und Prüfung auf Normalverteilung

Die Normalverteilung oder Gauss-Verteilung begegnet uns bspw. bei der Verteilung des Intelligenzquotienten oder der Körpergrösse von Personen in einer Population. Die typische Glockenform (oder: Gauss’sche Glockenkurve) ergibt sich durch eine Kumulation von Werten innerhalb des möglichen Wertebereichs. Wiederholt man eine Messung sehr häufig, so beobachtet man eine Häufung von Werten bei diesem sog. Erwartungswert. Aus dieser Gesetzmässigkeit ergibt sich die hohe Bedeutung der Normalverteilung in der Inferenzstatistik.

Im unten genannten Beispiel der Gewichte kann der Erwartungswert erahnt werden: Die Trainierenden an diesem Gerät stellen das Gewicht im Durchschnitt auf 60 Pfund ein. Werden die Einstellungen aller Personen an diesem Gerät innerhalb eines gegebenen Zeitraums erhoben und notiert, kann hieraus ein Datensatz erstellt werden. Dieser wiederum ist Grundlage für eine Darstellung als Säulendiagramm.

Abbildung 1; Tweet: (Annähernde) Normalverteilung der Muskelkraft einer Stichprobe, die an den Gebrauchsspuren der Gewichte ablesbar ist.

Normalverteilung

Abbildung 2: Normalverteilung der Muskelkraft einer Stichprobe.

 

Statistikprogramme bieten anschliessend die Möglichkeit, dieses Säulendiagramm auf Normalverteilung zu überprüfen. Das ist beispielsweise nötig, wenn man die Muskelkraft als abhängige Variable in einem linearen Regressionsmodell verwenden will.

Während die Skalierung der Gewichte auf der x-Achse eingetragen wird (zur Illustration werden gleiche Differenzen zwischen den Gewichten angenommen), wird auf der y-Achse die Anzahl der Personen eingetragen, die die entsprechenden Gewichte heben. Dabei wurden die Trainingsgewohnheiten von 23 Personen erfasst. Wie erwartet, heben die meisten Personen 60 Pfund, während die Anzahl der Personen bei kleineren oder grösseren Gewichten kontinuierlich abnimmt. Die Extremwerte der Gewichte von 5 Pfund und 115 Pfund kommen schliesslich nur noch sehr selten vor.

Mithilfe von Statistikprogrammen kann dem Diagramm zudem eine Normalverteilungskurve hinzugefügt werden (rote Linie). Die Normalverteilungskurve stellt zugleich die Dichtefunktion der Normalverteilung dar, anhand derer Wahrscheinlichkeiten für Werte einer Zufallsvariable abgelesen werden können. Durch einen Abgleich der Daten mit der Linie beurteilt man schliesslich, ob die Daten annähernd normalverteilt sind. Im hier verwendeten Beispiel zeigt sich, dass die Annahme einer Normalverteilung bestätigt werden kann, da die Abweichungen von der Normalverteilungskurve nur gering sind.

Normalverteilung

Abbildung 3: Rechtsschiefe bzw. linkssteile Verteilung

 

Eine Normalverteilung kann meist auch dann noch angenommen werden, wenn keine perfekt symmetrische Verteilung vorliegt. Fällt die Verteilung der Daten asymmetrisch aus, spricht man von schiefen Verteilungen. Kumulieren die Werte in einem geringen Wertebereich, so liegt eine rechtsschiefe (bzw. linkssteile) Verteilung vor. Umgekehrt handelt es sich um eine linksschiefe (bzw. rechtssteile) Verteilung, wenn eine Konzentration im oberen Wertebereich zu erkennen ist. Zur Überprüfung auf Normalverteilung wird daher auch die statistische Kennzahl der Schiefe der Verteilung herangezogen.

Normalverteilung

Abbildung 4: Linksschiefe bzw. rechtssteile Verteilung

Gewicht Anzahl 60,00 8
5,00 1 65,00 9
10,00 1 70,00 11
15,00 1 75,00 13
20,00 1 80,00 14
25,00 1 85,00 15
30,00 2 90,00 17
35,00 3 95,00 18
40,00 4 100,00 17
45,00 5 105,00 10
50,00 6 110,00 3
55,00 7 115,00 1

Neben einer grafischen Beurteilung empfiehlt es sich, zusätzlich einen inferenzstatistischen Test auf Normalverteilung durchzuführen. Hierbei können der Shapiro-Wilk-Test sowie der Kolmogorov-Smirnov-Test angewendet werden. Aufgrund seiner höheren statistischen Aussagekraft sollte jedoch der Shapiro-Wilk-Test präferiert werden. Die Nullhypothesen der Tests lauten dabei, dass die Daten normalverteilt sind. Ist der Signifikanzwert des Tests also p > 0,05, so ist die Normalverteilung der Daten inferenzstatistisch bestätigt. Liegt eine schiefe Verteilung vor, so können die Daten in eine Normalverteilung transformiert werden (siehe weiterführende Literatur).

 


Weitere exemplarische Formen der Datenverteilung und Dichtefunktionen

Zuletzt sollen in Kürze noch andere Formen der Datenverteilung vorgestellt werden. Eine Gleichverteilung von Werten ist sowohl bei diskreten als auch stetigen Variablen möglich. Die Grundidee dabei lautet, dass die Werte keine Neigung zu bestimmten Wertebereichen haben. Dies ist im o. g. Beispiel des Würfels der Fall. Jede Augenzahl hat dabei die gleiche Wahrscheinlichkeit, nach dem Wurf oben zu liegen. Das nachfolgende Diagramm zeigt beispielhaft die annähernde Gleichverteilung der Augenzahlen nach 60 Würfen. Auch die Häufigkeiten von Kopf und Zahl bei zigfachem Münzwurf sind gleichverteilt.

Normalverteilung

Abbildung 4: Gleichverteilung: Annähernde Gleichverteilung der Augenzahlen nach 60 Würfen.
Exponentialverteilungen werden häufig verwendet, um die Entwicklung von Werten über die Zeit zu beschreiben oder zu modellieren. Eines der derzeit wohl bekanntesten Beispiele ist die Inzidenz im Zuge der Corona-Pandemie. Bei einer akuten Infektionswelle verdoppeln sich dabei die Fallzahlen innerhalb eines gegebenen Zeitraums. Je kürzer dieser Zeitraum ausfällt, desto steiler fällt der Anstieg der Fallzahlen aus.

Die Gefahr einer solchen Pandemie wird anhand der folgenden Grafik deutlich. Am ersten Tag des Beobachtungszeitraums sind nur zwei Personen infiziert. Steckt anschliessend jede Person zwei weitere an (im Kontext der Pandemie R-Wert oder Reproduktionszahl R), so ergibt sich bis zum 15. Tag des Beobachtungszeitraums bereits eine Fallzahl von über 30.000. Die Zeiträume zur Verdopplung der Fallzahlen werden zum Ende des Beobachtungszeitraums immer kleiner.

Normalverteilung

Abbildung 5: Exponentieller Anstieg (der Fallzahl)

 

Normalverteilung, Gleichverteilung und Exponentialverteilung sind nur einige Typen der Datenverteilung. So ist eine logarithmische Verteilung eine Umkehrfunktion der Exponentialverteilung. Auch wird z. B. die Poisson-Verteilung verwendet, um die Anzahl von Ereignissen innerhalb einer festgelegten Zeitspanne abzuschätzen (bspw. die Störfälle eines Atomkraftwerks innerhalb eines 10-Jahres-Zeitraums). Äquivalent zu allen Formen der Datenverteilung kann eine Dichtefunktion bzw. Verteilungsfunktion formuliert werden, die wie im beschriebenen Fall der Normalverteilung die Berechnung von Wahrscheinlichkeiten ermöglicht. Für detailliertere Informationen und Hinweise lohnt sich daher ein Blick in die weiterführende Literatur.

 


Weiterführende Literatur:

  • Bühner, M., Ziegler, M. (2009). Statistik für Psychologen und Sozialwissenschaftler. München: Pearson Deutschland GmbH.
  • Rasch, B., Friese, M., Hofmann, W., Naumann, E. (2014). Quantitative Methoden 1: Einführung in die Statistik für Psychologen und Sozialwissenschaftler. Heidelberg: Springer.
  • Henze, N. (2021). Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. Berlin: Springer.