Univariate Analyse deskriptiver Statistiken

Beschreibung von Variablen mithilfe univariater, deskriptiver Statistiken als Bestandteil jeder empirischen Arbeit.

Erfolg seit 2004

Der empirische Teil einer Studienarbeit beginnt in der Regel mit der Betrachtung univariater Statistiken von Variablen der Stichprobe. In Abgrenzung zu bivariaten Verfahren geht es hier zunächst darum, einen isolierten Überblick über die Verteilung einzelner Variablen zu gewinnen. Dieser Schritt erfolgt also vor der Prüfung der Arbeitshypothesen. Der Artikel bietet einen Überblick über die wichtigsten deskriptiven Lage- und Streumasse und ihre Einsatzbereiche. Auch grafische Verfahren können für eine Beurteilung deskriptiver Statistiken verwendet werden.


 

Lagemasse für metrisch skalierte Variablen

Der Begriff „deskriptiv“ steht synonym für „beschreibend“. Deskriptive Analysen meinen also eine Beschreibung der vorliegenden Daten. Repräsentative Schlussfolgerungen über die Stichprobe hinaus sind dagegen Ziele der induktiven Statistik oder Inferenzstatistik und werden dabei zunächst vernachlässigt.

Für eine Beschreibung von metrisch skalierten Variablen der Stichprobe stehen zahlreiche Lage- und Streumasse zur Verfügung. Wie die Bezeichnung bereits vermuten lässt, dienen Lagemasse zur Beschreibung von Positionen der Werte in einer Datenverteilung. Als Beispiel dient ein Datensatz, der den Intelligenzquotienten (IQ) von 10 befragten Personen erfasst:

Nr. des Befragten IQ
1 82
2 90
3 129
4 104
5 108
6 90
7 124
8 71
9 116
10 96

Eine sehr kompakte Darstellung verschiedener Lage- und Streumasse ist neben einer tabellarischen Übersicht mithilfe grafischer Verfahren möglich. Ein Beispiel für eine solche Grafik ist der Boxplot bzw. die Kastengrafik.

Dabei werden Maximum, Minimum, Mittelwert und Median der Verteilung dargestellt. Der graue Kasten gibt zudem die Lage der mittleren 50 % der Verteilung an, auch als Interquartilsabstand bezeichnet. Darüber und darunter liegen folglich jeweils 25 % der Werte.

Boxplot – deskriptive Statistik

Möchte man die Stichprobe nun mit Blick auf die Verteilung des IQ beschreiben, bieten sich als Lagemasse arithmetischer Mittelwert, Median und Modus an. Ein bekanntes Mass ist das arithmetische Mittel oder der Durchschnitt der Verteilung, der sich aus einer Summierung der Altersangaben und einer anschliessenden Division durch die Anzahl der Altersangaben ergibt. Daraus lässt sich ableiten, dass die Stichprobe einen Durchschnitts-IQ von 101 hat.

Der Durchschnittswert ist jedoch in seiner Aussagekraft begrenzt. Der Median gibt darüber hinaus an, bei welchem Wert sich die Verteilung in zwei gleich grosse Hälften teilt. In unserem Beispiel liegt dieser Wert bei 100, sodass sich darunter und darüber die gleiche Anzahl an Werten befinden. Über und unterhalb des Wertes befinden sich also jeweils 50 % der Stichprobe.

Aus der Kombination dieser Werte sind bereits detailliertere Schlüsse möglich, die alternativ anhand grafischer Verfahren abzuleiten sind. So weist die Nähe des arithmetischen Mittels und des Medians darauf hin, dass eine annähernd symmetrische Verteilung der Daten vorliegt (und damit keine rechts- oder linksschiefe Verteilung). Es sind also nicht wesentlich mehr niedrige als hohe IQs vertreten und umgekehrt.

Die bislang genannten Werte lassen aber noch keinen Schluss darüber zu, welcher Wert am häufigsten gemessen wurde. Daher können die Statistiken um den Modalwert oder den Modus der Verteilung ergänzt werden. Die Tabelle zeigt, dass beinahe jeder IQ-Wert nur einmal vertreten ist. Ausnahme ist der Wert 90, der bei zwei Personen gemessen wurde und damit der Modalwert der Verteilung ist.


 

Streumasse für metrisch skalierte Variablen

Die Lage der bislang genannten Kennzahlen gibt noch keinen Aufschluss über die Streuung der Werte. Sie beschreibt, wie weit die Werte einer Variablen um ihren Mittelwert verteilt sind. Liegen die IQ-Werte allesamt dicht um den Mittelwert von 101, liegt eine geringe Streuung vor. Wenn viele Angaben weit unter und über dem Mittelwert liegen, streuen die Werte stark. Dieser Streuungsgrad kann aussagekräftig durch den Wert einer einzigen Kennzahl beschrieben werden.

Zu nennen sind hier die wichtigsten Streumasse der Spannweite, Standardabweichung und Varianz. Die Spannweite der IQ-Werte ergibt sich aus der Differenz von Maximum und Minimum. Damit wird der höchste bzw. niedrigste Wert der Verteilung bezeichnet. Im Beispiel liegt das Minimum der gemessenen IQs bei 71 und das Maximum bei 129. Nach einer Subtraktion der Werte ergibt sich schliesslich eine Spannweite der IQ-Werte von 58.

Eng miteinander verwandt sind die Kennzahlen der Standardabweichung und Varianz. Da sich die Standardabweichung leicht aus der Varianz berechnen lässt, ist ihre Berechnung zentral. Sie wird berechnet, indem man die Summe der quadrierten Abweichungen der Werte (vom Mittelwert) zu ihrer relativen Häufigkeit in Beziehung setzt. Konkret benötigt man zunächst den Mittelwert. Anschliessend werden die Abweichungen gebildet, indem der Mittelwert von den einzelnen Alterswerten subtrahiert wird Schritt 1. Als Zwischenergebnis erhält man 10 Werte, die jeweils quadriert Schritt 2 und anschliessend aufaddiert werden Schritt 3 . Der resultierende Wert wird nun durch die Anzahl der Beobachtungen dividiert, wobei die Anzahl zuvor um eine Beobachtung verringert wird (-1) Schritt 4. Nun erhält man die Varianz, die im oberen Beispiel 348,2 beträgt.

IQ Differenz zum Mittelwert der Verteilung (= IQ-101)1 Quadrierte Differenz2
82 -18 324
90 -10 100
129 29 841
104 4 16
108 8 64
90 -10 100
124 24 576
71 -29 841
116 16 256
96 -4 16
Summe der quadrierten Differenz: 31343
Varianz = Summe der quadrierten Differenz/(n-1): 348,24

 

Um nun die Standardabweichung zu berechnen, muss lediglich die Wurzel aus der Varianz gezogen werden. Für die Streuung der IQ-Werte ergibt sich also eine Standardabweichung von 18,6. Während man mit der Standardabweichung also die mittlere Entfernung vom Durchschnittswert angibt, ist die Varianz die quadrierte mittlere Entfernung vom Durchschnittswert. Die Standardabweichung ist gegenüber der Varianz also intuitiv leichter zu interpretieren: Die Werte in der Verteilung weichen im Durchschnitt um 18,7 IQ-Punkte vom Mittelwert ab. Auch in den meisten Statistikprogrammen wird bei der Ausgabe der deskriptiven Statistiken einer Variablen für gewöhnlich die Standardabweichung angegeben.


 

Lage- und Streumasse für ordinalskalierte Variablen

Vergleichbar mit der metrischen Skala lässt sich auch im Falle der Ordinalskala eine sinnvolle Reihenfolge aus den Antwortkategorien bilden. Von einer metrisch skalierten Variablen unterscheidet sie sich deshalb, weil die Abstände zwischen den Antwortvorgaben nicht immer als gleich betrachtet werden können. Am Beispiel des Items zum höchsten Schulabschluss lässt sich dies nachvollziehen: Der wahrgenommene Abstand zwischen den Ausprägungen 1 und 2 sowie zwischen den Ausprägungen 4 und 5 ist unbekannt. Anders formuliert kann nicht geschlussfolgert werden, dass eine Person mit der Ausprägung 4 doppelt so gebildet ist wie eine Person mit der Ausprägung 2.

 

Ordinalskalierte Variablen

Die Gesamtheit der vorgestellten Lage- und Streumasse lässt sich also nur berechnen, wenn ein gleicher Abstand zwischen den Antwortausprägungen nachgewiesen oder angenommen wird (d. h., die Skala gilt als quasi-metrisch oder äquidistant). Bei der Ratingfrage zum Gesundheitszustand ist das wahrscheinlicher der Fall als bei einer Rangordnung von Schulabschlüssen.

 

Ordinalskalierte Variablen

 

Um die Äquidistanz von Antwortausprägungen sicherzustellen, sollten Items des Fragebogens getestete Antwortvorgaben enthalten. Bestehen in einer studentischen Arbeit Unsicherheiten, kann eine Rücksprache mit den betreuenden Personen sinnvoll sein. Unabhängig von diesen Voraussetzungen lassen sich jedoch grundsätzlich Median, Modus und Spannweite einer ordinalskalierten Variable berechnen.

Tabellen und Häufigkeitsverteilungen bei nominal skalierten Variablen

Die Auswahl geeigneter Verfahren zur deskriptiven Darstellung hängt von den Ausprägungen einer Variablen ab. Häufig hat man mit Variablen zu tun, die für eine Berechnung der o. g. Kennzahlen nicht geeignet sind. Dies ist bei Variablen mit nominalskalierten Ausprägungen der Fall, also bei Antwortvorgaben, aus denen sich keine sinnvolle Reihenfolge bilden lässt. Beispiele für solche Variablen sind das Geschlecht oder das bevorzugte Verkehrsmittel von befragten Personen. Einzige Ausnahme für eine sinnvolle Kennzahl ist hier der Modus, der z. B. im Falle des bevorzugten Verkehrsmittels angibt, welches in den Daten am häufigsten vertreten ist (hier: das Auto).

Bevorzugtes Verkehrsmittel Häufigkeit Prozent
Flugzeug 235 28,6 %
Auto 332 40,3 %
ÖPNV 101 12,3 %
Fahrrad 60 7,3 %
Motorrad 95 11,5 %

 

Häufigkeitsverteilungen bei nominal skalierten Variablen

 

Eine deskriptive Beschreibung solcher Variablen ist anhand von einfachen Häufigkeitsverteilungen möglich. Dabei wird tabellarisch dargestellt, wie viele Befragte unter die jeweiligen Antwortausprägungen fallen. Ihre absolute Anzahl wird dabei normalerweise ebenso dargestellt wie ihr relativer Anteil an der Stichprobe. Solche Tabellen bilden einen idealen Ausgangspunkt für die verbale Beschreibung der Stichprobe oder für die Erstellung von Grafiken.

Zusammenfassung:

Möglichkeit der Berechnung von deskriptiven Kennzahlen in Abhängigkeit der Skalenausprägung

Minimum Maximum Mittelwert Median Modus Varianz
Nominale Skalierung
(keine Reihenfolge der Antwortvorgaben)
X
Ordinale Skalierung
(Reihenfolge der Antwortvorgaben, aber Abstände nicht gleich)
X X (X) X X (X)
Metrische Skalierung
(Rangfolge der Antwortvorgaben und gleiche Abstände)
X X X X X X

 


Weiterführende Literatur:

Kosfeld, R., Eckey, H. F., Türck, M. (2016). Deskriptive Statistik: Grundlagen-Methoden-Beispiele-Aufgaben. Wiesbaden: Springer Gabler.

Lippe, P. von der (1993). Deskriptive Statistik. Stuttgart/Jena: Gustav Fischer Verlag. Verfügbar unter https://www.econstor.eu/bitstream/10419/41405/1/Deskriptive_Statistik_vd_Lippe.pdf.

Wolf, C., Best, H. (Hrsg.) (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: Springer VS.