Bivariate Statistik: deskriptive & induktive Analyse

Zweck und Einsatzmöglichkeiten univariater Analysen wurden in einem anderen Artikel erläutert. Dabei erfolgt die isolierte Betrachtung einer einzelnen Variable. Im Zuge von bivariaten Analysen werden dagegen zwei Variablen in Beziehung zueinander gesetzt. In quantitativen Projekten werden diese bivariaten Analysen häufig als Zwischenschritt oder sogar als Kernelement der Hypothesenprüfung eingesetzt. Dabei lassen sich verschiedene Ansätze verwenden, die tabellarische, grafische und statistische Verfahren umfassen und nachfolgend vorgestellt werden.

Deskriptive Verfahren

Bivariate Analysen können weiter in deskriptive und inferenzstatistische Verfahren unterteilt werden. In deskriptiven Analysen werden die Ausprägungen einer Variable in Abhängigkeit der Ausprägungen einer weiteren Variable ermittelt. Ein Beispiel ist ein fiktiver Umfragedatensatz, der Angaben zum Geschlecht und möglicherweise vorhandenen Haustieren der Befragten enthält. Bei einer univariaten Analyse würde man die Häufigkeitsverteilungen dieser Variablen unabhängig voneinander betrachten. Daraus folgt, dass 7 Personen männlich, 8 Personen weiblich und 5 Personen divers sind. Mit Blick auf die zweite Variable besitzen 8 dieser Personen Haustiere (0: keine Haustiere, 1: Haustier(e) vorhanden).

Geschlecht	Haustier
männlich	0
männlich	1
divers	0
weiblich	0
weiblich	0
weiblich	0
weiblich	0
weiblich	1
weiblich	1
divers	0
männlich	1
divers	0
divers	0
divers	0
männlich	1
weiblich	0
weiblich	1
männlich	0
männlich	1
männlich	1

Nun stellt sich die Frage, wie die Variablen zusammenhängen: Wie viele der diversen, männlichen und weiblichen Personen besitzen Haustiere? Und wie verteilen sich die Besitzer*innen und Nicht-Besitzer*innen von Haustieren auf die Geschlechter? Eine Kreuztabelle bietet eine einfache Möglichkeit zur Beantwortung dieser deskriptiven Fragen.

Anhand dieser Tabelle lässt sich nun zeilenweise ablesen, dass unter den diversen Personen keine mit Haustieren ist, unter den männlichen Personen 5 Haustierbesitzer und unter den weiblichen Personen 3 Haustierbesitzerinnen. Spaltenweise betrachtet zeigt sich, dass diverse Personen am seltensten ein Haustier besitzen und männliche Personen am häufigsten. Neben einer Betrachtung absoluter Werte ermöglichen Statistikprogramme daneben die Anzeige spaltenweiser und/oder zeilenweiser prozentualer Anteile, die sich dann in einer studentischen Arbeit gut berichten lassen.

		Haustier		Gesamt
		0 (Nein)	1 (Ja)
Geschlecht	divers	5	0	5
	männlich	2	5	7
	weiblich	5	3	8
Gesamt		12	8	20

Eine weitere einfache Möglichkeit, einen bivariaten Überblick über den Zusammenhang von Geschlecht und Angaben zum Haustierbesitz zu erhalten, liegt in der grafischen Darstellung. Dabei kann z. B. mithilfe eines Säulendiagramms visualisiert werden, auf welche Geschlechter sich der Besitz von Haustieren verteilt. Auch hier wird auf den ersten Blick deutlich, dass männliche Personen am häufigsten angeben, ein Haustier zu besitzen.

Haustierbesitzer:innen | Statistik

Im Falle metrisch skalierter Variablen wird eine tabellarische Darstellung schnell unübersichtlich. Hier eignen sich Streudiagramme bzw. Scatterplots besser. Dafür dient als Beispiel ein Datensatz, der fiktive Daten zu Alter und Body-Mass-Index (BMI) von Befragten enthält. Nachdem ein Zusammenhang zwischen den Variablen vermutet wird, bietet ein Streudiagramm eine einfache Möglichkeit zur Darstellung zahlreicher Datenpunkte. Statistikprogramme können darüber hinaus nach Bedarf eine (lineare) Trendlinie hinzufügen, an deren Steigung sich die vermutete Beziehung ablesen lässt. Da eine positive Steigung vorliegt, besteht ein ebenfalls positiver Zusammenhang zwischen den Variablen: Je älter eine Person ist, desto höher liegt im Durchschnitt ihr BMI.

BMI Alter | Statistik

Inferenzstatistische Verfahren

In den vorangegangenen Beispielen wurden nominalskalierte Variablen verwendet. Prinzipiell lassen sich tabellarische und grafische Verfahren aber auf alle Variablenausprägungen anwenden, z. B. auch auf solche mit einer Ordinalskala. Zur anschliessenden Hypothesenprüfung werden für gewöhnlich statistische Verfahren gesetzt, die anhand von Signifikanzwerten ein Urteil darüber erlauben, ob Zusammenhänge für die Grundgesamtheit zu finden sind. Es handelt sich also ebenfalls um bivariate Verfahren, die jedoch in Abgrenzung zu deskriptiven Analysen inferenzstatistische Aussagen über die Stichprobe hinaus erlauben (über die Grundgesamtheit, aus der die Stichprobe gezogen wurde).

Bei der Wahl eines geeigneten statistischen Verfahrens oder „Korrelationsmasses“ ist die Beschaffenheit der beteiligten Variablen und ihrer Ausprägungen von entscheidender Bedeutung. Im oben genannten Beispiel der Variablen Geschlecht und Haustiere handelt es sich um zwei nominalskalierte Ausprägungen, wobei mit der Haustier-Variable konkreter eine dichotome Skalierung vorliegt. In einem solchen Fall kann man zur Beurteilung von Zusammenhängen den Chi-Quadrat-Test auf Unabhängigkeit verwenden. Dieser Test überprüft erneut anhand der oben erstellten Kreuztabelle, ob erwartete Häufigkeiten von den tatsächlichen Häufigkeiten abweichen. Anders formuliert: Würde kein systematischer Zusammenhang zwischen Geschlecht und Haustierbesitz vorliegen, müssten die Häufigkeiten in den Zellen der Tabelle einer zufälligen Verteilung folgen.

Bestehen hingegen Abweichungen von dieser gleichmässigen Verteilung, kann man mit hoher Wahrscheinlichkeit daraus ableiten, dass bivariate Zusammenhänge zwischen den Variablen bestehen. In diesem Fall spricht man von einer überzufälligen (nicht zufälligen) Verteilung der Daten. Auf die Beispieldaten angewendet zeigt sich, dass der Chi-Quadrat-Test einen Signifikanzwert von p = 0,044 ausweist. Da dieser Wert unter dem kritischen Schwellwert von p = 0,05 liegt, lässt sich folgern, dass statistisch signifikante bzw. überzufällige Zusammenhänge zwischen Geschlecht und Haustierbesitz vorliegen. Im Anschluss kann bspw. das Zusammenhangsmass Cramer V zur Beurteilung der Effektstärke herangezogen werden. Dieses Zusammenhangsmass basiert auf dem Chi-Quadrat-Test und nimmt Werte im Bereich V = 0 (kein Zusammenhang) bis V = 1 (perfekter Zusammenhang) an.

Liegt ein Variablenpaar mit jeweils ordinalen Skalenausprägungen vor, kann ein möglicher Zusammenhang mithilfe des (Rang-)Korrelationskoeffizienten nach Spearman nachgewiesen werden. Zur Berechnung wird erneut ein fiktiver Datensatz verwendet, der Angaben zur Lebenszufriedenheit („gar nicht zufrieden“ (1) – „vollumfänglich zufrieden“ (5)) und Sportaktivität („gar nicht sportlich“ (1) – „sehr sportlich“ (5)) enthält. In einer theoretisch begründeten Hypothese wird angenommen, dass die Lebenszufriedenheit umso besser ausfällt, je sportlich aktiver eine Person ist.

Der Korrelationskoeffizient nach Spearman vermittelt gegenüber dem Chi-Quadrat-Test mehr Hinweise über die Beziehung der Variablen. So erhält man nicht nur einen Signifikanzwert, sondern auch Informationen über Stärke und Richtung eines möglichen Zusammenhangs. Im Falle des fiktiven Datensatzes nimmt der Korrelationskoeffizient einen Wert von r = 0,624 an, wobei ein Wertebereich zwischen r = -1 (perfekte negative Korrelation) und r = +1 (perfekte positive Korrelation) möglich ist. Bei einem Wert nahe r = 0 liegt keine Korrelation vor. Das positive Vorzeichen impliziert zunächst, dass ein positiver Zusammenhang vorliegt, also ein Anstieg der Sportaktivität im Mittel mit einem Anstieg der Lebenszufriedenheit verbunden ist. Der Betrag zeigt zudem an, dass es sich um eine starke Korrelation handelt. Angesichts des Signifikanzwertes von p = 0,003 kann die Hypothese bestätigt werden.
Die Literatur enthält keine einheitlichen Hinweise, für welche Wertebereiche eine schwache bis starke Korrelation unterstellt werden kann. Als Faustregeln zur Einordnung enthält die folgende Tabelle eine Interpretationshilfe in Abhängigkeit der Effektstärke.

Wertebereich	Interpretation
r >= 0,10	schwacher Zusammenhang
r >= 0,30	mittlerer Zusammenhang
r >= 0,50	starker Zusammenhang

Der Korrelationskoeffizient nach Pearson kommt dann zum Einsatz, wenn es sich um ein metrisch skaliertes Variablenpaar handelt. Auch dieses Korrelationsmass kann Werte zwischen r = -1 (perfekte negative Korrelation) und r = +1 (perfekte positive Korrelation) annehmen. Zur Demonstration wird erneut der oben vorgestellte Datensatz mit den Variablen Alter und BMI verwendet. Der Koeffizient weist den Wert r = 0,760 bei einem Signifikanzwert p < 0,000 aus. Auch hier liegt also ein starker, positiver und statistisch signifikanter Zusammenhang zwischen Alter und BMI vor, wie das Streudiagramm bereits nahelegte. Während die Korrelationskoeffizienten nach Spearman und Pearson also unterschiedlich berechnet werden, erfolgt die Interpretation jeweils analog.

Zusammenfassend wurden in diesem Artikel zunächst tabellarische und grafische Verfahren zur Beurteilung bivariater Zusammenhänge vorgestellt, die schliesslich um häufig verwendete Korrelationskoeffizienten ergänzt wurden. Denkbar sind abhängig von den Ausprägungen der beteiligten Variablen aber noch weitere Korrelationsmasse und statistische Tests. Als Entscheidungshilfe für eigene empirische Arbeiten lohnt sich daher der Blick in die weiterführende Literatur.

Laden Sie zum besseren Verständnis unsere fiktiven Datensätze in einer Excel-Datei herunter.

Weiterführende Literatur:

Döring, N., Bortz, J. (2016). Forschungsmethoden und Evaluation. Wiesbaden: Springer.

Wolf, C., Best, H. (Hrsg.) (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften.