Hypothesentests, Nullhypothese und Arten von Hypothesen

Lesen Sie, welchen Zweck Hypothese und Nullhypothese erfüllen, welche Arten von Hypothesen es gibt und welche Fehlentscheidungen möglich sind.

Erfolg seit 2004

Aufstellen und Testen von Hypothesen sind unverzichtbare Bestandteile bei quantitativen, inferenzstatistischen Analysen. Dieser Beitrag beantwortet die Frage, warum Alternativhypothesen, Nullhypothesen und Hypothesentests benötigt werden. Ebenso wird thematisiert, welche Arten von Hypothesen unterschieden werden und welche statistischen Verfahren jeweils zum Einsatz kommen. Ausserdem klären wir, was sich hinter Alpha- und Beta-Fehlern bei möglichen Fehlentscheidungen nach Hypothesentests verbirgt. Zum Ende des Beitrags finden sich praktische Hinweise wie Formulierungshilfen und Beispiele zur Erstellung eigener Hypothesen.

 


Warum Hypothesentests?

Bei inferenzstatistischen Analysen soll grundsätzlich von einer greifbaren Stichprobe auf eine grössere Grundgesamtheit geschlossen werden. Hierfür benötigen wir Hypothesentests, mit denen man abschätzen kann, mit welcher Wahrscheinlichkeit Beziehungen in der Stichprobe auch in der Population zutreffen. Die Arbeit an einem Projekt mit statistischen Analysen beginnt jedoch zunächst mit abstrakten Vorüberlegungen, die entweder theoretisch fundiert sind oder in anderer Form sinnvoll begründet werden können. Diese Vorüberlegungen führen im weiteren Verlauf zu allgemeinen Annahmen, z. B. über mögliche Zusammenhänge oder Unterschiede.

Solche wissenschaftlichen Hypothesen werden im ersten Schritt sprachlich formuliert. Um die Annahmen in Vorbereitung auf die statistischen Tests zu konkretisieren, werden sie im weiteren Verlauf zu statistischen Hypothesen umformuliert. Auf diese Weise werden konkrete Kennzahlen in der Population angesprochen, was die Hypothese empirisch überprüfbar macht. Hypothesentests dienen also dem wissenschaftlichen Erkenntnisfortschritt durch empirische Beobachtungen.

 


Alternativhypothese und Nullhypothese

Das folgende Beispiel dient zur Veranschaulichung: Eine Alltagsbeobachtung legt nahe, dass eine Beziehung zwischen der Höhe der Ausgaben für Lebensmittel und dem Gesundheitszustand besteht. Nach dem Studium der entsprechenden Literatur liegen auch theoretische Indizien für den Zusammenhang vor. Entsprechend kann eine wissenschaftliche Hypothese formuliert werden, die im Anschluss statistisch ausgedrückt wird. Dabei handelt es sich um die sogenannte Alternativhypothese, die mit H1 abgekürzt wird:

  • H1: Je mehr finanzielle Mittel eine Person für Lebensmittel ausgibt, desto besser ist im Durchschnitt ihr Gesundheitszustand.
  • H1: r(Lebensmittelausgaben, Gesundheitszustand) > 0

Eine Alternativhypothese ist damit aufgestellt. Was aber steht in der Nullhypothese und warum gehört ihre Formulierung grundsätzlich dazu? Die Nullhypothese (H0) negiert den in der Alternativhypothese angenommenen Effekt und kehrt deren Annahme in ihr Gegenteil um. Damit ist sie das komplementäre Gegenstück zur Alternativhypothese. Sie wird der Notwendigkeit der Falsifizierbarkeit von Hypothesen gerecht, wonach stets die Möglichkeit bestehen muss, die Alternativhypothese zu widerlegen. Die für das o. g. Beispiel formulierte Hypothese H0 lautet entsprechend:

  • H0: Je mehr finanzielle Mittel eine Person für Lebensmittel ausgibt, desto schlechter ist ihr Gesundheitszustand oder es besteht kein Zusammenhang zwischen Lebensmittelausgaben und Gesundheitszustand.
  • H0: r(Lebensmittelausgaben, Gesundheitszustand) <= 0

 


Arten von Hypothesen

Grundsätzlich gibt es einige wesentliche Unterscheidungsmerkmale, die die Art der Hypothese spezifizieren. Die wichtigsten Arten von Hypothesen werden nachfolgend erläutert:

  • Individualhypothesen vs. Kollektivhypothesen
  • Deterministische Hypothesen vs. probabilistische Hypothesen
  • Unspezifische Hypothesen vs. spezifische Hypothesen
  • Zusammenhangshypothesen vs. Unterschiedshypothesen vs. Veränderungshypothesen
  • Gerichtete Hypothesen vs. ungerichtete Hypothesen

 


Individualhypothesen oder Kollektivhypothesen

Hypothesen können auf unterschiedlichen Aggregatniveaus angesiedelt sein. So ist es einerseits möglich, kollektive Merkmale miteinander in Beziehung zu setzen, z. B. auf Länderebene. Ein Beispiel für eine solche Hypothese könnte lauten: «Je höher die Wahlbeteiligung in einem Land ist, desto geringere Bevölkerungsanteile wählen extremistische Parteien.»

Eine Hypothese auf der Individualebene hingegen postuliert eine Beziehung zwischen mehreren Individualmerkmalen, die z. B. mithilfe eines Umfragedatensatzes untersucht werden kann. Die Hypothese «Je älter eine Person ist, desto höher ist ihr Nettoeinkommen» steht exemplarisch für einen Zusammenhang auf der Individualebene.

Vorsicht ist geboten, wenn verschiedene Aggregatebenen innerhalb einer sogenannten Kontext- oder Aggregatshypothese vermischt werden. Solche Hypothesen bergen die Gefahr eines ökologischen Fehlschlusses. Dabei wird unzulässig von Aggregatdaten auf die individuelle Ebene geschlossen. Demgegenüber handelt es sich um einen individualistischen Fehlschluss, wenn fälschlicherweise vom Individuum auf die Kollektivebene geschlossen wird.

 


Deterministische Hypothesen oder probabilistische Hypothesen

Die Unterscheidung zwischen deterministischen und probabilistischen Hypothesen bezieht sich auf den Geltungsbereich einer Annahme. Eine deterministische Hypothese beansprucht eine Gültigkeit für ausnahmslos alle Objekte, die angesprochen werden (Beispiel: «Je länger die Sonnenscheindauer ist, desto glücklicher sind alle Personen.»).

Probabilistische Hypothesen dagegen legen Wahrscheinlichkeiten und Durchschnittswerte zugrunde, sodass bereits durch ihre Formulierung eine begrenzte Gültigkeit vermittelt wird (Beispiel: «Je länger die Sonnenscheindauer ist, desto glücklicher sind Personen im Durchschnitt.»).

Entsprechend würde ein einziger negativer Zusammenhang zwischen Sonnenscheindauer und Glück die deterministische Hypothese widerlegen, während der Einzelfall noch keine Auswirkungen auf die Gültigkeit der probabilistischen Hypothese hat. Im Regelfall werden probabilistische Hypothesen formuliert, gerade bei inferenzstatistischen Analysen.

Unspezifische Hypothesen oder spezifische Hypothesen

Unspezifische Hypothesen treffen keine Annahmen über die Grösse des Effekts, wohingegen die Effektgrösse im Falle spezifischer Hypothesen konkretisiert wird. Im genannten Beispiel «Je mehr finanzielle Mittel eine Person für Lebensmittel ausgibt, desto besser ist im Durchschnitt ihr Gesundheitszustand» könnte man auch zur begründeten Annahme gelangen, dass ein mindestens moderater Zusammenhang (z. B. r >= 0,3) zwischen Lebensmittelausgaben und Gesundheitszustand besteht, um aus der ursprünglich unspezifischen eine spezifische Hypothese zu machen.

Zusammenhangshypothesen, Unterschiedshypothesen oder Veränderungshypothesen

Zudem wird zwischen Zusammenhangshypothesen, Unterschiedshypothesen und Veränderungshypothesen unterschieden. Bei der genannten Beispielhypothese handelt es sich um eine Zusammenhangshypothese, da hier die Beziehung zwischen zwei Variablen beschrieben wird. In einer Zusammenhangshypothese könnte ebenso ein negativer Zusammenhang nach dem Muster «je mehr, desto weniger» beschrieben werden. Als statistische Verfahren kommen bspw. bivariate Korrelationsanalysen, multiple Regressionsanalysen oder Strukturgleichungsmodelle in Betracht.

Unterschiedshypothesen werden verwendet, wenn Unterschiede zwischen Gruppen postuliert werden. Häufig bezieht man sich dabei auf Mittelwertunterschiede zwischen zwei Gruppen. So könnte eine Unterschiedshypothese lauten, dass die durchschnittlichen Ausgaben für Lebensmittel bei Frauen höher liegen als bei Männern. Werden nur zwei Gruppen miteinander verglichen, kann als Analyseverfahren auf den t-Test zurückgegriffen werden. Bei mehr als zwei Gruppen bietet sich eine Varianzanalyse an. Kausale Schlüsse sollten bei Zusammenhangs- und Unterschiedshypothesen nur vorsichtig erfolgen, da eine signifikante Beziehung lediglich eine Assoziation zwischen den Merkmalen zeigt.

Eine weitere Hypothesenart sind Veränderungshypothesen. Veränderungshypothesen beziehen sich auf Veränderungen im Zeitverlauf und damit auf mindestens zwei Zeitpunkte der Messung. Bezogen auf die Lebensmittelthematik könnte man z. B. die Annahme «Das Wissen über Lebensmittel ist zwei Monate nach Beginn einer Informationskampagne höher ausgeprägt als zu Beginn der Informationskampagne» formulieren. Mögliche Analyseverfahren zur Untersuchung von Veränderungshypothesen sind t-Tests für abhängige Stichproben, Zeitreihenanalysen, spezielle Regressionsmodelle oder Varianzanalysen mit Messwiederholungen. Mithilfe dieser Verfahren können ursächliche Beziehungen nachgezeichnet werden.

 

Zusammenfassung:

Art der Hypothese und statistische Verfahren

Hypothesenart Statistische Verfahren (Beispiele)
Zusammenhangshypothesen
  • Bivariate Korrelationen
  • Regressionsmodelle
  • Strukturgleichungsmodelle
Unterschiedshypothesen
  • t-Test für unabhängige Stichproben
  • Einstichproben-t-Tests
  • ANOVA*
Veränderungshypothese
  • t-Test für abhängige Stichproben
  • Zeitreihenanalysen
  • Varianzanalysen mit Messwiederholungen
  • Fixed-Effects-/Random-Effects-Regressionsmodelle

*ANOVA, analysis of variance = Varianzanalyse, kurz VA

Gerichtete Hypothesen oder ungerichtete Hypothesen

Die letzte Unterscheidungsdimension unterscheidet zwischen gerichteten Hypothesen und ungerichteten Hypothesen. Mit der Beispielhypothese «Je mehr finanzielle Mittel eine Person für Lebensmittel ausgibt, desto besser ist im Durchschnitt ihr Gesundheitszustand» handelt es sich um eine gerichtete Hypothese, da Vermutungen über die Richtung des Zusammenhangs angestellt werden («je mehr, desto besser»). Im Regelfall greift man für wissenschaftliche Seminar- und Abschlussarbeiten auf eine solche gerichtete Hypothese zurück, da meist nicht irgendein Zusammenhang vermutet wird, sondern eine durch die Theorie konkretisierte Beziehung. Bei einer ungerichteten Hypothese wird die Richtung des Zusammenhangs offengelassen. Die ungerichtete Formulierung der Hypothese wäre demnach: «Die Höhe der Lebensmittelausgaben einer Person hat Einfluss auf den Gesundheitszustand der Person.»

Abhängig von der Frage, ob die Hypothese gerichtet oder ungerichtet ist, fällt die Entscheidung für ein einseitiges oder ein zweiseitiges Testen. Die gerichtete Hypothese «Je mehr finanzielle Mittel eine Person für Lebensmittel ausgibt, desto besser ist im Durchschnitt ihr Gesundheitszustand» zieht ein einseitiges Testen nach sich. Wird das Signifikanzniveau (Alpha bzw. α) auf 5 % festgelegt, entspricht der Verwerfungsbereich der Nullhypothese H0 dann dem rechten 5-%-Anteil der Verteilung. Manchmal wird auch ein Signifikanzniveau von 1 % definiert.

 

Einseitiger Test einer gerichteten Hypothese, positiver Zusammenhang
Abbildung 1: Einseitiger Test einer gerichteten Hypothese, positiver Zusammenhang

 

Einseitiger Test einer gerichteten Hypothese, negativer Zusammenhang
Abbildung 2: Einseitiger Test einer gerichteten Hypothese, negativer Zusammenhang

 

Da die ungerichtete Hypothese «Die Höhe der Lebensmittelausgaben einer Person hat Einfluss auf den Gesundheitszustand der Person» keine Aussage über die Richtung des Effekts trifft, wird das auf 5 % festgelegte Signifikanzniveau auf beide Enden der Kurve zu jeweils 2,5 % verteilt. In diesem Fall spricht man von einem zweiseitigen Test.

Zweiseitiger Test einer ungerichteten Hypothese
Abbildung 3: Zweiseitiger Test einer ungerichteten Hypothese

 

Was sagt der Wert der Teststatistik aus?

Die Wahl des statischen Verfahrens und der Teststatistik ist davon abhängig, welche Annahmen über die Verteilung der Daten bestehen. Wendet man zur Untersuchung einer Unterschiedshypothese einen t-Test für unabhängige Stichproben an, so basiert die Teststatistik auf der sogenannten t-Statistik. Diese kann zugrunde gelegt werden, wenn eine Normalverteilung der Daten vorliegt. Liegt dagegen eine Binomialverteilung vor, findet der Binomialtest Anwendung. Weitere Beispiele für Teststatistiken sind die z-Statistik oder die F-Statistik.

Die Teststatistik vergleicht anschliessend die Daten der Stichprobe mit den Daten, die erwartet werden, wenn die Nullhypothese zutreffen würde. Anhand der Teststatistik wird also geschlussfolgert, ob die Nullhypothese abgelehnt und die Alternativhypothese angenommen werden kann. Eine Alternativhypothese könnte z. B. dann angenommen werden, wenn der Wert der Teststatistik (auf Basis der jeweiligen Formel unter Verwendung der Stichprobenkennzahlen) unterhalb oder oberhalb eines kritischen Wertes liegt, der den Annahmebereich vom Ablehnungsbereich der Nullhypothese trennt.

 


Alpha-Fehler und Beta-Fehler als mögliche Fehlentscheidungen

Hypothesentests dienen also der Bestätigung oder Ablehnung einer vermuteten Annahme. Auch nach Abschluss des Tests kann eine Hypothese jedoch nie mit absoluter Sicherheit bewertet werden, da immer nur eine Stichprobe und damit ein kleiner Ausschnitt der Realität betrachtet werden. Mithilfe eines Hypothesentests wird die Höhe dieser Irrtumswahrscheinlichkeit beziffert, ohne dass die echte Verteilung in der Population bekannt ist.

Realität
H0 H1
Testentscheidung H0 Richtige Entscheidung Beta-Fehler
H1 Alpha-Fehler Richtige Entscheidung

Kommen wir nach Abschluss des Hypothesentests zum Entschluss, dass die Nullhypothese H0 zutrifft, handelt es sich nur dann um die richtige Entscheidung, wenn H0 auch in der Grundgesamtheit gilt. Eine ebenfalls korrekte Entscheidung wurde getroffen, wenn die Alternativhypothese H1 sowohl laut Hypothesentest als auch in der Realität zutrifft.

Von einem Alpha-Fehler oder Fehler 1. Art spricht man dann, wenn der in der Alternativhypothese H1 angenommene Effekt für die Stichprobe zutrifft, in der Grundgesamtheit jedoch H0 gilt. Konkret könnte das im Falle der Hypothese «Je mehr finanzielle Mittel eine Person für Lebensmittel ausgibt, desto besser ist im Durchschnitt ihr Gesundheitszustand» eintreten, wenn die Stichprobe zugunsten von Personen verzerrt ist, bei denen der Zusammenhang vorliegt. Ein solcher Fehler wird mit dem Signifikanzniveau quantifiziert, das meist auf 5 % festgelegt wird.

Umgekehrt liegt der Beta-Fehler oder Fehler 2. Art vor, wenn der vermutete Effekt für die Stichprobe nicht nachgewiesen wird und H0 angenommen wird, in der Realität jedoch die Alternativhypothese H1 zutrifft. Praktisch könnte dieser Fehler bei der Hypothese «Je mehr finanzielle Mittel eine Person für Lebensmittel ausgibt, desto besser ist im Durchschnitt ihr Gesundheitszustand» zustande kommen, wenn für die Stichprobe zufällig viele einkommensschwache Personen mit gutem Gesundheitszustand ausgewählt wurden. Je höher der Stichprobenumfang und je kleiner die Abweichungen in der Grundgesamtheit, umso geringer wird die Wahrscheinlichkeit für einen Beta-Fehler.

 


Formulierungshilfe und Beispiele für Hypothesen

Negativbeispiel:

– Männer stochern im Hinblick auf Mutter Natur stärker im Nebel als Frauen.

Positivbeispiel:

– Männer weisen gegenüber Frauen ein durchschnittlich geringeres Umweltwissen auf.

Für die Formulierung eigener Hypothesen in einer empirischen Untersuchung gibt es einige Faustregeln und Orientierungshilfen. Wichtig ist zunächst, eine Hypothese so prägnant und sachlich wie möglich zu formulieren. Umgangssprache wird dabei vermieden.

Negativbeispiel:

– Manche Länder haben eine Wahlpflicht und ein Mehrparteiensystem.

Positivbeispiel:

– Wenn ein Land über eine Wahlpflicht verfügt, dann ist die Wahlbeteiligung gegenüber Ländern ohne Wahlpflicht durchschnittlich höher.

Dabei wird stets eine logische Beziehung zwischen den Variablen (hier: X und Y) hergestellt. Diese Beziehung wird anhand charakteristischer Bedingungssätze nach dem Muster «je höher/mehr/geringer/kleiner X, desto höher/mehr/geringer/kleiner Y» oder «wenn X, dann Y» deutlich.

Negativbeispiel:

– Es besteht ein Zusammenhang zwischen Körpergrösse und Gewicht.

Positivbeispiel:

– Je höher die Körpergrösse einer Person ist, desto mehr Körpergewicht weist sie durchschnittlich auf.

In der Regel bestehen auf Grundlage der Literatur begründete Annahmen über die Richtung eines Zusammenhangs zwischen zwei Variablen. Meist werden daher auch in studentischen Arbeiten gerichtete Hypothesen formuliert. Anhand der Analyseergebnisse kann schliesslich abgeleitet werden, ob sich der gefundene Zusammenhang mit den zitierten Studien deckt.

Um diese Beziehung untersuchen zu können, müssen diese Variablen messbar sein. Es ist also wenig erfolgversprechend, nach Gefühl diffuse Begriffe anzusprechen, für die keine Möglichkeiten einer Operationalisierung bestehen.

Hypothesen müssen darüber hinaus falsifizierbar, d. h. widerlegbar, sein. Beispiele für nicht falsifizierbare Aussagen sind informationslose Beobachtungen wie «alle Verheirateten haben eine/n Ehepartner/in» oder «kleine Hunde sind Hunde». Diese Annahmen sind unwissenschaftlich, weil sie nicht angreifbar sind.

 


Wie viele Hypothesen und an welcher Stelle?

Es bestehen keine starren Regeln für die Anzahl der Hypothesen in einer empirischen Untersuchung. Grob kann man sich aber am Gesamtumfang der Arbeit orientieren. Handelt es sich um eine Abschlussarbeit, könnten drei bis fünf Hypothesen eine angemessene Anzahl sein. Eine geringere Anzahl von Hypothesen bietet sich für Hausarbeiten an. Im Zweifelsfall können Absprachen mit der betreuenden Person Unsicherheiten beseitigen.

Ausserdem ist die Frage zu klären, an welcher Stelle die Hypothesen positioniert werden sollen. Da die Hypothesen normalerweise theoretisch und auf Basis der Theorie und des Forschungsstandes begründet werden, sollten sie im Kontext der jeweiligen Literatur stehen. Hierfür bieten sich z. B. in etwa die folgenden Strukturen an:

  • Einleitung
  • Theorie und Forschungsstand
    • Theorie und Forschungsstand zum Thema X
      • Begründung und Vorstellung der Hypothese zum Thema X
    • Theorie und Forschungsstand zum Thema Y
      • Begründung und Vorstellung der Hypothese zum Thema Y
    • Empirische Untersuchung
  • Einleitung
  • Theorie und Forschungsstand
    • Theorie und Forschungsstand zum Thema X und Y
      • Begründung und Vorstellung Hypothesen zum Thema X und Y
    • Empirische Untersuchung

Weiterführende Literatur:

  • Albers, S., Klapper, D., Konradt, U., Walter, A., Wolf, J. (Hrsg.) (2009). Methodik der empirischen Forschung. Wiesbaden: Springer.
  • Döring, N., Bortz, J. (2016). Forschungsmethoden und Evaluation. Wiesbaden: Springer.
  • Janczyk, M., Pfister, R. (2013). Inferenzstatistik verstehen. Berlin, Heidelberg: Springer.