Unit-Nonresponse und Datengewichtung

Lesen Sie, welche Folgen Unit-Nonresponse haben kann und wie man einen verzerrten Datensatz mit Gewichtungsverfahren an die Grundgesamtheit angleicht.

Erfolg seit 2004

Mit der Grundgesamtheit einer Erhebung wird die Aussagekraft und Reichweite der folgenden Analysen festgelegt. Mithilfe einer Zufallsstichprobe aus dieser Grundgesamtheit ist es möglich, repräsentative Schlüsse über die untersuchten Personen hinaus zu ziehen. Problematisch wird es eventuell, wenn für die Stichprobe ausgewählte Personen nicht an der Befragung teilnehmen können oder wollen. In diesem Fall kann die Verteilung von Stichprobenparametern von der Grundgesamtheit abweichen. Mit der Gewichtung des Datensatzes kann dieser Verschiebung begegnet werden.

 

Was ist Unit-Nonresponse?

In der Umfrageforschung wird zwischen Item-Nonresponse und Unit-Nonresponse unterschieden. Während eine Zielperson bei Item-Nonresponse einzelne Fragen oder Items der Befragung nicht beantwortet, fällt sie im Falle von Unit-Nonresponse für die gesamte Befragung aus. Hierfür gibt es mehrere denkbare Ursachen. Eine Möglichkeit besteht in der Verweigerung der Befragung. Häufig nehmen Menschen z. B. nicht an Umfragen teil, weil sie sich dafür keine Zeit nehmen wollen, desinteressiert sind oder sich in ihrer Privatsphäre verletzt sehen. Daneben können auch Krankheiten Ursache für die Nichtteilnahme sein, wenn eine Person z. B. schlecht hören oder sprechen kann. Als weitere Ursache kommt schliesslich eine Nichterreichbarkeit der Zielperson infrage. Häufig fallen hierunter beruflich eingespannte Personen, die nur innerhalb sehr begrenzter Zeitfenster erreicht werden können.

 

Unit-Nonresponse

Welche Konsequenzen hat Unit-Nonresponse?

Das Ausmass von Unit-Nonresponse wird mit der Ausschöpfungsrate angegeben. Sie beschreibt den Anteil der tatsächlichen Befragungen an den ursprünglich geplanten Befragungen. Die Ausschöpfungsrate allein hat jedoch noch keine Aussagekraft hinsichtlich möglicher Verzerrungen der Stichprobe gegenüber der Grundgesamtheit. Entscheidender ist die Unterscheidung zwischen den o. g. Ursachen der Unit-Nonresponse.

Ein hoher Anteil von Personen, die die Befragung verweigern, ist in der Regel nicht mit Konsequenzen für die Ergebnisse der Analysen verbunden. Eine Erkrankung der Zielpersonen wirkt sich vor allem dann negativ aus, wenn die Themen der Umfrage gesundheitsbezogen sind. Am problematischsten ist hingegen die Nichterreichbarkeit von ausgewählten Personen. Es sind zahlreiche Themen denkbar, bei denen die interessierenden Daten mit der Erreichbarkeit der Untersuchungsobjekte zusammenhängen. Werden in der Umfrage z. B. Daten zum monatlichen Einkommen oder zur Berufstätigkeit erhoben, hängen diese stark mit dem Ausmass der Erreichbarkeit einer Person zusammen. Wurden viele ausgewählte Personen nicht erreicht, kann dies z. B. zur Unterschätzung des monatlichen Einkommens führen.

In diesem Zusammenhang lohnt sich auch die Beschäftigung mit den sogenannten Ausfallmechanismen „missing completely at random“ (MCAR), „missing at random“ (MAR) und „missing not at random“ (MNAR). Der unproblematischste Ausfallmechanismus ist MCAR, da das Fehlen von Daten zufällig ist und sich somit keine systematische Verzerrung der Ergebnisse ergibt. Im schlechtesten Fall MNAR ist der Ausfallmechanismus nicht zufällig und kann durch keine andere Variable im Datensatz vorhergesagt werden. Der häufigste Ausfallmechanismus MAR meint, dass Daten zwar nicht zufällig fehlen, aber Variablen gemessen wurden, die den Ausfall vorhersagen können. Dieser Umstand macht den Ausfallmechanismus MAR durch eine Datengewichtung korrigierbar.

Umfrageinstitute, deren erhobene Daten häufig im Rahmen einer Sekundäranalyse verwendet werden können, führen zur Schätzung möglicher Abweichungen regelmässig Nonresponse-Studien durch. Dabei werden die Angaben der Nonrespondent:innen mit denen der Respondent:innen abgeglichen. Auf Grundlage dieser Differenz identifizieren die Institute mögliche Verzerrungen. Sekundärdatensätze enthalten meist schon Gewichtungsvariablen, die durch die Institute berechnet wurden, sodass die manuelle Gewichtung in den meisten Fällen nicht notwendig ist. In diesem Fall stellt sich ausschliesslich die Frage, welche Gewichtungsvariable im Statistikprogramm aktiviert wird. Hinweise hierzu finden sich in der Methodendokumentation der jeweiligen Studie.

Quantitative Datenanalyse

Grundlagen & Begriffe quantitativer Datenanalyse & Statistik 

Grundlegende Konzepte der Statistik und Datenanalyse verstehen und anwenden. Einfache Erklärungen und Beispiele für Studienarbeiten.

Quantitative Datenanalyse
Abweichung Grundgesamtheit

Wie entdeckt man mögliche Abweichungen von der Grundgesamtheit?

Da häufig nicht die Ressourcen für eine umfangreiche Nonresponse-Studie zur Verfügung stehen, bestehen alternative Möglichkeiten eines Abgleichs. Häufig stehen für die definierte Grundgesamtheit amtliche Statistiken zur Verfügung, die für diese Zwecke verwendet werden können. Wenn die Grundgesamtheit z. B. volljährige Personen mit Wohnsitz in einer bestimmten Kommune umfasst, finden sich auf den Internetseiten der Städte und Gemeinden Statistiken zur Bevölkerung. Ähnliches gilt auf Landes- oder Bundesebene. Hier sind ggf. Daten der Statistischen Landesämter oder des Statistischen Bundesamtes hilfreich.

Abweichungen von der Grundgesamtheit

Um nun die Datenverteilung der Stichprobe mit den amtlichen Daten abzugleichen, werden einzelne Vergleichsparameter selektiert, wobei meist Geschlecht, Bildung, Altersgruppen oder berufliche Stellung verwendet werden. Zur Illustration werden nachfolgend Geschlecht und Staatsangehörigkeit genutzt. Der Abgleich der fiktiven Geschlechtsvariable zeigt, dass der Anteil der Männer mit 54,3 % deutlich über dem Anteil von 49,6 % in der Grundgesamtheit liegt. Umgekehrt sind 45,7 % der Personen in der Stichprobe weiblich, während der Anteil in der Grundgesamtheit 50,4 % beträgt. Abweichungen zeigen sich auch mit Blick auf die fiktive Nationalität, wobei zwischen deutscher und anderer Staatsangehörigkeit differenziert wird. In der Stichprobe geben 95,2 % der befragten Personen eine deutsche Staatsangehörigkeit an, laut Angaben der amtlichen Statistiken sollten es jedoch nur 92,1 % sein.

Verzerrungen aufgrund von Unit-Nonresponse

Für diese identifizierten Verzerrungen gibt es mehrere mögliche Ursachen, die auch in der Stichprobenziehung selbst liegen können. Liegt der Fehler nicht hier, sind Verzerrungen aufgrund von Unit-Nonresponse plausibel. In diesem Fall kann eine Datengewichtung dazu beitragen, die Datenverteilung der Stichprobe wieder an die der Grundgesamtheit anzupassen.

 

Datengewichtung durch Randverteilungsgewichtung oder „Raking“

Der Vergleich der o. g. Verteilungen der Geschlechter legt bereits nahe, dass der Anteil weiblicher Personen und derer mit nicht deutscher Staatsangehörigkeit höher gewichtet werden müssen, um die Verzerrung durch Unit-Nonresponse zu kompensieren. Die Randverteilungsgewichtung ist eines der hierfür am häufigsten verwendeten Verfahren. Mit dieser Gewichtung erhält jede Person im Datensatz einen Gewichtungsfaktor, der dann in den statistischen Analysen mit dem Statistikprogramm aktiviert und in allen weiteren Berechnungen berücksichtigt wird.

Hierfür wird zunächst für beide Geschlechter und Staatsangehörigkeiten ein variablenspezifischer Gewichtungsfaktor errechnet. Um diesen für das männliche Geschlecht zu erhalten, wird der entsprechende Anteil oder die sogenannte Randverteilung von 49,6 % durch den Anteil in der Stichprobe dividiert. Männliche Personen werden im Ergebnis um den Faktor 0,91 geringer gewichtet, um der Verteilung in der Grundgesamtheit gerecht zu werden. Ein analoges Vorgehen ergibt sich für das weibliche Geschlecht, die deutsche sowie andere Staatsangehörigkeiten.

Stichprobe Grundgesamtheit Variablenspezifisches Gewicht
Männlich 54,3 % 49,6 % 49,6/54,3 = 0,91
Weiblich 45,7 % 50,4 % 50,4/45,7 = 1,10
Deutsch 95,2 % 92,1 % 92,1/95,2 = 0,97
Andere Staatsangehörigkeit 4,8 % 7,9 % 7,9/4,8 = 1,65

Da mehrere Gewichtungsvariablen vorliegen, müssen die variablenspezifischen Gewichte im letzten Schritt miteinander verrechnet werden. Schliesslich sind vier verschiedene Merkmalskombinationen möglich, für die die variablenspezifischen Gewichte multipliziert werden:

  • Männliche Personen mit deutscher Staatsangehörigkeit (0,91 x 0,97 = 0,88)
  • Männliche Personen mit anderer Staatsangehörigkeit (0,91 x 1,65 = 1,50)
  • Weibliche Personen mit deutscher Staatsangehörigkeit (1,10 x 0,97 = 1,07)
  • Weibliche Personen mit anderer Staatsangehörigkeit (1,10 x 1,65 = 1,82)

Müssen die Gewichtungsfaktoren manuell berechnet werden, kann auf diese Weise jeder Person im Datensatz ein Gewichtungsfaktor zugeordnet werden. Die Randverteilung der Stichprobe entspricht nun der Verteilung in der Grundgesamtheit, sodass eine Verzerrung durch Unit-Nonresponse korrigiert wurde.

Die Randverteilungsgewichtung ist nur ein Korrekturverfahren für Nonresponse neben mehreren. Weitere Beispiele sind die Zellengewichtung oder die Kalibrierung. Jedes Verfahren geht mit methodischen Vor- und Nachteilen einher, die im Zuge einer Analyse diskutiert werden sollten.

 

Weiterführende Literatur:

Schnell, R. (2019). Survey-Interviews. Wiesbaden: Springer Fachmedien.
Groves, R. M., Fowler Jr., F. J., Couper, M. P., Lepkowski, J. M., Singer, E., Tourangeau, R. (2011). Survey Methodology. Hoboken, New Jersey: John Wiley & Sons.