Datenbereinigung in SPSS: Ausreisser, fehlende Werte, Plausibilitätschecks

Lesen Sie, wie Sie Ihren Datensatz auf Datenausreisser untersuchen und Plausibilitätschecks durchführen und wie man fehlende Werte behandelt.

Erfolg seit 2004

Die Umfrage ist abgeschlossen und der Umfragedatensatz kann in SPSS importiert werden. Vor den weiteren Analysen sollten die Daten aber unbedingt einer Überprüfung unterzogen werden, um bspw. Datenausreisser oder falsche Angaben zu erkennen. Werden solche Beobachtungen unverändert im Datensatz belassen, können verzerrte und fehlerhafte Analyseergebnisse die Folgen sein. Der Beitrag beschreibt die wichtigsten Prüfungselemente und Alternativen der Fehlerkorrektur in SPSS.

Grundsätzlich bestehen bei SPSS zwei Alternativen, die gewünschten Berechnungen in das Programm einzugeben: via Menüleiste oder über einen Befehlscode, die sogenannte Syntax. Auf eine Eingabe mittels Menü geht der Beitrag ebenso ein wie auf die Eingabe via SPSS-Syntax.

Ist man im Umgang mit den Programm fortgeschrittener, so lassen sich Arbeitsschritte über diese Syntax effizienter abarbeiten als über manuelle Menüeingaben. Auch bei Seminar- und Abschlussarbeiten wird häufig gefordert, der Arbeit die verwendete Syntax anzuhängen. Sie dient gleichzeitig als von aussen nachvollziehbares Protokoll der Arbeitsschritte.

 


Ausreisser und Extremwerte

Datenausreisser und extreme Werte gehören zu den häufigsten Anlässen der Fehlerkorrektur. Im besten Fall hat man bereits bei der Planung und Gestaltung des Fragebogens dafür gesorgt, dass das Risiko für Datenausreisser gering ist. Dies erfolgt u. a. durch eine präzise Frageformulierung, die keinen Spielraum für unterschiedliche Interpretationen lässt. Da bei geschlossenen Fragen eine der vorgegebenen Antwortmöglichkeiten gewählt wird, tritt das Problem bei offenen Antwortmöglichkeiten auf.

Viele Tools für Online-Umfragen bieten zudem die Möglichkeit, eine Plausibilitätsprüfung bereits während der Eingabe der Antwort durch die befragten Personen vorzunehmen. Werden die teilnehmenden Personen z. B. nach ihrem Alter in Jahren gefragt, kann das Tool sicherstellen, dass ausschliesslich zwei Ziffern im Format „XX“ und im Wertebereich zwischen 18 und 90 akzeptiert werden. So wird bspw. eine versehentliche Eingabe des Geburtsjahres im Format „XXXX“ vermieden.

Nach Abschluss der Umfrage gibt es verschiedene Möglichkeiten, Datenausreisser zu finden. So besteht eine einfache Möglichkeit mit der Ausgabe deskriptiver Statistiken und Häufigkeitsverteilungen. Im angeführten Beispiel fällt auf, dass das Maximum der Altersverteilung mit 1959 deutlich oberhalb plausibler Werte liegt. Mindestens eine Person hat offensichtlich ihr Geburtsjahr anstelle ihres Alters angegeben. Dabei wird auch deutlich, wie Mittelwert und Standardabweichung aufgrund der fehlerhaften Angabe verzerrt werden.

Ausreisser können auch mithilfe grafischer Analysen identifiziert werden. Ein häufig verwendetes Diagramm für die univariate Analyse ist der Boxplot. Auch anhand des Boxplots wird im vorliegenden Fall deutlich, dass mit den Daten etwas nicht stimmt. Während sich plausible Werte am unteren Ende der Skala konzentrieren, existiert oberhalb und mit deutlichem Abstand ein Datenausreisser. Aufgrund seiner Lage ausserhalb der „Antennen“ (Markierung des kleinsten und grössten Wertes) wurde er auch durch SPSS als extremer Ausreisser erkannt und wird daher mit einem Sternchen markiert. Schwächere Ausreisser werden dagegen durch einen Kreis dargestellt. Um die Fehlerkorrektur zu erleichtern, wird der Datenpunkt ausserdem mit einer Fallnummer versehen, die die Identifikation der Stichprobeneinheit im Datensatz erleichtert.

SPSS Datenbereinigung Ausgabe Boxplot

Fehlerhafte Daten bzw. Datenausreisser können z. B. auch durch die Verwendung einer falschen Einheit entstehen. Werden Personen nach ihrer Körpergrösse in Zentimetern gefragt, würde sich die Eingabe „1,80“ ebenfalls als Datenausreisser niederschlagen.

In allen Fällen bestehen Möglichkeiten der Fehlerkorrektur. Grundsätzlich liegen die Alternativen in einer Löschung oder Änderung des Wertes. Lässt sich der korrekte Wert nachträglich ermitteln, bspw. wenn eine Person statt ihres Alters ihr Geburtsjahr angibt, kann die Angabe dieser Person nachträglich korrigiert werden. Mutmassungen über den vermeintlich korrekten Wert sollten aber im Sinne der Datenqualität unterlassen werden, sodass man nicht nachvollziehbare Werte löscht bzw. als fehlend markiert. Eine weitere Möglichkeit zum Umgang mit Ausreissern besteht mit der Markierung entsprechender Fälle im Zuge einer neuen, dichotomen (Flag-)Variable. Bei den anschliessenden Analysen können diese Fälle dann leicht ausgeschlossen werden, ohne sie aus dem Datensatz zu löschen.

 


Identifikation von fehlenden Werten

Fast jeder Umfragedatensatz enthält fehlende Werte. Wollen für die Stichprobe ausgewählte Personen gar nicht erst an der Umfrage teilnehmen, ist Unit-Nonresponse die Folge. Durch Unit-Nonresponse wird die Ausschöpfungsrate der Erhebung gesenkt, was allerdings nicht zwingend mit negativen Folgen für die Repräsentativität der Stichprobe verbunden ist. Die Angaben der Stichprobe werden nur dann verzerrt, wenn der Grund der Nichtteilnahme mit den interessierenden Merkmalen zusammenhängt. In solchen Fällen können Verfahren der Datengewichtung den Ausfall der Zielpersonen teilweise kompensieren. In studentischen Arbeiten spielen diese Erwägungen häufig aber keine Rolle, weil sich Personen für Online-Umfragen selbst rekrutieren und die Massgabe der Repräsentativität nicht erfüllt werden soll.

Wollen ausgewählte Personen hingegen einzelne Fragen nicht beantworten, so entsteht Item-Nonresponse. Das Phänomen trifft vor allem bei sensitiven Fragen auf und zeigt sich z. B. darin, dass gut verdienende Personen keine Angabe zum monatlichen Einkommen machen wollen. Auch hier bestehen Möglichkeiten der Kompensation, die in der Methodenliteratur unter dem Stichwort Datenimputation diskutiert werden. So kann bspw. mit den vorhandenen Daten ein Regressionsmodell berechnet werden, dessen Ergebnisse die fehlenden Werte füllt. Allerdings kommen auch Verfahren der Datenimputation in studentischen Arbeiten selten zum Einsatz. Item-Nonresponse entsteht auch dann, wenn eine Person die Umfrage vorzeitig abbricht. In diesem Fall ist abzuwägen, ob die verbleibenden Angaben ausreichend sind, um den Fall im Datensatz zu belassen.

Entscheidend für den Umgang mit fehlenden Werten ist jedoch zunächst, diese zu erkennen und sie im Datensatz korrekt als solche zu deklarieren. Einer der wohl häufigsten Fehler bei der Datenanalyse resultiert daraus, dass SPSS die fehlenden Werte nicht als solche erkennt. Macht eine befragte Person bei einer Frage keine Angabe, wird dieser Person seitens des Online-Umfrage-Tools häufig ein Platzhalter zugewiesen, der für den fehlenden Wert steht. Auch Datensätze für Sekundäranalysen beinhalten häufig solche Codes für fehlende Werte (z. B. „-7“, „99“). Werden diese Werte in SPSS nicht als fehlend markiert, so hält das Programm sie für substanzielle Angaben, die fehlerhafte Analyseergebnisse nach sich ziehen.

Als Beispiel ziehen wir erneut einen Datensatz mit Altersangaben von 20 befragten Personen heran. Da es sich um einen kleinen Datensatz handelt, fällt die unplausible Angabe „999“ bei Person 12 sofort in den Blick. Bei grösseren Datensätzen könnten solche Werte erneut über deskriptive Statistiken oder Boxplots erkannt werden (s. o.).

SPSS Datenbereinigung Datensatz – alter

In der Variablenansicht von SPSS fällt mit Blick auf die Variable „alter“ auf, dass bislang keine fehlenden Werte definiert wurden. Laut Codebuch oder Angaben des Online-Tools steht „999“ allerdings für eine solche fehlende Angabe, die folglich noch zugewiesen werden muss.

SPSS Datenbereinigung Variablenansicht – fehlende Werte

Hierfür kann man in der Variablenansicht auf die drei Punkte in der Zelle „Fehlend“ klicken. Unter Aktivierung der Option „Einzelne fehlende Werte“ können nun bis zu drei Werte eingetragen werden. Auf diese Weise ist es möglich, zwischen verschiedenen Ursachen für fehlende Werte zu unterscheiden. In diesem Fall wird lediglich „999“ in eines der Felder eingetragen und mit „OK“ bestätigt.

SPSS Datenbereinigung Dialogfeld fehlende Werte

Der Vergleich deskriptiver Statistiken vor und nach Definition fehlender Werte macht deutlich, dass SPSS nun 19 statt 20 gültige Fälle erfasst und bei der Berechnung deskriptiver Kennzahlen ausschliesslich diese berücksichtigt.

alter
N Gultig 20
Fehlend 0
Mittelwert 90,3500
Median 42,0000
Std.-Abweichung 214,63905
Spannweite 981,00
Minimum 18,00
Maximum 999,00
alter
N Gultig 19
Fehlend 1
Mittelwert 42,5263
Median 41,0000
Std.-Abweichung 18,60218
Spannweite 70,00
Minimum 18,00
Maximum 88,00

Über die Syntax werden fehlende Werte mithilfe der folgenden Befehlszeile definiert. Dabei können sowohl mehrere Variablen als auch mehrere fehlende Werte in einem Arbeitsschritt behandelt werden. Variablennamen werden durch ein Leerzeichen, mehrere fehlende Werte innerhalb der Klammer durch Kommas getrennt.

 

MISSING VALUES alter (999).

 


Plausibilitätschecks und mechanische Antworttendenzen

Werden durch die befragten Personen unplausible Angaben gemacht, sind diese häufig die Folge einer falschen Filterführung im Fragebogen. Wird z. B. gefragt, ob eine Person Kinder hat, muss bei Verneinung eine mögliche Folgefrage nach der Anzahl der Kinder automatisch ausgeblendet werden. Kann die Person aufgrund falscher Einstellungen im Fragebogen die Frage dennoch beantworten, können unplausible Angaben entstehen. Unplausible Angaben dieser Ursache lassen sich daher am effizientesten bereits durch eine aufmerksame Gestaltung des Fragebogens vermeiden. Entstehen sie dennoch, können die unplausiblen Angaben auch durch eine genaue Betrachtung des Datensatzes identifiziert werden.

Hierfür eignen sich z. B. Kreuztabellen, mit denen die Kombination der Häufigkeiten beider Variablen betrachtet werden kann. Eine solche Kreuztabelle kann z. B. auch dann für einen Plausibilitätscheck verwendet werden, wenn man wissen will, ob die Angaben zur Erwerbstätigkeit mit den Angaben zum eigenen Einkommen übereinstimmen. Ist dies nicht der Fall, könnte der Fehler bspw. bei einer missverständlichen Frageformulierung oder fehlerhaften Programmierung des Fragebogens liegen.

Unplausible Angaben können aber auch durch eine unaufmerksame Zielperson entstehen, die mit der Bearbeitung des Fragebogens möglichst schnell vorankommen will. Hierfür kann die Person mechanische Antworttendenzen nutzen, ohne dabei den Inhalt der Frage zu erfassen, und so die Datenqualität negativ beeinträchtigen. Mechanische Antworttendenzen lassen sich vor allem dann gut identifizieren, wenn eine befragte Person in einer Itembatterie die immer gleiche Antwortkategorie auswählt. Als Beispiel dient eine fiktive Itembatterie, die wie folgt beantwortet wird:

Datenbereinigung SPSS

SPSS Datenbereinigung mechanisch

Auch in einem grossen Datensatz lässt sich ein solches Antwortmuster mit wenig Aufwand erkennen. Als Beispiel dient ein Datensatz mit 40 Zielpersonen, die die Itembatterie bearbeitet haben. Optisch sind die mechanischen Antwortmuster nur schwer zu identifizieren. Stattdessen wird eine neue Variable berechnet, die die Standardabweichung der fünf Items für jede befragte Person enthält.

SPSS Datenbereinigung Datensatz – batterie

Hierfür wählt man „Transformieren“ und „Variable berechnen“. Im folgenden Dialogfeld wird zunächst der Name der neuen Variable festgelegt, die hier mit „sd_batterie“ benannt wird. Anschliessend wird aus der Liste der Funktionen „Sd“ für Standardabweichung ausgewählt und mit dem blauen Pfeil in das Feld „numerischer Ausdruck“ verschoben. Alternativ kann hier auch direkt „SD“ eingetragen werden. In Klammern folgen anschliessend die Variablennamen, für die die Standardabweichung in der neuen Variable gespeichert werden soll. Diese werden durch Kommas getrennt. Die Auswahl kann nun mit „OK“ bestätigt werden.

SPSS Datenbereinigung Menüführung

SPSS Datenbereinigung Dialogfeld berechnen

Im Anschluss lassen wir uns über „Analysieren“, „Deskriptive Statistik“ und anschliessend „Häufigkeiten“ zur Veranschaulichung eine Häufigkeitstabelle der neuen Variable ausgeben. Die Tabelle zeigt, dass für zwei befragte Personen über alle 5 Items hinweg eine Standardabweichung von 0 resultiert. Diese Personen haben folglich ihr Antwortverhalten in der Batterie nicht variiert, sodass eine mechanische Antworttendenz geschlussfolgert wird.

SPSS Datenbereinigung Häufigkeit sd_batterie

Zur Wiederherstellung der Datenqualität können diese Personen über die neue Variable einfach von der Analyse ausgeschlossen werden. Dies kann z. B. über eine Auswahl von Fällen im Menü „Daten“, „Fälle auswählen“ erfolgen. Hier wird ausgewählt, dass nur solche Personen im Datensatz verbleiben, deren Standardabweichung ungleich 0 ist.

SPSS Datenbereinigung Dialogfeld Fallauswahl

Über die Syntax lässt sich die neue Variable „sd_batterie“ mithilfe des COMPUTE-Befehls generieren. Anschliessend wird eine Häufigkeitstabelle generiert und mithilfe eines Filters werden die Personen ausgeschlossen, die mechanische Antworten gaben.

 

COMPUTE sd_batterie=SD(gesellig,chaotisch,schüchtern,ruhig,extrovertiert).
EXECUTE.

FREQUENCIES VARIABLES=sd_batterie
/ORDER=ANALYSIS.

USE ALL.
COMPUTE filter_$=(sd_batterie~=0).
VARIABLE LABELS filter_$ 'sd_batterie~=0 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.

Weiterführende Literatur:

  • Baur, N., Blasius, J. (Hrsg.) (2014). Handbuch Methoden der empirischen Sozialforschung. Wiesbaden: Springer.
  • Eckstein, P. P. (2017). Datenanalyse mit SPSS. Wiesbaden: Springer.
  • Steiner, E., Benesch, M. (2018). Der Fragebogen: Von der Forschungsidee zur SPSS-Auswertung. Stuttgart: UTB.