Frageformen und Antwortausprägungen – in einem anderen Artikel wurde bereits die grundlegende Vorgehensweise bei der Erstellung und Operationalisierung eines Fragebogens erörtert. Zur Planung eines Fragebogens und seiner Items gehört aber auch die Überlegung, wie die Antwortausprägungen gestaltet werden sollten. Grundsätzlich existieren zahlreiche Optionen – von offenen Fragen bis hin zu geordneten, mehrkategoriellen Antwortvorgaben. In diesem Artikel geht es also darum, welche Kriterien Art und Anzahl der Antwortkategorien bestimmen.
Frageformen und Antwortausprägungen in standardisierten Umfragen
Frageformen, Arten von Antwortausprägungen inkl. Antwortskalen im quantitativen Fragebogen mit Tipps und Beispielen.
Offene Fragen
Eine häufig verwendete Frageform ist die offene Frage. Dabei werden den befragten Personen keine Antwortvorgaben präsentiert. Stattdessen sollen sie je nach Erhebungsmodus ihre Antwort z. B. direkt in ein freies Textfeld eintippen. Der Einsatz einer offenen Frage bietet sich dann an, wenn die Bandbreite möglicher Antworten unbekannt ist. Sollen z. B. Vorname, Geburtsort oder Markenprodukte erhoben werden, ist es wenig sinnvoll, den Befragten eine Vorauswahl anzubieten, da die Anzahl möglicher Ausprägungen zu hoch ist. Auch bei explorativen Untersuchungen ist das häufig der Fall, da nur wenig Vorwissen über das Antwortspektrum besteht.
Weiterer Anlass für die Verwendung offener Fragen ist der Versuch, befragte Personen bei ihrer Antwort nicht zu beeinflussen. Beispiele sind das für die Befragten wichtigste politische Problem oder die Anzahl der täglich konsumierten Zigaretten. Würde man für diese Fragen Antwortkategorien anbieten, enthielten diese bereits Bezugspunkte, an denen sich die antwortende Person orientieren kann. Im Beispiel der Zigaretten würde die Person ihren Konsum möglicherweise verzerrt angeben, weil sie bemerkt, dass das Ausmass ihres Tabakkonsums am oberen Extrempol einer Skala liegt.
Offene Fragen bringen aber auch Nachteile mit sich. So kann die Auswertung der frei formulierten Antworten zeitintensiv ausfallen, vor allem bei Textinhalten. Die hohe Anzahl verschiedener Antworten muss systematisch ausgewertet werden, was eine Kodierung erfordert. Mögliche Tippfehler der Befragten erschweren diesen Prozess und müssen möglicherweise zunächst korrigiert werden. Bei längeren Antwortformulierungen können sogar Methoden der qualitativen Inhaltsanalyse notwendig werden, die aber bei einem hohen Stichprobenumfang kaum zu realisieren sind.
Numerische Antworteingaben bei offenen Fragen sind häufig mit einem weiteren Problem verbunden. Unter dem Phänomen des Heaping versteht die Umfrageforschung die Tendenz von Befragten, ihre Antwort zu runden. Fragt man eine rauchende Person nach der Anzahl der täglich konsumierten Zigaretten, antwortet sie vermutlich mit gerundeten Werten, z. B. mit „10“ oder „15“. Als Ursache hierfür gilt eine Verringerung des Aufwandes durch die Befragten in erster Linie bei grösseren Zahlen. In vielen Fällen kommt es aber darauf an, genaue Angaben zu erhalten. Hilfreich kann in diesem Fällen ein Hinweis im Fragebogen sein, der um möglichst exakte Angaben bittet.
Geschlossene Fragen ohne Reihenfolge der Antwortvorgaben
Geschlossene Fragen grenzen sich von offenen Fragen ab, indem sie Befragten mehrere Antwortkategorien anbieten. Abhängig davon, wie hoch die Anzahl dieser Antwortkategorien ist und ob diese in eine geordnete Reihenfolge gebracht werden können, unterscheidet man geschlossene Fragen noch weiter. Die grundlegendste Form einer geschlossenen Frage ist eine mit lediglich zwei Antwortkategorien. Will man z. B. erfassen, ob eine Person zum Zeitpunkt der Umfrage verheiratet oder berufstätig ist, existieren ausschliesslich die beiden Antwortoptionen „Ja“ oder „Nein“. Diese Fragen werden als dichotom bezeichnet.
Abseits dichotomer Fragen können mehrkategorielle Antwortausprägungen angeboten werden. Bei ungeordneten, mehrkategoriellen Antwortvorgaben kann innerhalb der Antwortmöglichkeiten keine sinnvolle Reihenfolge gebildet werden. Das ist z. B. der Fall, wenn Befragte zur Angabe ihres Wohnorts zwischen 16 Bundesländern wählen können. Eine solche Frage bezeichnet man auch als Single-Choice-Frage, weil auf jede Person genau eine Antwort zutrifft.
Eine weitere Variante ungeordneter, mehrkategorieller Antwortvorgaben ist die Multiple-Choice-Frage (dt. Mehrfachauswahl). Dabei kann die befragte Person mehrere auf sie zutreffende Antworten auswählen. Ein grosser Hersteller von Tiefkühlpizzen könnte z. B. ein Marktforschungsinstitut beauftragen, die beliebtesten Pizzabeläge der deutschen Bevölkerung zu ermitteln. Nach der Fragestellung dürfen die Befragten bis zu drei Zutaten aus einer Liste von 20 Belägen auswählen. Dabei ist es wichtig, den Befragten die Möglichkeit der Mehrfachauswahl in der Frage zu verdeutlichen. Möglich ist auch die Kombination mit einem offenen Antwortfeld als sogenannte Hybridfrage.
Problematisch kann jedoch die Reihenfolge der angebotenen Antwortvorgaben sein. Gerade bei längeren Antwortlisten tendieren Personen dazu, den Aufwand für eine Antwort gering zu halten. In diesem Fall werden Antworten am Anfang oder am Ende des Fragebogens häufiger gewählt (Primacy- und Recency-Effekt). Wenn im Pizzabeispiel die Antworten „Thunfisch“ an erster und „Salami“ an letzter Stelle stehen, werden diese also möglicherweise unabhängig von der tatsächlichen Meinung häufiger gewählt. Als Gegenmassnahme bietet es sich u. a. an, die Antwortkategorien in wechselnder Reihenfolge darzustellen. Viele Anbieter:innen für Online-Umfragen ermöglichen daher bei diesen Fragetypen eine zufallsbasierte Anordnung der Antworten. Eine Alternative besteht in der Umwandlung der Frage in eine Reihe dichotomer Fragen. In diesem Fall müssen Befragte für jeden Belag einzeln angeben, ob sie ihn mögen oder nicht.
Geschlossene Fragen mit Reihenfolge der Antwortkategorien
Fragen mit mehrkategoriellen, geordneten Antwortausprägungen treten häufig als Ratingskalen auf. Gefragt wird dabei z. B. nach Häufigkeiten, Intensitäten oder Wahrscheinlichkeiten. So begegnet uns nach dem Kauf eines Produktes oder einer Dienstleistung häufig ein Messinstrument des „Net Promoter Score“. Dabei wird gefragt, wie wahrscheinlich es ist, dass man ein Produkt oder eine Dienstleistung weiterempfiehlt. Da die Antwortskala in der Regel von 0 (unwahrscheinlich) bis 10 (äusserst wahrscheinlich) reicht, handelt es sich um eine geordnete Reihenfolge der Antwortausprägungen. Skalen des Likert-Typs sind ebenfalls verbreitete Ratingskalen und erfassen den Grad der Zustimmung von Befragten zu vorgegebenen Aussagen.
Planung und Gestaltung der Ratingskalen sollten sich an den Erkenntnissen und Empfehlungen der Methodenliteratur orientieren. Wichtig ist zunächst, dass die Ratingskala das vollständige Spektrum an Antworten abbildet. Innerhalb der Skala dürfen sich benachbarte Skalenpunkte möglichst nicht überschneiden. Zudem sind Überlegungen über die Anzahl der Skalenpunkte und ihre Benennung anzustellen.
Items unterscheiden sich in der Praxis mit Blick auf die Anzahl ihrer Antwortausprägungen teils erheblich. So begegnen einem in der Praxis teils Items mit Skalenpunkten von 0 bis 100. raglich ist dabei, ob Befragte bei einer so kleinteiligen Skalierung noch Unterschiede zwischen benachbarten Skalenpunkten erkennen. Die Genauigkeit des Messinstruments steigt nach gängiger Auffassung nur bis zu etwa sieben Antwortkategorien spürbar an. Je mehr Skalenpunkte darüber hinaus angeboten werden, desto seltener werden die Zwischenstufen tatsächlich genutzt. Diese Einschätzung wird durch empirische Ergebnisse gestützt: Simms et al. (2019) testeten in einer experimentellen Studie mit 1.358 Teilnehmenden Likert-Skalen mit 2 bis 11 Antwortpunkten. Dabei zeigte sich, dass die Reliabilität der Skalen nur bis zu einem Umfang von sechs Antwortoptionen anstieg. Skalen mit mehr als sechs Kategorien boten keinen weiteren Gewinn an Messpräzision. Die Autoren kommen daher zu dem Schluss, dass eine 6‑Punkte-Skala ausreichend ist.
Bei weniger als fünf Kategorien wiederum sind die Unterschiede zwischen den Befragten häufig zu gering ausgeprägt. Eine bewährte Faustregel lautet deshalb, zwischen fünf und sieben Skalenpunkten zu wählen – in Abhängigkeit davon, ob ein neutraler Mittelpunkt erwünscht ist.
Gerade vs. ungerade Likert-Skala: Welche Variante ist sinnvoller?
In der Umfrageforschung wird intensiv diskutiert, ob eine gerade oder ungerade Anzahl an Skalenpunkten vorzuziehen ist. Im Zentrum steht die Frage, ob eine neutrale Mittelkategorie angeboten werden soll, was sich nur bei ungeraden Skalen realisieren lässt. Eine gerade Anzahl zwingt Befragte dazu, sich für eine der beiden Richtungen zu entscheiden, was je nach Kontext als Vorteil oder als Einschränkung gewertet werden kann. Befürworter ungerader Skalen betonen die Notwendigkeit, echte Neutralität als legitime Antwortmöglichkeit zuzulassen.
Eine Metastudie von Kusmaryono et al. (2022), die 60 Studien auswertete, zeigt, dass etwa 90 % der Erhebungen ungerade Skalen (meist mit fünf Punkten) verwenden. In Bezug auf psychometrische Qualität (Reliabilität und Validität) schnitten Skalen mit fünf bis sieben Punkten am besten ab. Ein 6‑Punkte-Format empfehlen die Autoren gezielt für Situationen, in denen Befragte zu einer klaren Entscheidung bewegt werden sollen.
Einer experimentellen Studie von Kankaraš und Capecchi (2024) zufolge, weisen Skalen mit einer neutralen Option („weder Zustimmung noch Ablehnung“) leicht bessere Kennwerte auf – sowohl in Bezug auf Reliabilität als auch erklärte Varianz. Die Mehrheit der Teilnehmenden nutzte die Mittelkategorie funktional korrekt und nur eine Minderheit schien sie als Ausweichreaktion bei Unsicherheit zu wählen.
Franzen (2022) kommt in einer Methodenübersicht ebenfalls zu dem Schluss, dass ungerade Skalen empirisch tendenziell überlegen sind. Unter anderem verweist er auf Befunde, die eine höhere Reliabilität bei Skalen mit Mittelkategorie fanden. Daraus leitet Franzen die Gestaltungsregel ab, dass Antwortkategorien idealerweise ungerade sein sollten.
Diese Befunde deuten darauf hin, dass ungerade Skalen – insbesondere mit fünf oder sieben Punkten – in vielen Kontexten die methodisch robustere Wahl darstellen, sofern nicht gezielt auf eine Entscheidungssituation ohne neutrale Option abgezielt wird.
Abbildung 1: Beispiele für Ratingskalen mit und ohne Benennung der numerischen Skalenpunkte
Benennung & Nummerierung der Items
Die Benennung der Skalenpunkte sollte laut Forschungsstand einer rein numerischen Darstellung der Skala vorgezogen werden, weil für eine verbalisierte Skala geringerer Interpretationsspielraum besteht. Entscheidet man sich also dafür, jeden einzelnen Skalenpunkt zu benennen, sollten die Bezeichnungen aber nicht aus dem Bauch heraus entwickelt werden. Im Gegenteil finden sich in der Literatur und in Datenbanken zahlreiche Referenzen für getestete Benennungen (siehe weiterführende Literatur). Hintergrund ist, dass möglichst alle Befragten über dasselbe Verständnis der Skalenpunkte verfügen sollten. Eine überlegte Benennung stellt zusätzlich sicher, dass die Interpretation der Abstände zwischen den Skalenpunkten zwischen den Befragten konstant ist. Möglich sind aber auch kreative Lösungen wie die Zuordnung von Skalenpunkten zu Smileys bzw. Emojis z. B. bei der Befragung von Kindern.
Abbildung 2: Beispiel für Smileys als Skalenpunkte
Eine letzte Überlegung zu beinahe allen Fragetypen betrifft die Frage nach nicht inhaltlichen Antwortvorgaben. Dabei sollte man in Erwägung ziehen, den Befragten neben den inhaltlichen Antwortvorgaben eine weitere Kategorie anzubieten, falls diese nicht antworten können oder möchten. Benennungen solcher nicht inhaltlichen Kategorien können „weiss nicht“, „trifft nicht zu“ oder „keine Angabe“ lauten. Wird eine befragte Person z. B. bei der Frage nach ihrem monatlichen Einkommen zur Auswahl eines Skalenpunktes gezwungen, steigt die Gefahr falscher Angaben oder sogar eines Umfrageabbruchs.
Offene Fragen
|
Geschlossene Fragen | ||
Dichotome Fragen
|
Mehrkategorielle Frage
(ungeordnete Antworten) |
Mehrkategorielle Frage
(geordnete Antworten) |
|
Was gefiel Ihnen an diesem Webinar besonders gut?
|
Haben Sie am Webinar teilgenommen? | Aus welchen Gründen haben Sie das Webinar besucht? (Mehrfachnennungen möglich, max. 3 Antworten) |
Würden Sie das Webinar weiterempfehlen? |
Ja
|
Prüfungsvorbereitung | (1) Keinesfalls |
|
Persönliches Interesse am Thema | (2) Wahrscheinlich nicht |
||
Pflichtveranstaltung | (3) Vielleicht |
||
Nein
|
Gemeinsamer Besuch mit Freund:innen | (4) Ziemlich wahrscheinlich |
|
Wegen der lehrenden Person | (5) Ganz sicher |
Tabelle 1: Zusammenfassung der wichtigsten Frageformen mit Beispielen
- Dillman, D. A., Smyth, J. D., Christian, L. M. (2014). Internet, phone, mail, and mixed-mode surveys: the tailored design method. New Jersey: John Wiley & Sons.
- Franzen, A. (2022). Antwortskalen in standartisierten Befragungen. In: Baur, N., Blasius, J. (eds) Handbuch Methoden der empirischen Sozialforschung. Springer VS, Wiesbaden.
- Kankaraš, M., Capecchi, S. (2024). Neither agree nor disagree: use and misuse of the neutral response category in Likert-type scales. METRON 83, 111–140.
- Kusmaryono, I., Wijayanti, D. & Maharani, H. R. (2022). Number of Response Options, Reliability, Validity, and Potential Bias in the Use of the Likert Scale Education and Social Science Research: A Literature Review. International Journal of Educational Methodology, 8(4), 625-637.
- Lietz, P. (2010). Research into questionnaire design: A summary of the literature. International journal of market research, 52(2), 249–272.
- Menold, N., Bogner, K. (2015). Gestaltung von Ratingskalen in Fragebögen (Version 1.1). (GESIS Survey Guidelines). Mannheim: GESIS – Leibniz-Institut für Sozialwissenschaften. https://doi.org/10.15465/gesis-sg_015
- Schnell, R. (2019). Survey-Interviews. Wiesbaden: Springer.
- Simms, L.J., Zelazny, K., Williams, T.F. & Bernstein, L. (2019). Does the number of response options matter? Psychometric perspectives using personality questionnaire data. Psychological Assessment, 31(4), 557-566.