Ratgeber zur statistischen Auswertung

t-Test in SPSS durchführen

t-Test in SPSS durchführen: alle drei Varianten Schritt für Schritt — Voraussetzungen, Durchführung, Output und korrekter Ergebnisbericht.

Inhaltsverzeichnis
SPSS-Output eines t-Tests mit markierten Kennwerten neben Notizen — Symbolbild für die Durchführung des t-Tests in SPSS

Der t-Test ist für die meisten Promovierenden der erste Signifikanztest ihres Lebens — und gerade weil er so zugänglich wirkt, sammeln sich an ihm die Standardfehler: die falsche Variante für die Datenstruktur, das missverstandene Levene-Ritual, der Bericht ohne Effektstärke, die nachträglich gewählte Testrichtung. Dieser Beitrag führt durch die saubere Komplettstrecke in SPSS — alle drei Varianten von der Voraussetzungsprüfung über die Durchführung per Dialog und Syntax bis zur Output-Interpretation Zeile für Zeile und dem berichtsfertigen Ergebnissatz. Dazu die zeitgemäßen Entscheidungen (Welch als Standard, Effektstärken aus neueren SPSS-Versionen), die Alternativen bei verletzten Voraussetzungen und die Fehler, die Gutachter beim meistgerechneten Test der Welt am häufigsten anstreichen.

Die richtige Variante: eine Frage der Datenstruktur

Vor jedem Klick steht die Strukturfrage, denn die drei t-Test-Varianten beantworten verschiedene Designs. Der t-Test für unabhängige Stichproben vergleicht zwei getrennte Gruppen — jede Person liefert genau einen Wert, die Gruppenzugehörigkeit steht in einer zweiten Variable. Der t-Test für verbundene Stichproben vergleicht zwei Messungen derselben Fälle — prä/post, zwei Bedingungen, gematchte Paare; die Daten stehen als zwei Spalten nebeneinander. Der Einstichproben-t-Test prüft einen Mittelwert gegen einen externen Referenzwert — Normstichprobe, Grenzwert, theoretischer Sollwert.

Die Verwechslungsgefahr läuft fast immer in eine Richtung: verbundene Daten mit dem unabhängigen Test gerechnet — etwa Vorher-Nachher-Werte als zwei „Gruppen”. Das ignoriert die Paarung, verschenkt massiv Power (die interindividuelle Streuung bleibt unkontrolliert) und verletzt nebenbei die Unabhängigkeitsannahme. Die Kontrollfrage dauert eine Sekunde: Stammen die zu vergleichenden Werte von denselben Fällen? Dann verbunden.

Voraussetzungen: prüfen mit Augenmaß

Die Prüfliste ist kurz, ihre Gewichtung entscheidend. Die Unabhängigkeit der Beobachtungen ist die wichtigste und zugleich unprüfbare Annahme — sie ist eine Designfrage: keine Mehrfachmessungen derselben Person im unabhängigen Test, keine verschachtelten Strukturen (Schüler in Klassen), die nach Mehrebenenmodellen verlangen. Das metrische Skalenniveau der Zielvariable ist die zweite Pflicht — bei geprüften Mehr-Item-Skalen etabliert, bei Einzelitems begründungsbedürftig. Die Normalverteilung schließlich gilt der Teststatistik-Herleitung — geprüft wird sie grafisch (Histogramm, QQ-Plot) je Gruppe beziehungsweise an den Differenzen beim verbundenen Test; formale Tests wie Shapiro-Wilk sind bei kleinen Stichproben schwach und bei großen überempfindlich, weshalb der grafische Befund führt. Entwarnung gibt der zentrale Grenzwertsatz: Ab etwa 30 Fällen je Gruppe ist der t-Test robust gegen moderate Abweichungen — kritisch bleiben kleine Stichproben mit deutlicher Schiefe oder Ausreißern.

Die Varianzhomogenität verdient den eigenen Absatz, weil sich hier die Praxis gewandelt hat: Das klassische Ritual — Levene-Test lesen, danach die Output-Zeile wählen — ist fehleranfällig und statistisch fragwürdig (ein Vortest steuert die Testwahl). Die zeitgemäße Lösung ist schlicht: standardmäßig die Welch-Zeile berichten, die keine Varianzgleichheit voraussetzt und auch bei gleichen Varianzen kaum Power kostet. Ein Satz im Methodenteil dokumentiert die Entscheidung — und das Levene-Thema ist erledigt.

Durchführung in SPSS: die drei Wege

Unabhängige Stichproben

Der Dialogweg: Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben; Testvariable einsetzen, Gruppenvariable mit definierten Gruppen (die beiden Codes angeben), unter Optionen das Konfidenzintervall belassen. Neuere SPSS-Versionen bieten im Dialog die Effektstärken-Option — aktivieren. Wie immer gilt: Einfügen statt OK; die Syntax dokumentiert den Test:

T-TEST GROUPS=gruppe(1 2)
  /VARIABLES=score
  /ES DISPLAY(TRUE)
  /CRITERIA=CI(.95).

Verbundene Stichproben

Analysieren → Mittelwerte vergleichen → t-Test bei verbundenen Stichproben; beide Messvariablen als Paar einsetzen. Die Syntax: T-TEST PAIRS=score_t1 WITH score_t2 (PAIRED) /ES DISPLAY(TRUE). Geprüft wird hier die mittlere Differenz gegen null — entsprechend gilt die Normalitätsprüfung den Differenzwerten, die sich als neue Variable (COMPUTE) schnell erzeugen und sichten lassen.

Eine Stichprobe

Analysieren → Mittelwerte vergleichen → t-Test bei einer Stichprobe; Testwert eintragen — der externe Referenzwert, dessen Herkunft (Norm, Literatur, Sollvorgabe) im Text belegt wird. Syntax: T-TEST /TESTVAL=50 /VARIABLES=score /ES DISPLAY(TRUE).

Den Output lesen: Zeile für Zeile

Der Output des unabhängigen Tests liefert drei Tabellen, deren Lektüre in fester Reihenfolge Fehler verhindert. Erstens die Gruppenstatistiken: M, SD und n je Gruppe — die deskriptive Basis jedes Berichts und der Plausibilitätscheck (stimmen die Fallzahlen, liegen die Mittelwerte in erwartbarer Region?). Zweitens die Testtabelle: Sie enthält zwei Zeilen — „Varianzen sind gleich” und „Varianzen sind nicht gleich” (Welch); nach der oben getroffenen Entscheidung wird die Welch-Zeile gelesen: t-Wert, (nicht ganzzahlige) Freiheitsgrade, p-Wert — in neueren Versionen ein- und zweiseitig, wobei die vorab festgelegte Hypothesenrichtung die Spalte bestimmt — sowie Mittelwertsdifferenz mit Konfidenzintervall. Drittens die Effektstärken-Tabelle: Cohens d (bei ungleichen Varianzen die angepassten Varianten) mit Konfidenzintervall.

Beim verbundenen Test tritt an die Stelle der Gruppenstatistiken die Paar-Tabelle (beide Messungen plus deren Korrelation — hohe Korrelation erklärt die Power des Designs), die Testtabelle prüft die mittlere Differenz. Die Interpretationsreihenfolge bleibt überall gleich: erst Deskription, dann Differenz mit Intervall, dann Signifikanz, dann Effektstärke — der p-Wert ist eine Station, nicht das Ziel.

Output-ElementWo es stehtWofür es gebraucht wird
M, SD, n je GruppeGruppenstatistikenBerichtssatz, Plausibilität
t, df, p (Welch-Zeile)Testtabelle, 2. ZeileSignifikanzurteil
Mittelwertsdifferenz + 95%-KITesttabelleGröße und Präzision in Originaleinheit
Cohens d + 95%-KIEffektgrößen-Tabellestandardisierte Effektgröße
Korrelation der Paarenur verbundener TestEinordnung des Designs

Grafisch begleiten: die Abbildung zum Test

Der berichtete t-Test gewinnt durch die passende Abbildung — und verliert durch die falsche. Der verbreitete Standard, Balkendiagramme der Mittelwerte mit Fehlerindikatoren, hat dokumentierte Schwächen: Balken suggerieren Mengen statt Lagen, verstecken die Verteilung und laden mit gekappter Achse zur Dramatisierung ein. Die besseren Alternativen zeigen mehr mit weniger Aufwand: Boxplots je Gruppe (Verteilung, Median, Ausreißer auf einen Blick), Punktdiagramme mit Mittelwert und Konfidenzintervall oder — zunehmend Standard in Publikationen — Kombinationen aus Einzelpunkten und Verteilungsdarstellung, die jede Beobachtung sichtbar lassen. Beim verbundenen Design ist die Verbindungslinien-Grafik (jede Person als Linie von t1 nach t2) die ehrlichste Form: Sie zeigt das Muster hinter der mittleren Differenz, inklusive der Fälle, die gegen den Trend laufen.

Praktisch gilt: Wenn die Abbildung die Mittelwertsdifferenz mit Intervall zeigt, erzählen Text und Grafik dieselbe Geschichte in zwei Sprachen — die Leser der Arbeit und die Kommission der Verteidigung danken es gleichermaßen.

Berichten nach Standard

Der vollständige Ergebnissatz folgt dem Muster, das p-Wert und Konfidenzintervall korrekt verbindet: „Die Interventionsgruppe (M = 24,3, SD = 4,1, n = 58) erzielte höhere Werte als die Kontrollgruppe (M = 21,8, SD = 4,6, n = 56); der Unterschied betrug 2,5 Punkte (95 % KI [0,9; 4,1]), t(110,4) = 3,06, p = .003, d = 0,57, 95 % KI [0,19; 0,95].” Jedes Element hat seine Funktion: Die Deskription verortet, die Differenz mit Intervall beziffert in Originaleinheiten, die Teststatistik belegt, die Effektstärke standardisiert. Nicht-signifikante Ergebnisse folgen demselben Muster — mit der Intervall-Einordnung statt der „kein Unterschied”-Floskel. Und die Sprachdisziplin gilt wie überall: In nicht-randomisierten Designs beschreibt der Satz Unterschiede, keine Wirkungen.

Der t-Test ist mein Lieblings-Lackmustest beim Querlesen von Dissertationen: An zwei Zeilen sehe ich die ganze Methodenkultur einer Arbeit. Steht da „p < .05*” ohne Effekt und Intervall, weiß ich, was mich im Rest erwartet. Steht da der vollständige Satz mit Welch-Freiheitsgraden, lese ich entspannt weiter — wer den einfachsten Test sauber berichtet, schlampt selten bei den komplizierten. — Dr. Cornelia Stamm, Methodengutachterin, Kiel, 2024

Häufige Fehler beim t-Test

Die falsche Variante

Verbundene Daten unabhängig getestet (oder umgekehrt) — der Strukturfehler, der Power verschenkt und Annahmen verletzt. Die Eine-Sekunde-Frage nach der Herkunft der Werte verhindert ihn vollständig.

Das Levene-Ritual mit Folgefehler

Levene signifikant übersehen, falsche Zeile zitiert — oder die Freiheitsgrade der einen Zeile mit dem p-Wert der anderen kombiniert. Die Welch-Standard-Entscheidung eliminiert die gesamte Fehlerklasse.

Bericht ohne Effektstärke

Der häufigste Berichtsmangel: t und p stehen da, d fehlt — dabei liefern neuere SPSS-Versionen es frei Haus, und für ältere ist die Handrechnung aus Mittelwerten und Standardabweichungen trivial. Ohne Effektstärke ist kein Mittelwertvergleich vollständig.

Die nachträgliche Einseitigkeit

Aus p = .08 zweiseitig wird p = .04 einseitig — mit nachgeschobener Richtungsbegründung. Die Richtung ist eine A-priori-Festlegung mit Dokumentationspflicht; ihre nachträgliche Wahl ist die kleinste und durchsichtigste Form des p-Hackings.

Mehrere t-Tests statt des passenden Verfahrens

Drei Gruppen, drei paarweise t-Tests — die Alpha-Inflation in Reinform. Ab drei Gruppen übernimmt die Varianzanalyse mit Post-hoc-Korrekturen; Serien von t-Tests über viele Variablen verlangen Multiplizitätskontrolle oder die ehrliche explorative Kennzeichnung.

Vor dem Test: Power und Fallzahl mitdenken

Auch der einfachste Test verdient die Planungsfrage: Trägt die Stichprobe den erwarteten Effekt? Für den unabhängigen t-Test ist die Arithmetik gut greifbar — ein mittlerer Effekt (d = 0,5) verlangt bei üblichen Konventionen rund 64 Fälle je Gruppe, ein kleiner (d = 0,3) bereits 176; der verbundene Test ist dank kontrollierter interindividueller Streuung deutlich genügsamer, was ihn bei planbaren Designs doppelt attraktiv macht. Wer vor der Erhebung plant, rechnet a priori; wer mit gegebener Stichprobe arbeitet, rechnet die Sensitivität — welche Effektgröße war entdeckbar? — und ordnet Nullbefunde daran ein. Beide Rechnungen stehen in einer Minute in G*Power und gehören in den Methodenteil; die ausführliche Anleitung liefert der Fallzahl-Leitfaden.

Die Planungsperspektive schützt auch vor einer stillen Fehlinterpretation des verbundenen Designs: Seine Power hängt an der Korrelation der Messungen — bei hoher Stabilität der Merkmale (r > .7) genügen kleine Stichproben für respektable Power, bei geringer Paar-Korrelation schmilzt der Vorteil. Die Korrelation aus dem Output ist deshalb mehr als eine Nebenzahl: Sie erklärt rückblickend die Präzision und informiert vorausblickend die nächste Studienplanung.

Wenn die Voraussetzungen nicht tragen: die Alternativen

Die Ausweichrouten sind etabliert und in SPSS gleich nebenan. Bei deutlicher Schiefe oder Ausreißern in kleinen Stichproben übernimmt der Rangtest: Mann-Whitney-U für unabhängige, Wilcoxon-Vorzeichen-Rang für verbundene Designs (Analysieren → Nichtparametrische Tests) — berichtet mit Medianen und Quartilen statt Mittelwerten. Für Grenzfälle empfiehlt sich der Doppelweg: parametrisch rechnen, nichtparametrisch absichern, Übereinstimmung dokumentieren — konvergierende Ergebnisse entkräften jede Methodendiskussion, divergierende sind selbst ein Befund (meist über Ausreißer-Einfluss). Eine dritte Route bietet das Bootstrap-Verfahren (in SPSS als Option verfügbar): Konfidenzintervalle ohne Verteilungsannahme, besonders für die Mittelwertsdifferenz. Welche Route gewählt wurde und warum, steht im Methodenteil — die Wahl selbst ist Routine, ihre Verschweigung wäre der Fehler.

Ein Beispiel aus der Promotionspraxis

Ein Doktorand der Sportwissenschaft prüfte die Wirkung eines achtwöchigen Programms auf die Rumpfkraft — randomisiert, Interventions- gegen Kontrollgruppe, je 31 Fälle nach Dropout. Sein erster Durchlauf zeigte die typischen Anfängerspuren: unabhängiger t-Test korrekt gewählt, aber Levene-Zeile falsch zugeordnet, kein d, und für die Prä-Post-Frage innerhalb der Interventionsgruppe ein zweiter unabhängiger Test über die Messzeitpunkte — der Strukturfehler.

Die Korrekturrunde war ein Lehrstück in Kleinigkeiten mit Wirkung: Welch-Zeile als Standard (mit Methodenteil-Satz), Effektstärken-Option aktiviert, der Prä-Post-Vergleich als verbundener Test neu gerechnet — der dank kontrollierter interindividueller Streuung deutlich präziser ausfiel (die Paar-Korrelation von .78 erklärte warum). Der finale Berichtssatz trug alle Elemente; die QQ-Plots beider Gruppen wanderten in den Anhang, der Doppelweg mit Mann-Whitney bestätigte die Robustheit. In der Disputation kam genau eine Frage zum t-Test — nach der Welch-Entscheidung — und die Antwort stand wörtlich im Methodenteil. Sein Kommentar danach: „Der einfachste Test der Arbeit hat mich am meisten über Sorgfalt gelehrt.”

KI-Tools beim t-Test

Beim Standardtest zeigt sich der KI-Workflow von seiner verlässlichsten Seite: Syntax-Generierung, Output-Erklärung und Berichtssatz-Formulierung gelingen den Modellen beim t-Test nahezu fehlerfrei — die Aufgabe ist schlicht gut dokumentiert. Zwei Restwachsamkeiten bleiben: Generierte Berichtssätze übernehmen gern das veraltete Sterne-Format oder lassen das Effektstärken-Intervall weg — die Vollständigkeitsprüfung bleibt Handarbeit; und bei der Variantenwahl übernimmt das Modell die (möglicherweise falsche) Strukturbeschreibung der Anfrage — die Eine-Sekunde-Frage nach der Datenherkunft beantwortet weiterhin der Mensch, der die Erhebung kennt.

Wann professionelle Begleitung sinnvoll ist

Der t-Test selbst ist mit diesem Leitfaden Eigenregie-tauglich — beratungswürdig sind seine Ränder: die Strukturdiagnose bei unklaren Designs (verschachtelte Daten, Messwiederholungen mit mehr als zwei Zeitpunkten — wo Mehrebenen- oder Varianzanalysemodelle übernehmen), die Grenzfall-Strategie bei kleinen, schiefen Stichproben und die Einbettung in die Gesamtauswertung, wenn viele Vergleiche Multiplizitätsfragen aufwerfen. Wer hier punktuell eine erfahrene Einschätzung einholt, klärt in einer halben Stunde, was Foren-Recherche in Tagen nicht klärt — und rechnet den Test danach selbst, mit ruhiger Hand.

Fazit

Der t-Test belohnt Sorgfalt an fünf kleinen Stellen, die zusammen den Unterschied machen: die Variantenwahl streng nach Datenstruktur, die Voraussetzungsprüfung mit Augenmaß (grafisch, mit Welch als entspanntem Standard), die Durchführung per dokumentierter Syntax mit aktivierter Effektstärke, die Output-Lektüre in fester Reihenfolge und der vollständige Berichtssatz von der Deskription bis zum d-Intervall. Wer den einfachsten Test so behandelt, hat mehr gewonnen als ein sauberes Einzelergebnis — er hat die Berichtskultur etabliert, die jede weitere Analyse der Arbeit trägt.

Der sauber berichtete t-Test ist die Visitenkarte der gesamten Auswertung — und in einer Stunde erlernt. Jetzt unverbindlich anfragen →

Häufig gestellte Fragen

Der t-Test für unabhängige Stichproben vergleicht die Mittelwerte zweier getrennter Gruppen (Interventions- vs. Kontrollgruppe). Der t-Test für verbundene Stichproben vergleicht zwei Messungen derselben Fälle (vorher/nachher, gepaarte Designs). Der Einstichproben-t-Test prüft einen Stichprobenmittelwert gegen einen festen Referenzwert (Normwert, Sollwert). Die Wahl folgt allein der Datenstruktur — die häufigste Verwechslung ist der unabhängige Test auf verbundene Daten, der Power verschenkt und die Abhängigkeit ignoriert.
Drei, in absteigender Wichtigkeit: Unabhängigkeit der Beobachtungen (Designfrage — keine Mehrfachmessungen oder Cluster im unabhängigen Test), metrisches Skalenniveau der Zielvariable und annähernde Normalverteilung — beim unabhängigen Test je Gruppe, beim verbundenen Test der Differenzen. Die Varianzhomogenität ist dank der Welch-Korrektur praktisch entschärft. Bei größeren Stichproben (Faustregel ab etwa 30 je Gruppe) ist der Test robust gegen moderate Normalitätsverletzungen; bei kleinen, schiefen Stichproben sind Rangtests die ehrliche Alternative.
Die Variante des unabhängigen t-Tests, die keine gleichen Varianzen voraussetzt — in SPSS automatisch als zweite Ergebniszeile ausgegeben. Die zeitgemäße Empfehlung lautet, standardmäßig die Welch-Zeile zu berichten: Sie ist bei ungleichen Varianzen korrekt und bei gleichen kaum schlechter — das fehleranfällige zweistufige Ritual (erst Levene-Test, dann Zeilenwahl) entfällt damit. Wer so verfährt, schreibt es kurz in den Methodenteil.
Nach dem Vollständigkeitsmuster: deskriptive Kennwerte beider Gruppen (M, SD, n), Teststatistik mit Freiheitsgraden, exakter p-Wert, Effektstärke mit Konfidenzintervall — etwa: „Die Interventionsgruppe (M = 24,3, SD = 4,1, n = 58) erzielte höhere Werte als die Kontrollgruppe (M = 21,8, SD = 4,6, n = 56), t(110,4) = 3,06, p = .003, d = 0,57, 95 % KI [0,19; 0,95].“ Sterne ohne Zahlen und p-Werte ohne Effektgröße gelten als unvollständig.
Neuere SPSS-Versionen geben beide aus. Maßgeblich ist die vorab festgelegte Hypothesenrichtung: Ungerichtete Hypothesen (Standard) verwenden den zweiseitigen p-Wert; der einseitige ist nur zulässig, wenn die Richtung vor der Datenerhebung begründet festgelegt wurde — und diese Festlegung dokumentiert ist. Die nachträgliche Wahl der günstigeren Spalte ist eine Form des p-Hackings und fällt in Gutachten auf.
Gestaffelt reagieren: Bei moderaten Normalitätsabweichungen und ausreichender Stichprobe trägt der t-Test (Welch) weiter — Robustheit dokumentieren. Bei kleinen Stichproben mit deutlicher Schiefe oder Ausreißern wechseln Sie zum Rangtest-Pendant: Mann-Whitney-U statt unabhängigem, Wilcoxon-Vorzeichen-Rang statt verbundenem t-Test. Der Doppelweg — parametrisch rechnen, nichtparametrisch absichern, Übereinstimmung berichten — ist die diplomatischste Lösung für Grenzfälle.

Unterstützung bei der Statistik Ihrer Doktorarbeit?

Wir begleiten Sie bei Methodik, Verfahren, Auswertung und Interpretation in SPSS, R und STATA.