Der t-Test ist für die meisten Promovierenden der erste Signifikanztest ihres Lebens — und gerade weil er so zugänglich wirkt, sammeln sich an ihm die Standardfehler: die falsche Variante für die Datenstruktur, das missverstandene Levene-Ritual, der Bericht ohne Effektstärke, die nachträglich gewählte Testrichtung. Dieser Beitrag führt durch die saubere Komplettstrecke in SPSS — alle drei Varianten von der Voraussetzungsprüfung über die Durchführung per Dialog und Syntax bis zur Output-Interpretation Zeile für Zeile und dem berichtsfertigen Ergebnissatz. Dazu die zeitgemäßen Entscheidungen (Welch als Standard, Effektstärken aus neueren SPSS-Versionen), die Alternativen bei verletzten Voraussetzungen und die Fehler, die Gutachter beim meistgerechneten Test der Welt am häufigsten anstreichen.
Die richtige Variante: eine Frage der Datenstruktur
Vor jedem Klick steht die Strukturfrage, denn die drei t-Test-Varianten beantworten verschiedene Designs. Der t-Test für unabhängige Stichproben vergleicht zwei getrennte Gruppen — jede Person liefert genau einen Wert, die Gruppenzugehörigkeit steht in einer zweiten Variable. Der t-Test für verbundene Stichproben vergleicht zwei Messungen derselben Fälle — prä/post, zwei Bedingungen, gematchte Paare; die Daten stehen als zwei Spalten nebeneinander. Der Einstichproben-t-Test prüft einen Mittelwert gegen einen externen Referenzwert — Normstichprobe, Grenzwert, theoretischer Sollwert.
Die Verwechslungsgefahr läuft fast immer in eine Richtung: verbundene Daten mit dem unabhängigen Test gerechnet — etwa Vorher-Nachher-Werte als zwei „Gruppen”. Das ignoriert die Paarung, verschenkt massiv Power (die interindividuelle Streuung bleibt unkontrolliert) und verletzt nebenbei die Unabhängigkeitsannahme. Die Kontrollfrage dauert eine Sekunde: Stammen die zu vergleichenden Werte von denselben Fällen? Dann verbunden.
Voraussetzungen: prüfen mit Augenmaß
Die Prüfliste ist kurz, ihre Gewichtung entscheidend. Die Unabhängigkeit der Beobachtungen ist die wichtigste und zugleich unprüfbare Annahme — sie ist eine Designfrage: keine Mehrfachmessungen derselben Person im unabhängigen Test, keine verschachtelten Strukturen (Schüler in Klassen), die nach Mehrebenenmodellen verlangen. Das metrische Skalenniveau der Zielvariable ist die zweite Pflicht — bei geprüften Mehr-Item-Skalen etabliert, bei Einzelitems begründungsbedürftig. Die Normalverteilung schließlich gilt der Teststatistik-Herleitung — geprüft wird sie grafisch (Histogramm, QQ-Plot) je Gruppe beziehungsweise an den Differenzen beim verbundenen Test; formale Tests wie Shapiro-Wilk sind bei kleinen Stichproben schwach und bei großen überempfindlich, weshalb der grafische Befund führt. Entwarnung gibt der zentrale Grenzwertsatz: Ab etwa 30 Fällen je Gruppe ist der t-Test robust gegen moderate Abweichungen — kritisch bleiben kleine Stichproben mit deutlicher Schiefe oder Ausreißern.
Die Varianzhomogenität verdient den eigenen Absatz, weil sich hier die Praxis gewandelt hat: Das klassische Ritual — Levene-Test lesen, danach die Output-Zeile wählen — ist fehleranfällig und statistisch fragwürdig (ein Vortest steuert die Testwahl). Die zeitgemäße Lösung ist schlicht: standardmäßig die Welch-Zeile berichten, die keine Varianzgleichheit voraussetzt und auch bei gleichen Varianzen kaum Power kostet. Ein Satz im Methodenteil dokumentiert die Entscheidung — und das Levene-Thema ist erledigt.
Durchführung in SPSS: die drei Wege
Unabhängige Stichproben
Der Dialogweg: Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben; Testvariable einsetzen, Gruppenvariable mit definierten Gruppen (die beiden Codes angeben), unter Optionen das Konfidenzintervall belassen. Neuere SPSS-Versionen bieten im Dialog die Effektstärken-Option — aktivieren. Wie immer gilt: Einfügen statt OK; die Syntax dokumentiert den Test:
T-TEST GROUPS=gruppe(1 2)
/VARIABLES=score
/ES DISPLAY(TRUE)
/CRITERIA=CI(.95).
Verbundene Stichproben
Analysieren → Mittelwerte vergleichen → t-Test bei verbundenen Stichproben; beide Messvariablen als Paar einsetzen. Die Syntax: T-TEST PAIRS=score_t1 WITH score_t2 (PAIRED) /ES DISPLAY(TRUE). Geprüft wird hier die mittlere Differenz gegen null — entsprechend gilt die Normalitätsprüfung den Differenzwerten, die sich als neue Variable (COMPUTE) schnell erzeugen und sichten lassen.
Eine Stichprobe
Analysieren → Mittelwerte vergleichen → t-Test bei einer Stichprobe; Testwert eintragen — der externe Referenzwert, dessen Herkunft (Norm, Literatur, Sollvorgabe) im Text belegt wird. Syntax: T-TEST /TESTVAL=50 /VARIABLES=score /ES DISPLAY(TRUE).
Den Output lesen: Zeile für Zeile
Der Output des unabhängigen Tests liefert drei Tabellen, deren Lektüre in fester Reihenfolge Fehler verhindert. Erstens die Gruppenstatistiken: M, SD und n je Gruppe — die deskriptive Basis jedes Berichts und der Plausibilitätscheck (stimmen die Fallzahlen, liegen die Mittelwerte in erwartbarer Region?). Zweitens die Testtabelle: Sie enthält zwei Zeilen — „Varianzen sind gleich” und „Varianzen sind nicht gleich” (Welch); nach der oben getroffenen Entscheidung wird die Welch-Zeile gelesen: t-Wert, (nicht ganzzahlige) Freiheitsgrade, p-Wert — in neueren Versionen ein- und zweiseitig, wobei die vorab festgelegte Hypothesenrichtung die Spalte bestimmt — sowie Mittelwertsdifferenz mit Konfidenzintervall. Drittens die Effektstärken-Tabelle: Cohens d (bei ungleichen Varianzen die angepassten Varianten) mit Konfidenzintervall.
Beim verbundenen Test tritt an die Stelle der Gruppenstatistiken die Paar-Tabelle (beide Messungen plus deren Korrelation — hohe Korrelation erklärt die Power des Designs), die Testtabelle prüft die mittlere Differenz. Die Interpretationsreihenfolge bleibt überall gleich: erst Deskription, dann Differenz mit Intervall, dann Signifikanz, dann Effektstärke — der p-Wert ist eine Station, nicht das Ziel.
| Output-Element | Wo es steht | Wofür es gebraucht wird |
|---|---|---|
| M, SD, n je Gruppe | Gruppenstatistiken | Berichtssatz, Plausibilität |
| t, df, p (Welch-Zeile) | Testtabelle, 2. Zeile | Signifikanzurteil |
| Mittelwertsdifferenz + 95%-KI | Testtabelle | Größe und Präzision in Originaleinheit |
| Cohens d + 95%-KI | Effektgrößen-Tabelle | standardisierte Effektgröße |
| Korrelation der Paare | nur verbundener Test | Einordnung des Designs |
Grafisch begleiten: die Abbildung zum Test
Der berichtete t-Test gewinnt durch die passende Abbildung — und verliert durch die falsche. Der verbreitete Standard, Balkendiagramme der Mittelwerte mit Fehlerindikatoren, hat dokumentierte Schwächen: Balken suggerieren Mengen statt Lagen, verstecken die Verteilung und laden mit gekappter Achse zur Dramatisierung ein. Die besseren Alternativen zeigen mehr mit weniger Aufwand: Boxplots je Gruppe (Verteilung, Median, Ausreißer auf einen Blick), Punktdiagramme mit Mittelwert und Konfidenzintervall oder — zunehmend Standard in Publikationen — Kombinationen aus Einzelpunkten und Verteilungsdarstellung, die jede Beobachtung sichtbar lassen. Beim verbundenen Design ist die Verbindungslinien-Grafik (jede Person als Linie von t1 nach t2) die ehrlichste Form: Sie zeigt das Muster hinter der mittleren Differenz, inklusive der Fälle, die gegen den Trend laufen.
Praktisch gilt: Wenn die Abbildung die Mittelwertsdifferenz mit Intervall zeigt, erzählen Text und Grafik dieselbe Geschichte in zwei Sprachen — die Leser der Arbeit und die Kommission der Verteidigung danken es gleichermaßen.
Berichten nach Standard
Der vollständige Ergebnissatz folgt dem Muster, das p-Wert und Konfidenzintervall korrekt verbindet: „Die Interventionsgruppe (M = 24,3, SD = 4,1, n = 58) erzielte höhere Werte als die Kontrollgruppe (M = 21,8, SD = 4,6, n = 56); der Unterschied betrug 2,5 Punkte (95 % KI [0,9; 4,1]), t(110,4) = 3,06, p = .003, d = 0,57, 95 % KI [0,19; 0,95].” Jedes Element hat seine Funktion: Die Deskription verortet, die Differenz mit Intervall beziffert in Originaleinheiten, die Teststatistik belegt, die Effektstärke standardisiert. Nicht-signifikante Ergebnisse folgen demselben Muster — mit der Intervall-Einordnung statt der „kein Unterschied”-Floskel. Und die Sprachdisziplin gilt wie überall: In nicht-randomisierten Designs beschreibt der Satz Unterschiede, keine Wirkungen.
Der t-Test ist mein Lieblings-Lackmustest beim Querlesen von Dissertationen: An zwei Zeilen sehe ich die ganze Methodenkultur einer Arbeit. Steht da „p < .05*” ohne Effekt und Intervall, weiß ich, was mich im Rest erwartet. Steht da der vollständige Satz mit Welch-Freiheitsgraden, lese ich entspannt weiter — wer den einfachsten Test sauber berichtet, schlampt selten bei den komplizierten. — Dr. Cornelia Stamm, Methodengutachterin, Kiel, 2024
Häufige Fehler beim t-Test
Die falsche Variante
Verbundene Daten unabhängig getestet (oder umgekehrt) — der Strukturfehler, der Power verschenkt und Annahmen verletzt. Die Eine-Sekunde-Frage nach der Herkunft der Werte verhindert ihn vollständig.
Das Levene-Ritual mit Folgefehler
Levene signifikant übersehen, falsche Zeile zitiert — oder die Freiheitsgrade der einen Zeile mit dem p-Wert der anderen kombiniert. Die Welch-Standard-Entscheidung eliminiert die gesamte Fehlerklasse.
Bericht ohne Effektstärke
Der häufigste Berichtsmangel: t und p stehen da, d fehlt — dabei liefern neuere SPSS-Versionen es frei Haus, und für ältere ist die Handrechnung aus Mittelwerten und Standardabweichungen trivial. Ohne Effektstärke ist kein Mittelwertvergleich vollständig.
Die nachträgliche Einseitigkeit
Aus p = .08 zweiseitig wird p = .04 einseitig — mit nachgeschobener Richtungsbegründung. Die Richtung ist eine A-priori-Festlegung mit Dokumentationspflicht; ihre nachträgliche Wahl ist die kleinste und durchsichtigste Form des p-Hackings.
Mehrere t-Tests statt des passenden Verfahrens
Drei Gruppen, drei paarweise t-Tests — die Alpha-Inflation in Reinform. Ab drei Gruppen übernimmt die Varianzanalyse mit Post-hoc-Korrekturen; Serien von t-Tests über viele Variablen verlangen Multiplizitätskontrolle oder die ehrliche explorative Kennzeichnung.
Vor dem Test: Power und Fallzahl mitdenken
Auch der einfachste Test verdient die Planungsfrage: Trägt die Stichprobe den erwarteten Effekt? Für den unabhängigen t-Test ist die Arithmetik gut greifbar — ein mittlerer Effekt (d = 0,5) verlangt bei üblichen Konventionen rund 64 Fälle je Gruppe, ein kleiner (d = 0,3) bereits 176; der verbundene Test ist dank kontrollierter interindividueller Streuung deutlich genügsamer, was ihn bei planbaren Designs doppelt attraktiv macht. Wer vor der Erhebung plant, rechnet a priori; wer mit gegebener Stichprobe arbeitet, rechnet die Sensitivität — welche Effektgröße war entdeckbar? — und ordnet Nullbefunde daran ein. Beide Rechnungen stehen in einer Minute in G*Power und gehören in den Methodenteil; die ausführliche Anleitung liefert der Fallzahl-Leitfaden.
Die Planungsperspektive schützt auch vor einer stillen Fehlinterpretation des verbundenen Designs: Seine Power hängt an der Korrelation der Messungen — bei hoher Stabilität der Merkmale (r > .7) genügen kleine Stichproben für respektable Power, bei geringer Paar-Korrelation schmilzt der Vorteil. Die Korrelation aus dem Output ist deshalb mehr als eine Nebenzahl: Sie erklärt rückblickend die Präzision und informiert vorausblickend die nächste Studienplanung.
Wenn die Voraussetzungen nicht tragen: die Alternativen
Die Ausweichrouten sind etabliert und in SPSS gleich nebenan. Bei deutlicher Schiefe oder Ausreißern in kleinen Stichproben übernimmt der Rangtest: Mann-Whitney-U für unabhängige, Wilcoxon-Vorzeichen-Rang für verbundene Designs (Analysieren → Nichtparametrische Tests) — berichtet mit Medianen und Quartilen statt Mittelwerten. Für Grenzfälle empfiehlt sich der Doppelweg: parametrisch rechnen, nichtparametrisch absichern, Übereinstimmung dokumentieren — konvergierende Ergebnisse entkräften jede Methodendiskussion, divergierende sind selbst ein Befund (meist über Ausreißer-Einfluss). Eine dritte Route bietet das Bootstrap-Verfahren (in SPSS als Option verfügbar): Konfidenzintervalle ohne Verteilungsannahme, besonders für die Mittelwertsdifferenz. Welche Route gewählt wurde und warum, steht im Methodenteil — die Wahl selbst ist Routine, ihre Verschweigung wäre der Fehler.
Ein Beispiel aus der Promotionspraxis
Ein Doktorand der Sportwissenschaft prüfte die Wirkung eines achtwöchigen Programms auf die Rumpfkraft — randomisiert, Interventions- gegen Kontrollgruppe, je 31 Fälle nach Dropout. Sein erster Durchlauf zeigte die typischen Anfängerspuren: unabhängiger t-Test korrekt gewählt, aber Levene-Zeile falsch zugeordnet, kein d, und für die Prä-Post-Frage innerhalb der Interventionsgruppe ein zweiter unabhängiger Test über die Messzeitpunkte — der Strukturfehler.
Die Korrekturrunde war ein Lehrstück in Kleinigkeiten mit Wirkung: Welch-Zeile als Standard (mit Methodenteil-Satz), Effektstärken-Option aktiviert, der Prä-Post-Vergleich als verbundener Test neu gerechnet — der dank kontrollierter interindividueller Streuung deutlich präziser ausfiel (die Paar-Korrelation von .78 erklärte warum). Der finale Berichtssatz trug alle Elemente; die QQ-Plots beider Gruppen wanderten in den Anhang, der Doppelweg mit Mann-Whitney bestätigte die Robustheit. In der Disputation kam genau eine Frage zum t-Test — nach der Welch-Entscheidung — und die Antwort stand wörtlich im Methodenteil. Sein Kommentar danach: „Der einfachste Test der Arbeit hat mich am meisten über Sorgfalt gelehrt.”
KI-Tools beim t-Test
Beim Standardtest zeigt sich der KI-Workflow von seiner verlässlichsten Seite: Syntax-Generierung, Output-Erklärung und Berichtssatz-Formulierung gelingen den Modellen beim t-Test nahezu fehlerfrei — die Aufgabe ist schlicht gut dokumentiert. Zwei Restwachsamkeiten bleiben: Generierte Berichtssätze übernehmen gern das veraltete Sterne-Format oder lassen das Effektstärken-Intervall weg — die Vollständigkeitsprüfung bleibt Handarbeit; und bei der Variantenwahl übernimmt das Modell die (möglicherweise falsche) Strukturbeschreibung der Anfrage — die Eine-Sekunde-Frage nach der Datenherkunft beantwortet weiterhin der Mensch, der die Erhebung kennt.
Wann professionelle Begleitung sinnvoll ist
Der t-Test selbst ist mit diesem Leitfaden Eigenregie-tauglich — beratungswürdig sind seine Ränder: die Strukturdiagnose bei unklaren Designs (verschachtelte Daten, Messwiederholungen mit mehr als zwei Zeitpunkten — wo Mehrebenen- oder Varianzanalysemodelle übernehmen), die Grenzfall-Strategie bei kleinen, schiefen Stichproben und die Einbettung in die Gesamtauswertung, wenn viele Vergleiche Multiplizitätsfragen aufwerfen. Wer hier punktuell eine erfahrene Einschätzung einholt, klärt in einer halben Stunde, was Foren-Recherche in Tagen nicht klärt — und rechnet den Test danach selbst, mit ruhiger Hand.
Fazit
Der t-Test belohnt Sorgfalt an fünf kleinen Stellen, die zusammen den Unterschied machen: die Variantenwahl streng nach Datenstruktur, die Voraussetzungsprüfung mit Augenmaß (grafisch, mit Welch als entspanntem Standard), die Durchführung per dokumentierter Syntax mit aktivierter Effektstärke, die Output-Lektüre in fester Reihenfolge und der vollständige Berichtssatz von der Deskription bis zum d-Intervall. Wer den einfachsten Test so behandelt, hat mehr gewonnen als ein sauberes Einzelergebnis — er hat die Berichtskultur etabliert, die jede weitere Analyse der Arbeit trägt.
Der sauber berichtete t-Test ist die Visitenkarte der gesamten Auswertung — und in einer Stunde erlernt. Jetzt unverbindlich anfragen →