„Korrelation ist nicht Kausalität” — der Satz ist so abgenutzt, dass er kaum noch etwas erklärt. Jeder kennt ihn, und trotzdem rutschen in Dissertationen, Pressemitteilungen und sogar Fachartikeln ständig Wirkungsbehauptungen durch, die die Daten nicht tragen: Kaffeetrinker leben länger, Homeoffice macht zufrieden, das neue Medikament senkt die Sterblichkeit — gemessen wurde jeweils nur ein Zusammenhang. Dieser Beitrag füllt die Floskel mit Handwerk: warum Zusammenhänge systematisch etwas anderes sind als Wirkungen, welche drei Mechanismen Scheinkausalität erzeugen, wie die Kausalitätsleiter der Studiendesigns aussieht, mit welchen Strategien Forschung sich Kausalaussagen trotzdem nähert — und wie Sie in der eigenen Doktorarbeit Befunde so formulieren, dass Design und Sprache zusammenpassen. Denn genau diese Passung ist es, die Gutachter prüfen.
Was eine Korrelation wirklich aussagt
Eine Korrelation beschreibt, dass zwei Merkmale systematisch gemeinsam variieren: Höhere Werte des einen treten überzufällig mit höheren (oder niedrigeren) Werten des anderen auf. Mehr nicht. Der Korrelationskoeffizient quantifiziert Stärke und Richtung dieses Mitvariierens — er enthält keinerlei Information darüber, warum die Merkmale zusammenhängen. Diese Warum-Information steckt nicht in der Zahl, sondern im Design der Studie: Dieselbe Korrelation von r = 0,40 kann eine Wirkung abbilden, eine umgekehrte Wirkung, einen Drittvariableneffekt oder eine Mischung aus allem.
Wichtig ist die Abgrenzung nach beiden Seiten. Eine Korrelation beweist keine Kausalität — aber sie ist auch nicht wertlos: Sie ist oft der erste Hinweis auf einen Wirkmechanismus, sie ermöglicht Prognosen (wer X kennt, kann Y besser vorhersagen, ganz ohne Kausalwissen), und sie ist das Rohmaterial, aus dem prüfbare Kausalhypothesen entstehen. Problematisch wird sie erst, wenn aus dem Zusammenhang stillschweigend eine Wirkung wird.
Drei Wege zur Scheinkausalität
Hinter jedem beobachteten Zusammenhang stehen drei mögliche Erklärungen — und die Statistik allein kann nicht zwischen ihnen entscheiden.
Confounding: die dritte Variable
Der häufigste Mechanismus: Eine Störvariable Z beeinflusst sowohl X als auch Y und erzeugt zwischen beiden einen Zusammenhang, der keine Wirkung ist. Das Sommerwetter lässt Eisverkauf und Badeunfälle gemeinsam steigen; der Bildungsgrad beeinflusst Weinkonsum und Gesundheit zugleich; die Krankheitsschwere bestimmt Therapiewahl und Sterblichkeit. Confounding ist deshalb so tückisch, weil es nicht an der Datenqualität hängt: Auch perfekt gemessene Variablen liefern verzerrte Zusammenhänge, wenn die dritte Variable fehlt — und die gefährlichsten Confounder sind die, an die niemand gedacht hat.
Umgekehrte Kausalrichtung
Der Zusammenhang ist echt kausal — aber andersherum. Depressive Menschen treiben weniger Sport: Schützt Sport vor Depression, oder raubt die Depression die Energie zum Sport? Unternehmen mit hohen Weiterbildungsbudgets sind profitabler: Macht Weiterbildung profitabel, oder können sich profitable Firmen Weiterbildung leisten? Querschnittsdaten, in denen beide Variablen gleichzeitig gemessen werden, können diese Richtungsfrage prinzipiell nicht beantworten — dafür braucht es Zeitordnung oder Intervention.
Selektion und Kollider-Effekte
Die subtilste Variante: Der Zusammenhang entsteht erst durch die Auswahl der untersuchten Fälle. Wer nur hospitalisierte Patienten untersucht, nur erfolgreiche Unternehmen befragt oder nur Studienabschließende analysiert, konditioniert auf eine Folgevariable — und kann dadurch Zusammenhänge erzeugen, die in der Gesamtpopulation nicht existieren, oder echte verdecken. Berühmt ist das Beispiel der Zulassungsstatistiken: Innerhalb einer selektierten Gruppe können zwei Merkmale negativ korrelieren, obwohl sie es in der Population nicht tun, schlicht weil hohe Werte auf einem Merkmal niedrige auf dem anderen „kompensieren” mussten, um die Selektionsschwelle zu überspringen.
Die Kausalitätsleiter der Studiendesigns
Designs lassen sich danach ordnen, wie viel Kausalschluss sie tragen — eine Leiter, auf der jede Sprosse bestimmte Fehlerquellen ausschaltet.
| Design | Schaltet aus | Bleibt offen | Kausalaussage |
|---|---|---|---|
| Querschnittskorrelation | — | Richtung, Confounding, Selektion | keine |
| Querschnitt mit Kontrollvariablen | gemessene Confounder | ungemessene Confounder, Richtung | sehr eingeschränkt |
| Längsschnitt/Panel | umgekehrte Richtung (teilweise) | zeitveränderliches Confounding | eingeschränkt |
| Quasi-Experiment | viele Confounder (designabhängig) | Annahmen des Verfahrens | moderat bis gut |
| Randomisiertes Experiment | Confounding (auch unbekanntes) | Generalisierbarkeit, Umsetzungstreue | stark |
Zwei Lektionen stecken in dieser Tabelle. Erstens: Kontrollvariablen sind kein Zaubertrick. Die Adjustierung für Alter, Geschlecht und Bildung kontrolliert genau diese drei — nicht die unbekannten Störgrößen, und über die sagt das adjustierte Modell nichts. Formulierungen wie „auch nach Kontrolle relevanter Drittvariablen” suggerieren eine Sicherheit, die nur die Randomisierung liefert. Zweitens: Die Leiter ist keine Wertung der Studienqualität, sondern der Kausalaussage. Eine exzellente Querschnittsstudie ist wertvoller als ein schlampiges Experiment — sie darf nur andere Sätze schreiben.
Wie Forschung sich Kausalität trotzdem nähert
Zwischen „nur Korrelation” und „echtes Experiment” liegt ein produktives Mittelfeld, das gerade für Promotionen ohne Interventionsmöglichkeit relevant ist.
Kausalitätskriterien und Ursachendiagramme
Die klassische Orientierung geben die epidemiologischen Kausalitätskriterien — Stärke und Konsistenz des Zusammenhangs über Studien hinweg, Dosis-Wirkungs-Beziehung, zeitliche Ordnung, biologische beziehungsweise theoretische Plausibilität. Kein Kriterium beweist für sich; ihr Zusammenspiel macht eine Kausalinterpretation mehr oder weniger vertretbar. Moderne Ansätze formalisieren das Denken in Ursachendiagrammen: Wer die vermuteten Beziehungen zwischen allen relevanten Variablen explizit aufzeichnet, sieht, welche Variablen kontrolliert werden müssen — und welche gerade nicht, weil ihre Kontrolle als Kollider neue Verzerrung erzeugt. Allein die Übung, das eigene Variablennetz aufzumalen, deckt mehr Denkfehler auf als jede zusätzliche Signifikanzprüfung.
Quasi-experimentelle Strategien und Design-Upgrades
Dazu kommen quasi-experimentelle Strategien, die Zufallselemente der Wirklichkeit nutzen: Stichtagsregelungen, Gesetzesänderungen, Kapazitätsgrenzen — überall dort, wo ein Quasi-Zufall bestimmt, wer „Treatment” bekommt, lassen sich kausalere Vergleiche konstruieren als im rohen Querschnitt. Für Promovierende ist oft schon der Längsschnitt der entscheidende Schritt: Zwei Messzeitpunkte sichern die Zeitordnung und erlauben Veränderungsanalysen — ein Design-Upgrade, das bei der Fallzahlplanung bedacht werden will, aber methodisch in einer anderen Liga spielt.
Das Kausalitätsproblem wird nicht in der Auswertung gelöst, sondern im Design — und wenn das Design es nicht löst, dann löst es die Sprache: Man schreibt auf, was die Daten tragen, und keinen Halbsatz mehr. Die besten Dissertationen erkenne ich daran, dass Limitationen-Kapitel und Abstract dieselbe Geschichte erzählen. — Prof. Dr. Sabine Quandt, Epidemiologin und Methodenlehrerin, Bremen, 2024
Formulierungsdisziplin in der Dissertation
Die praktische Konsequenz für die Doktorarbeit ist eine Sprachregel mit drei Registern. Korrelative Befunde tragen Zusammenhangssprache: „ist assoziiert mit”, „geht einher mit”, „Personen mit höherem X zeigten im Mittel höheres Y”. Längsschnittliche Befunde mit gesicherter Zeitordnung erlauben vorsichtige Richtungssprache: „ging voraus”, „sagte vorher”. Erst experimentelle Befunde tragen Wirkungssprache: „erhöhte”, „senkte”, „führte zu”. Diese Register gelten überall — auch in Abstract, Diskussion und Vortragsfolien, wo die Kausalsprache erfahrungsgemäß zuerst zurückrutscht, weil sie sich besser liest.
Zwei Stellen verdienen besondere Wachsamkeit. Die Diskussion darf Kausalmechanismen erörtern — als explizit gekennzeichnete Interpretation mit Konjunktiv und Literaturanbindung, nicht als Befund. Und die Limitationen benennen das Kausalitätsproblem konkret statt formelhaft: Welche Confounder blieben unkontrolliert, welche Richtungsalternativen sind plausibel, was würde ein stärkeres Design anders machen? Solche präzisen Limitationen sind kein Eingeständnis von Schwäche, sondern der Nachweis methodischer Reife — und sie passen zur sauberen Trennung von Bericht und Deutung, die schon die Ergebnisdarstellung strukturiert.
Häufige Fehler im Umgang mit Korrelationen
Kausalsprache im Autopilot
Der häufigste Fehler ist kein Denkfehler, sondern ein Schreibfehler: „Einfluss”, „Effekt” und „Wirkung” sind so tief in der Wissenschaftssprache verankert, dass sie unbemerkt in korrelative Befunde rutschen — schon „Einflussfaktoren” im Titel einer Querschnittsarbeit verspricht mehr, als die Daten halten. Ein gezielter Such-Durchgang nach Kausalvokabeln vor der Abgabe ist die billigste Qualitätssicherung der ganzen Arbeit.
Kontrollvariablen als Vollkasko
„Wir haben für Alter und Geschlecht kontrolliert” beruhigt — und besagt wenig. Entscheidend ist, ob die relevanten Confounder kontrolliert wurden, und das ist eine inhaltliche Frage, die Literatur und Ursachendiagramm beantworten, nicht die Verfügbarkeit von Variablen im Datensatz. Wer kontrolliert, was zufällig da ist, betreibt Confounder-Theater.
Signifikanz mit Kausalität verwechseln
Ein p-Wert unter .05 sagt: Der Zusammenhang ist vermutlich nicht null. Er sagt nichts über dessen Ursache. Die rhetorische Kette „signifikant → bedeutsam → wirksam” ist dreifach falsch und trotzdem allgegenwärtig — gerade in Fächern mit komplexen, vielfach verursachten Merkmalen verdient jeder Schritt dieser Kette eine eigene Prüfung.
Aggregat-Schlüsse auf Individuen
Korrelationen auf Länder- oder Gruppenebene gelten nicht automatisch für Personen: Dass Länder mit höherem Schokoladenkonsum mehr Nobelpreise haben, sagt nichts über schokoladenessende Individuen. Dieser ökologische Fehlschluss betrifft jede Arbeit, die aggregierte Daten nutzt — die Analyseebene gehört explizit benannt und die Interpretation auf sie beschränkt.
KI-Tools und das Kausalitätsproblem
Sprachmodelle sind beim Thema Korrelation und Kausalität zugleich Hilfe und Risiko. Hilfe, weil sie Confounder-Brainstorming beschleunigen („Welche Drittvariablen könnten den Zusammenhang zwischen X und Y erzeugen?”), Ursachendiagramme diskutieren und Formulierungen auf Kausalsprache prüfen können — ein Durchlauf „markiere alle Kausalverben in diesem Abschnitt” ist ein nützlicher Vorabcheck. Risiko, weil die Modelle selbst notorisch kausalitätsblind formulieren: Sie übernehmen die Wirkungssprache ihrer Trainingstexte und machen aus „assoziiert” gern „führt zu”, besonders beim Zusammenfassen und Glätten. Wer KI-generierte Textpassagen übernimmt, prüft sie genau auf dieses Register — die Verantwortung für die Passung von Design und Sprache bleibt beim Autor.
Wann professionelle Begleitung sinnvoll ist
Das Kausalitätsproblem ist der Punkt, an dem Statistik und inhaltliche Methodologie ineinandergreifen — und genau deshalb ein klassischer Beratungsanlass. Besonders lohnend ist der externe Blick in drei Situationen: vor der Erhebung, wenn ein Design-Upgrade (Längsschnitt statt Querschnitt, Quasi-Experiment statt Beobachtung) mit vertretbarem Aufwand möglich wäre; bei der Modellstrategie, wenn unklar ist, welche Variablen kontrolliert gehören und welche als Kollider gerade nicht; und vor der Abgabe, wenn Befunde, Diskussion und Abstract auf konsistente Kausalsprache geprüft werden sollen. Eine Stunde Methodengespräch ersetzt kein Experiment — aber sie verhindert zuverlässig, dass eine solide korrelative Arbeit an überzogenen Wirkungsbehauptungen scheitert.
Fazit
Korrelation und Kausalität trennt keine Statistik, sondern Design: Derselbe Zusammenhang kann Wirkung, Gegenwirkung oder Drittvariableneffekt sein, und nur die Anlage der Studie entscheidet, welche Lesart die Daten tragen. Die Werkzeuge für den souveränen Umgang sind überschaubar — die drei Mechanismen der Scheinkausalität kennen, das eigene Variablennetz als Ursachendiagramm denken, die Kausalitätsleiter des eigenen Designs ehrlich einordnen und die Sprache konsequent daran ausrichten. Wer so arbeitet, macht aus der abgenutzten Floskel ein Qualitätsmerkmal: eine Dissertation, in der jede Aussage genau so stark ist wie die Evidenz dahinter.
Die Passung von Studiendesign, Auswertung und Sprache entscheidet über die Glaubwürdigkeit Ihrer gesamten Argumentation. Jetzt unverbindlich anfragen →