Ratgeber zur statistischen Auswertung

Korrelation vs. Kausalität in der Forschung

Korrelation vs. Kausalität: warum Zusammenhänge keine Wirkungen beweisen, welche Designs Kausalschlüsse erlauben und wie Sie sauber formulieren.

Inhaltsverzeichnis
Tafel mit zwei verbundenen Variablen und Fragezeichen über dem Kausalpfeil — Symbolbild für Korrelation versus Kausalität

„Korrelation ist nicht Kausalität” — der Satz ist so abgenutzt, dass er kaum noch etwas erklärt. Jeder kennt ihn, und trotzdem rutschen in Dissertationen, Pressemitteilungen und sogar Fachartikeln ständig Wirkungsbehauptungen durch, die die Daten nicht tragen: Kaffeetrinker leben länger, Homeoffice macht zufrieden, das neue Medikament senkt die Sterblichkeit — gemessen wurde jeweils nur ein Zusammenhang. Dieser Beitrag füllt die Floskel mit Handwerk: warum Zusammenhänge systematisch etwas anderes sind als Wirkungen, welche drei Mechanismen Scheinkausalität erzeugen, wie die Kausalitätsleiter der Studiendesigns aussieht, mit welchen Strategien Forschung sich Kausalaussagen trotzdem nähert — und wie Sie in der eigenen Doktorarbeit Befunde so formulieren, dass Design und Sprache zusammenpassen. Denn genau diese Passung ist es, die Gutachter prüfen.

Was eine Korrelation wirklich aussagt

Eine Korrelation beschreibt, dass zwei Merkmale systematisch gemeinsam variieren: Höhere Werte des einen treten überzufällig mit höheren (oder niedrigeren) Werten des anderen auf. Mehr nicht. Der Korrelationskoeffizient quantifiziert Stärke und Richtung dieses Mitvariierens — er enthält keinerlei Information darüber, warum die Merkmale zusammenhängen. Diese Warum-Information steckt nicht in der Zahl, sondern im Design der Studie: Dieselbe Korrelation von r = 0,40 kann eine Wirkung abbilden, eine umgekehrte Wirkung, einen Drittvariableneffekt oder eine Mischung aus allem.

Wichtig ist die Abgrenzung nach beiden Seiten. Eine Korrelation beweist keine Kausalität — aber sie ist auch nicht wertlos: Sie ist oft der erste Hinweis auf einen Wirkmechanismus, sie ermöglicht Prognosen (wer X kennt, kann Y besser vorhersagen, ganz ohne Kausalwissen), und sie ist das Rohmaterial, aus dem prüfbare Kausalhypothesen entstehen. Problematisch wird sie erst, wenn aus dem Zusammenhang stillschweigend eine Wirkung wird.

Drei Wege zur Scheinkausalität

Hinter jedem beobachteten Zusammenhang stehen drei mögliche Erklärungen — und die Statistik allein kann nicht zwischen ihnen entscheiden.

Confounding: die dritte Variable

Der häufigste Mechanismus: Eine Störvariable Z beeinflusst sowohl X als auch Y und erzeugt zwischen beiden einen Zusammenhang, der keine Wirkung ist. Das Sommerwetter lässt Eisverkauf und Badeunfälle gemeinsam steigen; der Bildungsgrad beeinflusst Weinkonsum und Gesundheit zugleich; die Krankheitsschwere bestimmt Therapiewahl und Sterblichkeit. Confounding ist deshalb so tückisch, weil es nicht an der Datenqualität hängt: Auch perfekt gemessene Variablen liefern verzerrte Zusammenhänge, wenn die dritte Variable fehlt — und die gefährlichsten Confounder sind die, an die niemand gedacht hat.

Umgekehrte Kausalrichtung

Der Zusammenhang ist echt kausal — aber andersherum. Depressive Menschen treiben weniger Sport: Schützt Sport vor Depression, oder raubt die Depression die Energie zum Sport? Unternehmen mit hohen Weiterbildungsbudgets sind profitabler: Macht Weiterbildung profitabel, oder können sich profitable Firmen Weiterbildung leisten? Querschnittsdaten, in denen beide Variablen gleichzeitig gemessen werden, können diese Richtungsfrage prinzipiell nicht beantworten — dafür braucht es Zeitordnung oder Intervention.

Selektion und Kollider-Effekte

Die subtilste Variante: Der Zusammenhang entsteht erst durch die Auswahl der untersuchten Fälle. Wer nur hospitalisierte Patienten untersucht, nur erfolgreiche Unternehmen befragt oder nur Studienabschließende analysiert, konditioniert auf eine Folgevariable — und kann dadurch Zusammenhänge erzeugen, die in der Gesamtpopulation nicht existieren, oder echte verdecken. Berühmt ist das Beispiel der Zulassungsstatistiken: Innerhalb einer selektierten Gruppe können zwei Merkmale negativ korrelieren, obwohl sie es in der Population nicht tun, schlicht weil hohe Werte auf einem Merkmal niedrige auf dem anderen „kompensieren” mussten, um die Selektionsschwelle zu überspringen.

Die Kausalitätsleiter der Studiendesigns

Designs lassen sich danach ordnen, wie viel Kausalschluss sie tragen — eine Leiter, auf der jede Sprosse bestimmte Fehlerquellen ausschaltet.

DesignSchaltet ausBleibt offenKausalaussage
QuerschnittskorrelationRichtung, Confounding, Selektionkeine
Querschnitt mit Kontrollvariablengemessene Confounderungemessene Confounder, Richtungsehr eingeschränkt
Längsschnitt/Panelumgekehrte Richtung (teilweise)zeitveränderliches Confoundingeingeschränkt
Quasi-Experimentviele Confounder (designabhängig)Annahmen des Verfahrensmoderat bis gut
Randomisiertes ExperimentConfounding (auch unbekanntes)Generalisierbarkeit, Umsetzungstreuestark

Zwei Lektionen stecken in dieser Tabelle. Erstens: Kontrollvariablen sind kein Zaubertrick. Die Adjustierung für Alter, Geschlecht und Bildung kontrolliert genau diese drei — nicht die unbekannten Störgrößen, und über die sagt das adjustierte Modell nichts. Formulierungen wie „auch nach Kontrolle relevanter Drittvariablen” suggerieren eine Sicherheit, die nur die Randomisierung liefert. Zweitens: Die Leiter ist keine Wertung der Studienqualität, sondern der Kausalaussage. Eine exzellente Querschnittsstudie ist wertvoller als ein schlampiges Experiment — sie darf nur andere Sätze schreiben.

Wie Forschung sich Kausalität trotzdem nähert

Zwischen „nur Korrelation” und „echtes Experiment” liegt ein produktives Mittelfeld, das gerade für Promotionen ohne Interventionsmöglichkeit relevant ist.

Kausalitätskriterien und Ursachendiagramme

Die klassische Orientierung geben die epidemiologischen Kausalitätskriterien — Stärke und Konsistenz des Zusammenhangs über Studien hinweg, Dosis-Wirkungs-Beziehung, zeitliche Ordnung, biologische beziehungsweise theoretische Plausibilität. Kein Kriterium beweist für sich; ihr Zusammenspiel macht eine Kausalinterpretation mehr oder weniger vertretbar. Moderne Ansätze formalisieren das Denken in Ursachendiagrammen: Wer die vermuteten Beziehungen zwischen allen relevanten Variablen explizit aufzeichnet, sieht, welche Variablen kontrolliert werden müssen — und welche gerade nicht, weil ihre Kontrolle als Kollider neue Verzerrung erzeugt. Allein die Übung, das eigene Variablennetz aufzumalen, deckt mehr Denkfehler auf als jede zusätzliche Signifikanzprüfung.

Quasi-experimentelle Strategien und Design-Upgrades

Dazu kommen quasi-experimentelle Strategien, die Zufallselemente der Wirklichkeit nutzen: Stichtagsregelungen, Gesetzesänderungen, Kapazitätsgrenzen — überall dort, wo ein Quasi-Zufall bestimmt, wer „Treatment” bekommt, lassen sich kausalere Vergleiche konstruieren als im rohen Querschnitt. Für Promovierende ist oft schon der Längsschnitt der entscheidende Schritt: Zwei Messzeitpunkte sichern die Zeitordnung und erlauben Veränderungsanalysen — ein Design-Upgrade, das bei der Fallzahlplanung bedacht werden will, aber methodisch in einer anderen Liga spielt.

Das Kausalitätsproblem wird nicht in der Auswertung gelöst, sondern im Design — und wenn das Design es nicht löst, dann löst es die Sprache: Man schreibt auf, was die Daten tragen, und keinen Halbsatz mehr. Die besten Dissertationen erkenne ich daran, dass Limitationen-Kapitel und Abstract dieselbe Geschichte erzählen. — Prof. Dr. Sabine Quandt, Epidemiologin und Methodenlehrerin, Bremen, 2024

Formulierungsdisziplin in der Dissertation

Die praktische Konsequenz für die Doktorarbeit ist eine Sprachregel mit drei Registern. Korrelative Befunde tragen Zusammenhangssprache: „ist assoziiert mit”, „geht einher mit”, „Personen mit höherem X zeigten im Mittel höheres Y”. Längsschnittliche Befunde mit gesicherter Zeitordnung erlauben vorsichtige Richtungssprache: „ging voraus”, „sagte vorher”. Erst experimentelle Befunde tragen Wirkungssprache: „erhöhte”, „senkte”, „führte zu”. Diese Register gelten überall — auch in Abstract, Diskussion und Vortragsfolien, wo die Kausalsprache erfahrungsgemäß zuerst zurückrutscht, weil sie sich besser liest.

Zwei Stellen verdienen besondere Wachsamkeit. Die Diskussion darf Kausalmechanismen erörtern — als explizit gekennzeichnete Interpretation mit Konjunktiv und Literaturanbindung, nicht als Befund. Und die Limitationen benennen das Kausalitätsproblem konkret statt formelhaft: Welche Confounder blieben unkontrolliert, welche Richtungsalternativen sind plausibel, was würde ein stärkeres Design anders machen? Solche präzisen Limitationen sind kein Eingeständnis von Schwäche, sondern der Nachweis methodischer Reife — und sie passen zur sauberen Trennung von Bericht und Deutung, die schon die Ergebnisdarstellung strukturiert.

Häufige Fehler im Umgang mit Korrelationen

Kausalsprache im Autopilot

Der häufigste Fehler ist kein Denkfehler, sondern ein Schreibfehler: „Einfluss”, „Effekt” und „Wirkung” sind so tief in der Wissenschaftssprache verankert, dass sie unbemerkt in korrelative Befunde rutschen — schon „Einflussfaktoren” im Titel einer Querschnittsarbeit verspricht mehr, als die Daten halten. Ein gezielter Such-Durchgang nach Kausalvokabeln vor der Abgabe ist die billigste Qualitätssicherung der ganzen Arbeit.

Kontrollvariablen als Vollkasko

„Wir haben für Alter und Geschlecht kontrolliert” beruhigt — und besagt wenig. Entscheidend ist, ob die relevanten Confounder kontrolliert wurden, und das ist eine inhaltliche Frage, die Literatur und Ursachendiagramm beantworten, nicht die Verfügbarkeit von Variablen im Datensatz. Wer kontrolliert, was zufällig da ist, betreibt Confounder-Theater.

Signifikanz mit Kausalität verwechseln

Ein p-Wert unter .05 sagt: Der Zusammenhang ist vermutlich nicht null. Er sagt nichts über dessen Ursache. Die rhetorische Kette „signifikant → bedeutsam → wirksam” ist dreifach falsch und trotzdem allgegenwärtig — gerade in Fächern mit komplexen, vielfach verursachten Merkmalen verdient jeder Schritt dieser Kette eine eigene Prüfung.

Aggregat-Schlüsse auf Individuen

Korrelationen auf Länder- oder Gruppenebene gelten nicht automatisch für Personen: Dass Länder mit höherem Schokoladenkonsum mehr Nobelpreise haben, sagt nichts über schokoladenessende Individuen. Dieser ökologische Fehlschluss betrifft jede Arbeit, die aggregierte Daten nutzt — die Analyseebene gehört explizit benannt und die Interpretation auf sie beschränkt.

KI-Tools und das Kausalitätsproblem

Sprachmodelle sind beim Thema Korrelation und Kausalität zugleich Hilfe und Risiko. Hilfe, weil sie Confounder-Brainstorming beschleunigen („Welche Drittvariablen könnten den Zusammenhang zwischen X und Y erzeugen?”), Ursachendiagramme diskutieren und Formulierungen auf Kausalsprache prüfen können — ein Durchlauf „markiere alle Kausalverben in diesem Abschnitt” ist ein nützlicher Vorabcheck. Risiko, weil die Modelle selbst notorisch kausalitätsblind formulieren: Sie übernehmen die Wirkungssprache ihrer Trainingstexte und machen aus „assoziiert” gern „führt zu”, besonders beim Zusammenfassen und Glätten. Wer KI-generierte Textpassagen übernimmt, prüft sie genau auf dieses Register — die Verantwortung für die Passung von Design und Sprache bleibt beim Autor.

Wann professionelle Begleitung sinnvoll ist

Das Kausalitätsproblem ist der Punkt, an dem Statistik und inhaltliche Methodologie ineinandergreifen — und genau deshalb ein klassischer Beratungsanlass. Besonders lohnend ist der externe Blick in drei Situationen: vor der Erhebung, wenn ein Design-Upgrade (Längsschnitt statt Querschnitt, Quasi-Experiment statt Beobachtung) mit vertretbarem Aufwand möglich wäre; bei der Modellstrategie, wenn unklar ist, welche Variablen kontrolliert gehören und welche als Kollider gerade nicht; und vor der Abgabe, wenn Befunde, Diskussion und Abstract auf konsistente Kausalsprache geprüft werden sollen. Eine Stunde Methodengespräch ersetzt kein Experiment — aber sie verhindert zuverlässig, dass eine solide korrelative Arbeit an überzogenen Wirkungsbehauptungen scheitert.

Fazit

Korrelation und Kausalität trennt keine Statistik, sondern Design: Derselbe Zusammenhang kann Wirkung, Gegenwirkung oder Drittvariableneffekt sein, und nur die Anlage der Studie entscheidet, welche Lesart die Daten tragen. Die Werkzeuge für den souveränen Umgang sind überschaubar — die drei Mechanismen der Scheinkausalität kennen, das eigene Variablennetz als Ursachendiagramm denken, die Kausalitätsleiter des eigenen Designs ehrlich einordnen und die Sprache konsequent daran ausrichten. Wer so arbeitet, macht aus der abgenutzten Floskel ein Qualitätsmerkmal: eine Dissertation, in der jede Aussage genau so stark ist wie die Evidenz dahinter.

Die Passung von Studiendesign, Auswertung und Sprache entscheidet über die Glaubwürdigkeit Ihrer gesamten Argumentation. Jetzt unverbindlich anfragen →

Häufig gestellte Fragen

Weil derselbe statistische Zusammenhang aus mindestens drei Quellen stammen kann: X beeinflusst Y, Y beeinflusst X (umgekehrte Kausalrichtung) oder eine dritte Variable Z beeinflusst beide (Confounding). Die Korrelation selbst enthält keine Information darüber, welche Erklärung zutrifft — diese Information steckt im Studiendesign. Deshalb kann dieselbe Zahl je nach Design alles oder nichts über Wirkung aussagen.
Eine Störvariable, die sowohl die vermutete Ursache als auch die Wirkung beeinflusst und so einen Scheinzusammenhang erzeugt oder einen echten verzerrt. Das Lehrbuchbeispiel: Eisverkauf und Badeunfälle korrelieren — der Confounder ist das Sommerwetter, das beides erhöht. In der Forschungspraxis sind Alter, Bildung, Schweregrad der Erkrankung oder sozioökonomischer Status typische Confounder, die unkontrolliert ganze Befunde kippen können.
Direkt nicht — eine einmalige Messung kann nicht einmal die zeitliche Reihenfolge von Ursache und Wirkung belegen. Möglich sind vorsichtige Kausalargumente, wenn zusätzliche Bedingungen erfüllt sind: theoretisch begründete Wirkrichtung, kontrollierte zentrale Confounder, Konsistenz mit experimentellen oder längsschnittlichen Befunden anderer Studien. Die Dissertation formuliert dann „ist vereinbar mit“, nicht „belegt“.
Der Goldstandard ist das randomisierte Experiment: Die zufällige Zuteilung neutralisiert Confounder — auch unbekannte. Danach folgen quasi-experimentelle Designs (natürliche Experimente, Differenz-von-Differenzen, Regressions-Diskontinuität) und Längsschnittstudien, die zumindest die Zeitordnung sichern. Reine Querschnittskorrelationen stehen am unteren Ende der Kausalitätsleiter — wertvoll für Hypothesen, schwach für Wirkungsaussagen.
Nein — das ist eines der hartnäckigsten Missverständnisse. Mehr Fälle machen die Schätzung des Zusammenhangs präziser, aber nicht kausaler: Ein durch Confounding erzeugter Scheinzusammenhang wird mit n = 100.000 nur präziser falsch. Gegen Verzerrung helfen Design und Kontrolle, nicht Masse. Große Stichproben verschärfen das Problem sogar, weil winzige, verzerrte Effekte hochsignifikant werden.
Mit Verben, die Zusammenhang statt Wirkung ausdrücken: „hängt zusammen mit“, „ist assoziiert mit“, „geht einher mit“. Kausalverben — „beeinflusst“, „führt zu“, „senkt“, „verbessert“ — bleiben Designs vorbehalten, die Kausalität tragen. Dieselbe Disziplin gilt für Diskussion und Abstract, wo Kausalsprache am häufigsten zurückrutscht. Gutachter prüfen genau diese Passung zwischen Design und Sprache.

Unterstützung bei der Statistik Ihrer Doktorarbeit?

Wir begleiten Sie bei Methodik, Verfahren, Auswertung und Interpretation in SPSS, R und STATA.