Ratgeber zur statistischen Auswertung

Fallzahl berechnen für die Promotion

Fallzahl für die Promotion berechnen: Power-Analyse verständlich erklärt, mit G*Power- und R-Beispielen, typischen Fehlern und Praxistipps.

Inhaltsverzeichnis
Notizblock mit Stichprobenkalkulation neben Laptop mit Statistiksoftware — Symbolbild für die Fallzahlberechnung in der Promotion

„Wie viele Probanden brauche ich?” ist die häufigste Frage am Beginn einer empirischen Promotion — und die mit den teuersten Folgen, wenn sie falsch beantwortet wird. Eine zu kleine Stichprobe kann selbst reale Effekte nicht nachweisen; monatelange Erhebungsarbeit endet dann in einer Arbeit voller Nullbefunde, die nichts belegen. Eine unnötig große Stichprobe verschwendet Zeit, Geld und die Geduld der Teilnehmenden. Die Antwort liefert die Power-Analyse: ein etabliertes Verfahren, das aus wenigen begründeten Annahmen die erforderliche Fallzahl berechnet. Dieser Leitfaden erklärt die Logik dahinter, führt durch die Berechnung mit G*Power und R, zeigt die Stellschrauben für realistische Planungen und die Fehler, die in Ethikanträgen und Methodenkapiteln immer wieder auffallen. Am Ende können Sie Ihre Fallzahl nicht nur berechnen, sondern auch verteidigen.

Warum die Fallzahl begründet sein muss

Die Fallzahlplanung ist längst keine Kür mehr. Ethikkommissionen verlangen sie in praktisch jedem Antrag, weil sowohl zu kleine als auch zu große Studien ethisch problematisch sind: Zu kleine Studien belasten Teilnehmende für Erkenntnisse, die sie methodisch gar nicht liefern können; zu große setzen mehr Menschen als nötig einer Intervention oder auch nur dem Erhebungsaufwand aus. Gutachter wiederum lesen an der Fallzahlplanung ab, ob konfirmatorisch geplant oder nachträglich gerechtfertigt wurde — eine Studie ohne A-priori-Begründung der Stichprobengröße steht schnell im Verdacht, so lange erhoben zu haben, bis etwas signifikant wurde.

Dazu kommt ein handfester Eigennutz: Die Power-Analyse zwingt zu Klarheit über die eigene Studie. Wer sie durchführt, muss Hypothesen präzisieren, den primären Endpunkt festlegen, das Auswertungsverfahren benennen und eine realistische Effekterwartung recherchieren — alles Entscheidungen, die ohnehin ins Methodenkapitel gehören und besser vor der Erhebung fallen als danach.

Die vier Stellgrößen der Power-Analyse

Jede Fallzahlberechnung balanciert vier Größen, von denen drei festgelegt werden und die vierte folgt.

Signifikanzniveau (Alpha)

Alpha ist die akzeptierte Wahrscheinlichkeit, einen Effekt zu „finden”, der nicht existiert — der Fehler erster Art. Der Standard liegt bei 0,05; bei mehreren primären Endpunkten muss die Alpha-Korrektur bereits in die Planung einfließen, was die Fallzahl erhöht.

Power (1 − Beta)

Die Power ist die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt der angenommenen Größe auch nachzuweisen. Der Konventionswert 0,80 bedeutet im Umkehrschluss: Selbst bei korrekter Effektannahme bleibt ein 20-prozentiges Risiko, den Effekt zu verpassen. Konfirmatorische und förderfinanzierte Studien setzen zunehmend 0,90 an — mit spürbar höherer Fallzahl als Preis.

Erwartete Effektstärke

Die Effektstärke ist die heikelste Annahme, denn sie betrifft genau das, was die Studie erst herausfinden soll. Die Planung stützt sich deshalb auf Stellvertreter: Metaanalysen, vergleichbare Studien, Pilotdaten. Wichtig ist die Richtung der Vorsicht — wer den Effekt zu groß ansetzt, plant zu klein und riskiert eine unterpowerte Studie. Im Zweifel gilt: die kleinste Effektgröße ansetzen, die praktisch noch relevant wäre (smallest effect size of interest), nicht die optimistischste aus der Literatur.

Das statistische Verfahren

Die Fallzahl hängt am geplanten Test: Ein t-Test für unabhängige Gruppen braucht andere Zahlen als eine Varianzanalyse mit Messwiederholung, eine Korrelation oder eine logistische Regression. Deshalb steht am Anfang der Planung die Analyse-Strategie — die Power-Analyse wird für den primären Endpunkt und dessen konkretes Auswertungsverfahren gerechnet, nicht pauschal für „die Studie”.

Schritt für Schritt mit G*Power

Das kostenlose Programm G*Power ist der De-facto-Standard für Fallzahlberechnungen in Promotionen. Der Ablauf folgt immer demselben Muster.

Zuerst wird die Testfamilie gewählt (etwa t-Tests) und der konkrete Test (Differenz zwischen zwei unabhängigen Mittelwerten). Als Analyseart wird „A priori” eingestellt — die Berechnung der Fallzahl aus Alpha, Power und Effektstärke. Dann werden die Parameter eingetragen: zweiseitige Testung, Alpha 0,05, Power 0,80, erwartete Effektstärke etwa d = 0,5 und das Verhältnis der Gruppengrößen. G*Power liefert daraufhin die nötige Fallzahl pro Gruppe samt grafischer Darstellung des Zusammenhangs.

Ein Rechenbeispiel verdeutlicht die Hebelwirkung der Annahmen: Für einen Gruppenvergleich mit d = 0,5, Alpha 0,05 und Power 0,80 verlangt G*Power 64 Fälle pro Gruppe, insgesamt 128. Wird der erwartete Effekt auf d = 0,3 gesenkt, steigt die Fallzahl auf 176 pro Gruppe — fast das Dreifache. Eine Power von 0,90 statt 0,80 verteuert das Design um weitere rund 30 Prozent. Wer diese Sensitivität kennt, versteht, warum die Effektannahme sorgfältig begründet sein muss.

Dieselben Berechnungen gelingen reproduzierbar in R mit dem Paket pwr:

library(pwr)

# t-Test, zwei unabhängige Gruppen
pwr.t.test(d = 0.5, sig.level = 0.05, power = 0.80,
           type = "two.sample", alternative = "two.sided")

# Korrelation
pwr.r.test(r = 0.30, sig.level = 0.05, power = 0.80)

# einfaktorielle ANOVA mit 3 Gruppen
pwr.anova.test(k = 3, f = 0.25, sig.level = 0.05, power = 0.80)

Der R-Weg hat einen Vorteil, der in der Dissertation zählt: Die Berechnung liegt als Code vor und kann im Anhang oder elektronischen Zusatzmaterial dokumentiert werden — exakt mit den verwendeten Annahmen.

Typische Designs und ihre Fallzahllogik

Geplante AnalyseEffektmaßTypische Annahme (mittel)Größenordnung Fallzahl
t-Test, 2 unabhängige GruppenCohens d0,5ca. 64 pro Gruppe
t-Test, verbunden (prä/post)dz0,5ca. 34 gesamt
Einfaktorielle ANOVA, 3 Gruppenf0,25ca. 53 pro Gruppe
Korrelationr0,3ca. 84 gesamt
Multiple Regression, 5 Prädiktoren0,15ca. 92 gesamt
Chi-Quadrat, 2×2w0,3ca. 88 gesamt
Logistische RegressionOdds Ratio1,8–2,0stark kontextabhängig

Die Tabelle zeigt Größenordnungen für mittlere Effekte unter Standardannahmen — sie ersetzt keine eigene Berechnung, taugt aber als Plausibilitätscheck: Wer für einen erwarteten mittleren Gruppenunterschied mit 20 Fällen pro Gruppe plant, sollte die Planung überdenken. Deutlich wird auch der Effizienzgewinn verbundener Designs: Messwiederholungen nutzen jede Person mehrfach und kommen mit einem Bruchteil der Fälle aus. Für Verfahren jenseits der Tabelle — gemischte Modelle, Strukturgleichungen, Mehrebenenanalysen — existieren keine einfachen Formeln mehr; hier wird die Power über Monte-Carlo-Simulationen bestimmt, bei denen viele künstliche Datensätze unter den Planungsannahmen erzeugt und ausgewertet werden. Das ist aufwendiger, folgt aber derselben Logik und ist in R mit Paketen wie simr gut dokumentiert umsetzbar.

Wenn die berechnete Fallzahl nicht erreichbar ist

Das häufigste Planungsdilemma der Promotion: Die Power-Analyse verlangt 200 Fälle, realistisch erreichbar sind 80. Der falsche Weg ist, die Annahmen so lange zu verbiegen, bis die Wunschzahl herauskommt — eine plötzlich auf d = 0,8 angehobene Effekterwartung ohne Literaturbeleg durchschaut jede Kommission.

Die ehrlichen Auswege setzen am Design an. Verbundene Designs und Messwiederholungen erhöhen die Power pro Person erheblich. Reliablere Messinstrumente reduzieren Fehlervarianz und damit die nötige Fallzahl. Homogenere Einschlusskriterien verkleinern die Streuung — um den Preis eingeschränkter Generalisierbarkeit. Bei Sekundärdatenanalysen lässt sich die Fallzahlfrage manchmal elegant umgehen, indem auf öffentlich verfügbare Datensätze mit großen Fallzahlen ausgewichen wird. Und schließlich kann die Fragestellung selbst angepasst werden: ein primärer Endpunkt mit größerem erwartetem Effekt, eine Äquivalenz- statt Überlegenheitsfrage, ein explizit explorativ angelegtes Design mit entsprechend zurückhaltender Interpretation.

Mit Abstand am häufigsten sehe ich Promovierende, die erst nach der Datenerhebung zur Beratung kommen und fragen, ob ihre 60 Fälle „reichen”. Diese Frage hat nur vor der Erhebung eine gute Antwort — danach lässt sich nichts mehr planen, nur noch ehrlich berichten. — Dr. Jonas Reuter, Biometriker und Studienberater, Heidelberg, 2024

Alternative: Planung auf Präzision statt auf Signifikanz

Nicht jede Fragestellung zielt auf einen Hypothesentest. Wer primär schätzen will — wie hoch ist die Prävalenz, wie stark der Zusammenhang, wie groß der Unterschied —, plant sinnvoller auf die Präzision der Schätzung: Die Fallzahl wird so gewählt, dass das Konfidenzintervall des interessierenden Kennwerts eine vorab definierte Breite nicht überschreitet. Dieser Ansatz, in der Literatur als „accuracy in parameter estimation” geführt, ist für deskriptive und epidemiologische Promotionsprojekte oft die ehrlichere Planungslogik.

Das Prinzip am Beispiel einer Prävalenzschätzung: Wer den Anteil eines Merkmals mit einem 95-Prozent-Konfidenzintervall von höchstens ±5 Prozentpunkten schätzen will, braucht bei einer erwarteten Prävalenz um 50 Prozent rund 385 Fälle; bei ±3 Prozentpunkten sind es bereits gut 1.000. Auch hier zwingt die Planung zu nützlichen Vorentscheidungen — welche Präzision die Fragestellung wirklich braucht, ist eine inhaltliche Frage, keine statistische. Für Dissertationen mit Registerdaten oder Befragungen ist die Präzisionsplanung zudem die passende Antwort auf die Gutachterfrage nach der Fallzahlbegründung, wenn ein klassischer Power-Ansatz mangels Hypothesentest ins Leere liefe. Beide Logiken lassen sich kombinieren: Power-Analyse für den konfirmatorischen Hauptendpunkt, Präzisionsargument für die deskriptiven Nebenziele.

Ein Beispiel aus der Promotionspraxis

Wie die Planung konkret abläuft, zeigt der Fall eines Doktoranden der Sportwissenschaft, der die Wirkung eines achtwöchigen Trainingsprogramms auf die Rumpfkraft untersuchen wollte — Interventions- gegen Kontrollgruppe, primärer Endpunkt ein standardisierter Krafttest. Die Literaturrecherche ergab drei vergleichbare Studien mit Effektstärken von d = 0,45, 0,62 und 0,71. Statt optimistisch den Mittelwert zu nehmen, setzte er konservativ d = 0,45 an — die kleinste berichtete und zugleich eine noch praktisch relevante Größe.

G*Power lieferte dafür bei Alpha 0,05 und Power 0,80 eine Fallzahl von 79 pro Gruppe. Mit einem literaturbasierten Dropout-Aufschlag von 15 Prozent ergab sich ein Rekrutierungsziel von 186 Personen — mehr, als über die Kooperationsstudios realistisch erreichbar war. Statt die Effektannahme nach oben zu schrauben, wurde das Design angepasst: ein Prä-Post-Design mit Messwiederholung, das die interindividuelle Streuung kontrolliert. Die neue Berechnung verlangte 46 Personen pro Gruppe, mit Aufschlag 108 — machbar. Im Ethikantrag stand am Ende eine Planung, die jede Annahme mit einer Quelle belegte; die Kommission hatte keine einzige Rückfrage zur Fallzahl.

Die Planung dokumentieren: Ethikantrag und Methodenteil

Die beste Berechnung nützt wenig, wenn sie unvollständig berichtet wird. Eine vollständige Fallzahlbegründung nennt: das geplante Auswertungsverfahren für den primären Endpunkt, die angenommene Effektstärke mit Quelle, Alpha-Niveau und Seitigkeit der Testung, die angesetzte Power, die daraus resultierende Fallzahl, den Dropout-Aufschlag mit Begründung und das verwendete Programm samt Version. Das klingt nach viel, passt aber in vier bis fünf Sätze.

Eine bewährte Formulierung als Gerüst: „Die Fallzahlplanung erfolgte für den primären Endpunkt X mittels t-Test für unabhängige Stichproben. Ausgehend von einer erwarteten Effektstärke von d = 0,45 (Quelle), einem zweiseitigen Alpha von 0,05 und einer Power von 0,80 ergibt sich eine erforderliche Stichprobe von n = 79 pro Gruppe (G*Power 3.1). Unter Annahme einer Dropout-Quote von 15 % (Quelle) werden n = 93 pro Gruppe rekrutiert.” Wer dieses Muster füllt, erfüllt die Anforderungen praktisch jeder Ethikkommission — und hat den entsprechenden Absatz des Methodenkapitels gleich mitgeschrieben.

Häufige Fehler bei der Fallzahlplanung

Post-hoc-Power berechnen

Die nachträgliche Power-Berechnung mit der beobachteten Effektstärke („observed power”) ist statistisch zirkulär und informationslos: Sie ist nur eine Umformung des p-Werts. Sinnvoll sind nachträglich allenfalls Sensitivitätsanalysen — welche Effektgröße war mit der realisierten Fallzahl entdeckbar?

Effektstärke aus der Pilotstudie übernehmen

Pilotstudien mit 15 Fällen liefern Effektschätzungen mit riesigen Konfidenzintervallen. Wer deren Punktschätzung ungeprüft in die Power-Analyse übernimmt, baut die Hauptstudie auf Rauschen. Pilotdaten taugen für Machbarkeit und Streuungsschätzung — die Effekterwartung gehört literaturbasiert begründet.

Dropout vergessen

Die Power-Analyse liefert auswertbare Fälle; rekrutiert werden muss mehr. Ohne eingeplanten Aufschlag — üblich sind 10 bis 20 Prozent, bei Längsschnitten mehr — endet die Studie trotz korrekter Planung unterpowert. Der Aufschlag gehört begründet und dokumentiert.

Die Planung nicht zur Auswertung passen lassen

Wer die Fallzahl für einen t-Test berechnet, dann aber eine Kovarianzanalyse mit drei Kovariaten rechnet, hat formal keine Begründung mehr für seine Stichprobe. Power-Analyse und geplante Hauptauswertung müssen sich auf denselben Test beziehen — Änderungen der Analysestrategie erfordern eine aktualisierte Begründung.

KI-Tools bei der Fallzahlplanung

Sprachmodelle können den Einstieg erleichtern: Sie erklären die Logik von Alpha, Beta und Effektstärke geduldig auf jedem Niveau, schlagen für ein beschriebenes Design den passenden Test in G*Power vor und erzeugen pwr-Syntax für R. Auch als Plausibilitätsprüfung taugen sie — etwa um die eigene Berechnung in anderen Worten erklären zu lassen und Verständnislücken aufzudecken.

Verlassen sollte man sich auf die Zahlen nicht: KI-Tools verrechnen sich bei Power-Berechnungen regelmäßig, verwechseln Effektmaße (d, f, f², w haben unterschiedliche Skalen!) und erfinden plausibel klingende Fallzahlen. Jede Berechnung gehört in G*Power oder R reproduziert. Und die zentrale Planungsentscheidung — welche Effektstärke realistisch und welcher Endpunkt primär ist — bleibt eine fachliche Frage, die Literaturkenntnis verlangt.

Wann professionelle Begleitung sinnvoll ist

Für einen Standardgruppenvergleich genügen dieser Leitfaden und ein Nachmittag mit G*Power. Anspruchsvoller wird es bei komplexen Designs: Mehrebenenstrukturen (Patienten in Kliniken, Schüler in Klassen) verlangen Simulationen statt Formeln; adaptive Designs, Nicht-Unterlegenheitsfragen und Überlebenszeitanalysen haben eigene Planungslogiken; und wer seine Studie bei einer Ethikkommission oder in einem Förderantrag verteidigen muss, profitiert von einer biometrisch wasserdichten Formulierung. Viele Promovierende holen sich genau für diese eine Weiche externe Unterstützung — die Erfahrungen mit professioneller Statistikhilfe zeigen, dass die Beratung vor der Datenerhebung die mit Abstand wertvollste ist. Eine Stunde Planungsgespräch kostet wenig im Vergleich zu einer unterpowerten Studie, deren Schwäche erst im Gutachten auffällt.

Fazit

Die Fallzahlberechnung ist keine bürokratische Pflichtübung, sondern das Planungsinstrument, das über die Aussagekraft der gesamten Promotion entscheidet. Ihre Logik ist überschaubar: Alpha und Power konventionsgemäß festlegen, die erwartete Effektstärke ehrlich aus der Literatur begründen, die Berechnung für den primären Endpunkt und dessen konkretes Auswertungsverfahren durchführen — und den Dropout aufschlagen. Wer zusätzlich die Stellschrauben des Designs kennt, kann auch mit begrenzten Rekrutierungsmöglichkeiten eine aussagekräftige Studie planen. Entscheidend ist der Zeitpunkt: Vor der Erhebung ist die Fallzahlplanung ein mächtiges Werkzeug, danach nur noch eine Rechtfertigungsübung.

Eine begründete Fallzahlplanung vor der Erhebung erspart Monate der Unsicherheit danach. Jetzt unverbindlich anfragen →

Häufig gestellte Fragen

Aus drei Gründen. Erstens ist jede Erhebung mit Aufwand und oft mit Belastung für Teilnehmende verbunden — unnötig große Studien sind forschungsethisch problematisch. Zweitens machen sehr große Stichproben auch praktisch irrelevante Mini-Effekte signifikant, was die Interpretation erschwert. Drittens verlangen Ethikkommissionen und viele Promotionsordnungen eine begründete Fallzahl: „so viele wie möglich“ ist keine wissenschaftliche Planung.
Der etablierte Standard ist eine Power von 0,80 — die Studie entdeckt einen tatsächlich vorhandenen Effekt der angenommenen Größe dann mit 80-prozentiger Wahrscheinlichkeit. Konfirmatorische klinische Studien und Arbeiten mit hohen Konsequenzen setzen häufig 0,90 an. Wichtiger als der exakte Wert ist die Konsistenz: Power, Alpha-Niveau und erwartete Effektstärke werden vorab festgelegt und im Methodenteil dokumentiert.
Aus drei Quellen, in dieser Rangfolge: Metaanalysen und Vorstudien zum eigenen Thema, vergleichbare Einzelstudien mit berichteten Effektstärken und — als letzte Option — die Konventionen für kleine, mittlere und große Effekte. Eine eigene Pilotstudie hilft bei Machbarkeit und Streuungsschätzung; ihre Effektstärken sind wegen der kleinen Fallzahl aber notorisch unzuverlässig und sollten konservativ interpretiert werden.
Zuerst die Annahmen prüfen: Ist die angesetzte Effektstärke realistisch oder unnötig pessimistisch? Dann am Design arbeiten, nicht an den Zahlen: Messwiederholungen, verbundene Designs, reliablere Messinstrumente und homogenere Stichproben senken die nötige Fallzahl teils erheblich. Erst wenn auch das nicht reicht, sollte die Fragestellung angepasst werden — etwa auf einen Endpunkt mit größerem erwartetem Effekt. Nachträglich Alpha oder Power aufzuweichen ist keine Lösung.
Eine klassische Power-Analyse passt dort nicht, eine begründete Planung schon. Qualitative Arbeiten argumentieren über theoretische Sättigung, retrospektive Aktenstudien über den verfügbaren Datenbestand und die Präzision der Schätzungen — etwa über die erwartete Breite der Konfidenzintervalle. Auch hier gilt: Die Zahl wird vor der Erhebung begründet, nicht hinterher gerechtfertigt.
Unbedingt. Die Power-Analyse liefert die Zahl auswertbarer Fälle — rekrutiert werden muss mehr. Üblich ist ein Aufschlag von 10 bis 20 Prozent, bei Längsschnittstudien mit mehreren Messzeitpunkten auch deutlich mehr. Die kalkulierte Dropout-Quote sollte aus vergleichbaren Studien begründet und im Ethikantrag wie im Methodenteil ausgewiesen werden, inklusive der geplanten Strategie für fehlende Werte.

Unterstützung bei der Statistik Ihrer Doktorarbeit?

Wir begleiten Sie bei Methodik, Verfahren, Auswertung und Interpretation in SPSS, R und STATA.