„Wie viele Probanden brauche ich?” ist die häufigste Frage am Beginn einer empirischen Promotion — und die mit den teuersten Folgen, wenn sie falsch beantwortet wird. Eine zu kleine Stichprobe kann selbst reale Effekte nicht nachweisen; monatelange Erhebungsarbeit endet dann in einer Arbeit voller Nullbefunde, die nichts belegen. Eine unnötig große Stichprobe verschwendet Zeit, Geld und die Geduld der Teilnehmenden. Die Antwort liefert die Power-Analyse: ein etabliertes Verfahren, das aus wenigen begründeten Annahmen die erforderliche Fallzahl berechnet. Dieser Leitfaden erklärt die Logik dahinter, führt durch die Berechnung mit G*Power und R, zeigt die Stellschrauben für realistische Planungen und die Fehler, die in Ethikanträgen und Methodenkapiteln immer wieder auffallen. Am Ende können Sie Ihre Fallzahl nicht nur berechnen, sondern auch verteidigen.
Warum die Fallzahl begründet sein muss
Die Fallzahlplanung ist längst keine Kür mehr. Ethikkommissionen verlangen sie in praktisch jedem Antrag, weil sowohl zu kleine als auch zu große Studien ethisch problematisch sind: Zu kleine Studien belasten Teilnehmende für Erkenntnisse, die sie methodisch gar nicht liefern können; zu große setzen mehr Menschen als nötig einer Intervention oder auch nur dem Erhebungsaufwand aus. Gutachter wiederum lesen an der Fallzahlplanung ab, ob konfirmatorisch geplant oder nachträglich gerechtfertigt wurde — eine Studie ohne A-priori-Begründung der Stichprobengröße steht schnell im Verdacht, so lange erhoben zu haben, bis etwas signifikant wurde.
Dazu kommt ein handfester Eigennutz: Die Power-Analyse zwingt zu Klarheit über die eigene Studie. Wer sie durchführt, muss Hypothesen präzisieren, den primären Endpunkt festlegen, das Auswertungsverfahren benennen und eine realistische Effekterwartung recherchieren — alles Entscheidungen, die ohnehin ins Methodenkapitel gehören und besser vor der Erhebung fallen als danach.
Die vier Stellgrößen der Power-Analyse
Jede Fallzahlberechnung balanciert vier Größen, von denen drei festgelegt werden und die vierte folgt.
Signifikanzniveau (Alpha)
Alpha ist die akzeptierte Wahrscheinlichkeit, einen Effekt zu „finden”, der nicht existiert — der Fehler erster Art. Der Standard liegt bei 0,05; bei mehreren primären Endpunkten muss die Alpha-Korrektur bereits in die Planung einfließen, was die Fallzahl erhöht.
Power (1 − Beta)
Die Power ist die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt der angenommenen Größe auch nachzuweisen. Der Konventionswert 0,80 bedeutet im Umkehrschluss: Selbst bei korrekter Effektannahme bleibt ein 20-prozentiges Risiko, den Effekt zu verpassen. Konfirmatorische und förderfinanzierte Studien setzen zunehmend 0,90 an — mit spürbar höherer Fallzahl als Preis.
Erwartete Effektstärke
Die Effektstärke ist die heikelste Annahme, denn sie betrifft genau das, was die Studie erst herausfinden soll. Die Planung stützt sich deshalb auf Stellvertreter: Metaanalysen, vergleichbare Studien, Pilotdaten. Wichtig ist die Richtung der Vorsicht — wer den Effekt zu groß ansetzt, plant zu klein und riskiert eine unterpowerte Studie. Im Zweifel gilt: die kleinste Effektgröße ansetzen, die praktisch noch relevant wäre (smallest effect size of interest), nicht die optimistischste aus der Literatur.
Das statistische Verfahren
Die Fallzahl hängt am geplanten Test: Ein t-Test für unabhängige Gruppen braucht andere Zahlen als eine Varianzanalyse mit Messwiederholung, eine Korrelation oder eine logistische Regression. Deshalb steht am Anfang der Planung die Analyse-Strategie — die Power-Analyse wird für den primären Endpunkt und dessen konkretes Auswertungsverfahren gerechnet, nicht pauschal für „die Studie”.
Schritt für Schritt mit G*Power
Das kostenlose Programm G*Power ist der De-facto-Standard für Fallzahlberechnungen in Promotionen. Der Ablauf folgt immer demselben Muster.
Zuerst wird die Testfamilie gewählt (etwa t-Tests) und der konkrete Test (Differenz zwischen zwei unabhängigen Mittelwerten). Als Analyseart wird „A priori” eingestellt — die Berechnung der Fallzahl aus Alpha, Power und Effektstärke. Dann werden die Parameter eingetragen: zweiseitige Testung, Alpha 0,05, Power 0,80, erwartete Effektstärke etwa d = 0,5 und das Verhältnis der Gruppengrößen. G*Power liefert daraufhin die nötige Fallzahl pro Gruppe samt grafischer Darstellung des Zusammenhangs.
Ein Rechenbeispiel verdeutlicht die Hebelwirkung der Annahmen: Für einen Gruppenvergleich mit d = 0,5, Alpha 0,05 und Power 0,80 verlangt G*Power 64 Fälle pro Gruppe, insgesamt 128. Wird der erwartete Effekt auf d = 0,3 gesenkt, steigt die Fallzahl auf 176 pro Gruppe — fast das Dreifache. Eine Power von 0,90 statt 0,80 verteuert das Design um weitere rund 30 Prozent. Wer diese Sensitivität kennt, versteht, warum die Effektannahme sorgfältig begründet sein muss.
Dieselben Berechnungen gelingen reproduzierbar in R mit dem Paket pwr:
library(pwr)
# t-Test, zwei unabhängige Gruppen
pwr.t.test(d = 0.5, sig.level = 0.05, power = 0.80,
type = "two.sample", alternative = "two.sided")
# Korrelation
pwr.r.test(r = 0.30, sig.level = 0.05, power = 0.80)
# einfaktorielle ANOVA mit 3 Gruppen
pwr.anova.test(k = 3, f = 0.25, sig.level = 0.05, power = 0.80)
Der R-Weg hat einen Vorteil, der in der Dissertation zählt: Die Berechnung liegt als Code vor und kann im Anhang oder elektronischen Zusatzmaterial dokumentiert werden — exakt mit den verwendeten Annahmen.
Typische Designs und ihre Fallzahllogik
| Geplante Analyse | Effektmaß | Typische Annahme (mittel) | Größenordnung Fallzahl |
|---|---|---|---|
| t-Test, 2 unabhängige Gruppen | Cohens d | 0,5 | ca. 64 pro Gruppe |
| t-Test, verbunden (prä/post) | dz | 0,5 | ca. 34 gesamt |
| Einfaktorielle ANOVA, 3 Gruppen | f | 0,25 | ca. 53 pro Gruppe |
| Korrelation | r | 0,3 | ca. 84 gesamt |
| Multiple Regression, 5 Prädiktoren | f² | 0,15 | ca. 92 gesamt |
| Chi-Quadrat, 2×2 | w | 0,3 | ca. 88 gesamt |
| Logistische Regression | Odds Ratio | 1,8–2,0 | stark kontextabhängig |
Die Tabelle zeigt Größenordnungen für mittlere Effekte unter Standardannahmen — sie ersetzt keine eigene Berechnung, taugt aber als Plausibilitätscheck: Wer für einen erwarteten mittleren Gruppenunterschied mit 20 Fällen pro Gruppe plant, sollte die Planung überdenken. Deutlich wird auch der Effizienzgewinn verbundener Designs: Messwiederholungen nutzen jede Person mehrfach und kommen mit einem Bruchteil der Fälle aus. Für Verfahren jenseits der Tabelle — gemischte Modelle, Strukturgleichungen, Mehrebenenanalysen — existieren keine einfachen Formeln mehr; hier wird die Power über Monte-Carlo-Simulationen bestimmt, bei denen viele künstliche Datensätze unter den Planungsannahmen erzeugt und ausgewertet werden. Das ist aufwendiger, folgt aber derselben Logik und ist in R mit Paketen wie simr gut dokumentiert umsetzbar.
Wenn die berechnete Fallzahl nicht erreichbar ist
Das häufigste Planungsdilemma der Promotion: Die Power-Analyse verlangt 200 Fälle, realistisch erreichbar sind 80. Der falsche Weg ist, die Annahmen so lange zu verbiegen, bis die Wunschzahl herauskommt — eine plötzlich auf d = 0,8 angehobene Effekterwartung ohne Literaturbeleg durchschaut jede Kommission.
Die ehrlichen Auswege setzen am Design an. Verbundene Designs und Messwiederholungen erhöhen die Power pro Person erheblich. Reliablere Messinstrumente reduzieren Fehlervarianz und damit die nötige Fallzahl. Homogenere Einschlusskriterien verkleinern die Streuung — um den Preis eingeschränkter Generalisierbarkeit. Bei Sekundärdatenanalysen lässt sich die Fallzahlfrage manchmal elegant umgehen, indem auf öffentlich verfügbare Datensätze mit großen Fallzahlen ausgewichen wird. Und schließlich kann die Fragestellung selbst angepasst werden: ein primärer Endpunkt mit größerem erwartetem Effekt, eine Äquivalenz- statt Überlegenheitsfrage, ein explizit explorativ angelegtes Design mit entsprechend zurückhaltender Interpretation.
Mit Abstand am häufigsten sehe ich Promovierende, die erst nach der Datenerhebung zur Beratung kommen und fragen, ob ihre 60 Fälle „reichen”. Diese Frage hat nur vor der Erhebung eine gute Antwort — danach lässt sich nichts mehr planen, nur noch ehrlich berichten. — Dr. Jonas Reuter, Biometriker und Studienberater, Heidelberg, 2024
Alternative: Planung auf Präzision statt auf Signifikanz
Nicht jede Fragestellung zielt auf einen Hypothesentest. Wer primär schätzen will — wie hoch ist die Prävalenz, wie stark der Zusammenhang, wie groß der Unterschied —, plant sinnvoller auf die Präzision der Schätzung: Die Fallzahl wird so gewählt, dass das Konfidenzintervall des interessierenden Kennwerts eine vorab definierte Breite nicht überschreitet. Dieser Ansatz, in der Literatur als „accuracy in parameter estimation” geführt, ist für deskriptive und epidemiologische Promotionsprojekte oft die ehrlichere Planungslogik.
Das Prinzip am Beispiel einer Prävalenzschätzung: Wer den Anteil eines Merkmals mit einem 95-Prozent-Konfidenzintervall von höchstens ±5 Prozentpunkten schätzen will, braucht bei einer erwarteten Prävalenz um 50 Prozent rund 385 Fälle; bei ±3 Prozentpunkten sind es bereits gut 1.000. Auch hier zwingt die Planung zu nützlichen Vorentscheidungen — welche Präzision die Fragestellung wirklich braucht, ist eine inhaltliche Frage, keine statistische. Für Dissertationen mit Registerdaten oder Befragungen ist die Präzisionsplanung zudem die passende Antwort auf die Gutachterfrage nach der Fallzahlbegründung, wenn ein klassischer Power-Ansatz mangels Hypothesentest ins Leere liefe. Beide Logiken lassen sich kombinieren: Power-Analyse für den konfirmatorischen Hauptendpunkt, Präzisionsargument für die deskriptiven Nebenziele.
Ein Beispiel aus der Promotionspraxis
Wie die Planung konkret abläuft, zeigt der Fall eines Doktoranden der Sportwissenschaft, der die Wirkung eines achtwöchigen Trainingsprogramms auf die Rumpfkraft untersuchen wollte — Interventions- gegen Kontrollgruppe, primärer Endpunkt ein standardisierter Krafttest. Die Literaturrecherche ergab drei vergleichbare Studien mit Effektstärken von d = 0,45, 0,62 und 0,71. Statt optimistisch den Mittelwert zu nehmen, setzte er konservativ d = 0,45 an — die kleinste berichtete und zugleich eine noch praktisch relevante Größe.
G*Power lieferte dafür bei Alpha 0,05 und Power 0,80 eine Fallzahl von 79 pro Gruppe. Mit einem literaturbasierten Dropout-Aufschlag von 15 Prozent ergab sich ein Rekrutierungsziel von 186 Personen — mehr, als über die Kooperationsstudios realistisch erreichbar war. Statt die Effektannahme nach oben zu schrauben, wurde das Design angepasst: ein Prä-Post-Design mit Messwiederholung, das die interindividuelle Streuung kontrolliert. Die neue Berechnung verlangte 46 Personen pro Gruppe, mit Aufschlag 108 — machbar. Im Ethikantrag stand am Ende eine Planung, die jede Annahme mit einer Quelle belegte; die Kommission hatte keine einzige Rückfrage zur Fallzahl.
Die Planung dokumentieren: Ethikantrag und Methodenteil
Die beste Berechnung nützt wenig, wenn sie unvollständig berichtet wird. Eine vollständige Fallzahlbegründung nennt: das geplante Auswertungsverfahren für den primären Endpunkt, die angenommene Effektstärke mit Quelle, Alpha-Niveau und Seitigkeit der Testung, die angesetzte Power, die daraus resultierende Fallzahl, den Dropout-Aufschlag mit Begründung und das verwendete Programm samt Version. Das klingt nach viel, passt aber in vier bis fünf Sätze.
Eine bewährte Formulierung als Gerüst: „Die Fallzahlplanung erfolgte für den primären Endpunkt X mittels t-Test für unabhängige Stichproben. Ausgehend von einer erwarteten Effektstärke von d = 0,45 (Quelle), einem zweiseitigen Alpha von 0,05 und einer Power von 0,80 ergibt sich eine erforderliche Stichprobe von n = 79 pro Gruppe (G*Power 3.1). Unter Annahme einer Dropout-Quote von 15 % (Quelle) werden n = 93 pro Gruppe rekrutiert.” Wer dieses Muster füllt, erfüllt die Anforderungen praktisch jeder Ethikkommission — und hat den entsprechenden Absatz des Methodenkapitels gleich mitgeschrieben.
Häufige Fehler bei der Fallzahlplanung
Post-hoc-Power berechnen
Die nachträgliche Power-Berechnung mit der beobachteten Effektstärke („observed power”) ist statistisch zirkulär und informationslos: Sie ist nur eine Umformung des p-Werts. Sinnvoll sind nachträglich allenfalls Sensitivitätsanalysen — welche Effektgröße war mit der realisierten Fallzahl entdeckbar?
Effektstärke aus der Pilotstudie übernehmen
Pilotstudien mit 15 Fällen liefern Effektschätzungen mit riesigen Konfidenzintervallen. Wer deren Punktschätzung ungeprüft in die Power-Analyse übernimmt, baut die Hauptstudie auf Rauschen. Pilotdaten taugen für Machbarkeit und Streuungsschätzung — die Effekterwartung gehört literaturbasiert begründet.
Dropout vergessen
Die Power-Analyse liefert auswertbare Fälle; rekrutiert werden muss mehr. Ohne eingeplanten Aufschlag — üblich sind 10 bis 20 Prozent, bei Längsschnitten mehr — endet die Studie trotz korrekter Planung unterpowert. Der Aufschlag gehört begründet und dokumentiert.
Die Planung nicht zur Auswertung passen lassen
Wer die Fallzahl für einen t-Test berechnet, dann aber eine Kovarianzanalyse mit drei Kovariaten rechnet, hat formal keine Begründung mehr für seine Stichprobe. Power-Analyse und geplante Hauptauswertung müssen sich auf denselben Test beziehen — Änderungen der Analysestrategie erfordern eine aktualisierte Begründung.
KI-Tools bei der Fallzahlplanung
Sprachmodelle können den Einstieg erleichtern: Sie erklären die Logik von Alpha, Beta und Effektstärke geduldig auf jedem Niveau, schlagen für ein beschriebenes Design den passenden Test in G*Power vor und erzeugen pwr-Syntax für R. Auch als Plausibilitätsprüfung taugen sie — etwa um die eigene Berechnung in anderen Worten erklären zu lassen und Verständnislücken aufzudecken.
Verlassen sollte man sich auf die Zahlen nicht: KI-Tools verrechnen sich bei Power-Berechnungen regelmäßig, verwechseln Effektmaße (d, f, f², w haben unterschiedliche Skalen!) und erfinden plausibel klingende Fallzahlen. Jede Berechnung gehört in G*Power oder R reproduziert. Und die zentrale Planungsentscheidung — welche Effektstärke realistisch und welcher Endpunkt primär ist — bleibt eine fachliche Frage, die Literaturkenntnis verlangt.
Wann professionelle Begleitung sinnvoll ist
Für einen Standardgruppenvergleich genügen dieser Leitfaden und ein Nachmittag mit G*Power. Anspruchsvoller wird es bei komplexen Designs: Mehrebenenstrukturen (Patienten in Kliniken, Schüler in Klassen) verlangen Simulationen statt Formeln; adaptive Designs, Nicht-Unterlegenheitsfragen und Überlebenszeitanalysen haben eigene Planungslogiken; und wer seine Studie bei einer Ethikkommission oder in einem Förderantrag verteidigen muss, profitiert von einer biometrisch wasserdichten Formulierung. Viele Promovierende holen sich genau für diese eine Weiche externe Unterstützung — die Erfahrungen mit professioneller Statistikhilfe zeigen, dass die Beratung vor der Datenerhebung die mit Abstand wertvollste ist. Eine Stunde Planungsgespräch kostet wenig im Vergleich zu einer unterpowerten Studie, deren Schwäche erst im Gutachten auffällt.
Fazit
Die Fallzahlberechnung ist keine bürokratische Pflichtübung, sondern das Planungsinstrument, das über die Aussagekraft der gesamten Promotion entscheidet. Ihre Logik ist überschaubar: Alpha und Power konventionsgemäß festlegen, die erwartete Effektstärke ehrlich aus der Literatur begründen, die Berechnung für den primären Endpunkt und dessen konkretes Auswertungsverfahren durchführen — und den Dropout aufschlagen. Wer zusätzlich die Stellschrauben des Designs kennt, kann auch mit begrenzten Rekrutierungsmöglichkeiten eine aussagekräftige Studie planen. Entscheidend ist der Zeitpunkt: Vor der Erhebung ist die Fallzahlplanung ein mächtiges Werkzeug, danach nur noch eine Rechtfertigungsübung.
Eine begründete Fallzahlplanung vor der Erhebung erspart Monate der Unsicherheit danach. Jetzt unverbindlich anfragen →