Block-Bootstrap: Wie wir Pleiterisiko ehrlich berechnen

Wenn dir ein Tool sagt „dein FIRE-Plan hat 0,94 % Pleiterisiko", solltest du als Erstes fragen: Wie ist das gerechnet? Die ehrliche Antwort ist verblüffend: Die zwei populärsten Methoden — reine historische Backtests und einfache Monte-Carlo-Simulationen — sind beide methodisch wackelig. Die wissenschaftliche FIRE-Forschung hat ungefähr seit 2020 still und leise auf eine dritte Methode umgestellt: Block-Bootstrap. Dieser Rechner nutzt sie. Hier ist, was das bedeutet, warum es besser ist, und wo auch dieser Ansatz Grenzen hat.

TL;DR

Wir ziehen jährliche Marktrenditen nicht aus einer Normalverteilung um eine Mittel-Rendite (das ist klassische Monte-Carlo), sondern als Blöcke aus echter historischer Multi-Country-Marktgeschichte — 18 Industrieländer ab 1870, value-weighted (JST Macrohistory + Kuvshinov/Zimmermann). Block-Länge im Mittel 10 Jahre, nach Politis/Romano 1994. Damit übernehmen wir bewusst die Methodik von Anarkulova/Cederburg/O'Doherty/Sias 2025 — dem aktuellen akademischen Konsens für die SWR-Frage. Reale Markt-Dynamik (Mean-Reversion, Volatilitäts-Cluster, Stagflations-Pfade) bleibt erhalten, Survivorship-Bias wird zumindest abgeschwächt. Im Expert-Modus kannst du zwischen unserem Default („Multi-Country global"), der Cederburg-Paper-Referenz und einem reinen US-Shiller-Vergleich umschalten und den Spread sehen.

Zwei Fehler, gegen die wir bauen

Fehler 1: Reine historische Backtests sind statistisch dünn

Der klassische SWR-Befund (Bengen 1994, Trinity-Studie 1998) basiert auf einer einfachen Idee: Nimm die historischen US-Renditen ab 1926, schieb ein 30-Jahres-Fenster durch (1926–1955, 1927–1956, ...) und schau, wie viele Fenster eine 4-%-Entnahme überleben. Antwort: Ca. 95 %. Klingt rigoros.

Wade Pfau hat den Punkt sauber gemacht: Bei US-Daten ab 1926 gibt es nur etwa 61 nicht-unabhängige 30-Jahres-Fenster. Davon sind die meisten überlappend — sie teilen 28 von 30 Jahren mit dem Nachbarn. Echte unabhängige Stichproben? Drei. Vier vielleicht. Auf dieser Basis ein Risiko-Niveau auf zwei Nachkommastellen genau zu kalibrieren, ist statistisch unsauber.

Cederburg et al. haben 2022 in Stocks for the Long Run? Evidence from a Broad Sample of Developed Markets (JFE) den noch unbequemeren Punkt gezeigt: Wenn du nur US-Daten nutzt, beträgt die 30-Jahres-Aktien-Realverlust-Wahrscheinlichkeit historisch 1,2 %. Wenn du dieselbe Auswertung auf 38 entwickelte Märkte international ausweitest, sind es 12,1 % — Faktor zehn. Die USA waren der absolute Glücksfall des 20. Jahrhunderts. Jede Methodik, die nur US-Daten nutzt — egal ob Rolling-Window, Bootstrap oder Monte-Carlo — unterschätzt das echte Aktien-Risiko über lange Horizonte systematisch.

Fehler 2: Einfache Monte-Carlo ignoriert Marktstruktur

Die typische Monte-Carlo-Simulation funktioniert so: Nimm eine erwartete Mittel-Rendite (z. B. 7 % p. a.) und eine Volatilität (z. B. 16 % Standardabweichung), simuliere 10.000 Pfade aus dieser Verteilung, zähle wie viele Pfade pleitegehen. Bis Anfang 2026 hat dieser Rechner exakt das getan.

Das Problem ist subtil und in der akademischen Welt seit langem bekannt. Michael Tharp und Michael Kitces haben es 2018 in Fat Tails In Monte Carlo Analysis vs Safe Withdrawal Rates empirisch sichtbar gemacht: Einfache iid-Normal-Monte-Carlo (jedes Jahr unabhängig aus einer Normalverteilung) produziert Pfade, die schlimmer sind als alles, was historisch je passiert ist. Tharps Zahl: 6,5 % der MC-Pfade waren schlimmer als der Worst Case der US-Historie seit 1871.

Der Grund ist: Echte Märkte haben ein Gedächtnis. Auf extreme Bewertungen (1929, 1999, 2021) folgen typischerweise schwache Renditen — Mean-Reversion. Auf Crashes (1932, 2009) folgen oft starke Erholungen — ebenfalls Mean-Reversion. iid-Normal-Monte-Carlo ignoriert das. Sie würfelt jedes Jahr blind, ohne Rücksicht darauf, was das letzte Jahr gemacht hat. Folge: Sie erfindet Sequenzen wie „zehn Jahre Crash hintereinander", die historisch unmöglich sind.

Das ist kontraintuitiv: Viele User glauben, MC sei konservativer als historische Backtests. Tharps Befund zeigt das Gegenteil — iid-MC ist oft zu pessimistisch. Sie überzeichnet Tail-Risiken in Konstellationen, die in der Realität durch Mean-Reversion gebrochen würden.

Wie Block-Bootstrap diese zwei Fehler löst

Politis und Romano haben 1994 in The Stationary Bootstrap (JASA) eine eleganten Ansatz vorgestellt: Statt jedes Jahr unabhängig zu ziehen (Monte-Carlo) oder ganze 30-Jahres-Fenster festzuhalten (Backtest), zieht man kurze Blöcke aus der Historie und setzt sie zu neuen synthetischen Pfaden zusammen. Block-Längen sind geometrisch verteilt mit einem konfigurierbaren Mittelwert.

Die Mechanik in zwei Sätzen: Starte bei einem zufälligen historischen Jahr, übernimm dessen Rendite. Mit Wahrscheinlichkeit p (z. B. 0,1) wähle danach ein neues zufälliges Startjahr für den nächsten Block; mit Wahrscheinlichkeit 1−p nimm das nächste Jahr in der Sequenz. Bei p = 0,1 sind die Blöcke im Mittel 10 Jahre lang.

Was das bewahrt: Innerhalb jedes Blocks bleiben die echten Marktdynamiken intakt — Mean-Reversion, Volatilitäts-Cluster, Korrelationen zwischen Aktien und Inflation. Was das öffnet: Durch zufälliges Zusammensetzen entstehen tausende neue Sequenzen, die die ursprünglich kleine historische Stichprobe massiv erweitern. Beides gleichzeitig — das ist der Trick.

Der akademische Konsens-Punkt: Anarkulova/Cederburg 2025

Cederburg und Kolleginnen haben 2025 in The Safe Withdrawal Rate: Evidence from a Broad Sample of Developed Markets genau dieses Verfahren auf die SWR-Frage angewandt: Stationary Bootstrap, 38 entwickelte Märkte 1890–2019, Block-Länge im Mittel 10 Jahre, value-weighted Portfolio. Ihr Hauptbefund für ein 65-Jahre-Paar bei 5 % Pleiterisiko-Toleranz: SWR = 2,26 %. Nicht 4 %. Nicht 3,3 %. 2,26 %.

Das ist die ehrliche Antwort, gegen die wir uns alle messen müssen. Sie ist tiefer, weil:

der Sample-Pool 38 Länder enthält, nicht nur USA
der Horizont 65 Jahre ist (typischer FIRE-Frühruheständler im 40-Jahre-Alter), nicht 30
die Methodik echte Bewertungs-Mean-Reversion und seriale Korrelation bewahrt

Was unser Tool konkret rechnet

Die Datenbasis

Cederburgs Rohdaten kommen aus der Global Financial Data-Datenbank — kommerziell lizenziert, nicht öffentlich zugänglich. Wir können sein 38-Länder-Sample also nicht 1:1 reproduzieren. Was wir tun: wir nutzen die frei verfügbare Jordà-Schularick-Taylor Macrohistory Database R6 — 16 Industrieländer, jährlich, mit Aktien-Total-Returns, Bond-Returns und CPI pro Land (Creative Commons). Für das Value-Weighting der Länder zu einem globalen Index nutzen wir zusätzlich die Kuvshinov/Zimmermann (2022) Stock Market Capitalization Database (CC-BY-NC-SA, frei), die historische Aktienmarkt-Kapitalisierungen pro Land/Jahr liefert. Konkret: Kuvshinov/Zimmermann-`mcap` (lokale Währung) × `unit` ÷ JST-`xrusd` = USD-Volumen. Damit reproduzieren wir die echte MSCI-World-ähnliche Gewichtung — 2010 ergibt das z. B. USA 48 %, JPN 11 %, GBR 9 %, was zu real-handelbaren globalen ETFs passt.

Konkret im Sample: Australien, Belgien, Dänemark, Deutschland, Finnland, Frankreich, Großbritannien, Italien, Japan, Niederlande, Norwegen, Portugal, Schweden, Schweiz, Spanien, USA. Inklusive Japan-1990-Implosion, Deutschland-Hyperinflation 1923, Schweden-Krise 1990, alle wieder-real-deflationiert. Was fehlt im Vergleich zu Cederburg: Argentinien, Chile, einige Emerging-Markets-ähnliche Episoden, frühere Anfangsjahre.

Die Renditen werden vor dem Bootstrap auf real deflationiert (sonst zerschlägt Deutschland 1923 mit nominalen 2,6 Milliarden Prozent jede Mittelung). Das Bootstrap-Sample sind also echte real-historische Renditen, value-weighted über die Länder mit Daten.

Die Statistik im Vergleich

Sample-Mittelwerte unseres value-weighted Multi-Country-Sets vs. reines Shiller-US:

Metrik	Multi-Country (Default, value-weighted)	Shiller US-only
Mittelwert real-Aktien p.a.	7,69 %	8,28 %
Standardabweichung	15,9 %	17,6 %
Real-Bond Mittelwert p.a.	1,87 %	n/a (in Shiller-Daten nicht enthalten)
Daten ab	1900	1872
Datenpunkte	117 Jahre × 16 Länder	151 Jahre × 1 Land

Der 0,6 %-Punkt-Spread bei der mittleren Realrendite ist der "Glücksfall USA"-Effekt aus Cederburgs Argument — gedämpft, weil USA im value-weighted Sample sowieso ~50–67 % Gewicht trägt (siehe oben: 2010 = 48 %, 1970 = 67 %). Wer einen MSCI-World-ETF hält, hat den US-Vorteil also schon eingebaut — der Survivorship-Bias-Effekt wirkt nur auf den NICHT-US-Anteil, der historisch unterdurchschnittlich performt hat. Trotzdem: 0,6 %-Punkte real p.a. über 45 Jahre kompoundiert sind ~30 % Endkapital-Differenz. Real.

Die Engine

Implementation in public/scripts/calculator.js:

1. Lade history-global.json (real-deflationiert, value-weighted)
2. Für jeden der 5000 Bootstrap-Runs:
   a. Stationary-Bootstrap-Sampler: ziehe Jahre-Sequenz für Horizont (z.B. 45 J.),
      Blocks im Mittel 10 J.
   b. Konvertiere zu nominalen Returns mit User-Inflations-Annahme
   c. Füttere returnSeries in die Strategie-Engine (calculate())
   d. Anwende Floor-VPW-Strategie, zähle ob Pfad pleitegeht
3. Aggregiere: Pleiterisiko, Median-Pfad, p10/p90-Band

Für die Pfad-Modus-Bisektion: wiederhole für verschiedene Floor-Werte,
finde per Halbierung das höchste Floor mit Pleiterate ≤ targetRisk.

Die drei Datenmodi im Tool

Wenn du im Rechner den Optimalen Entnahme-Pfad aktivierst und Expert-Mode an hast, siehst du eine Datengrundlage-Auswahl:

1. Multi-Country global (Default)

Block-Bootstrap auf JST-Macrohistory-Daten (16 Länder, value-weighted). Das ist unsere normale Methodik. Sie matched konzeptuell zu dem, was ein deutscher Anleger 2026 tatsächlich hält: Einen global diversifizierten ETF auf den entwickelten Märkten. Sie ist konservativer als US-only-Daten, aber nicht extrem — Argentinien, Chile, Emerging-Markets-Episoden fehlen.

2. Cederburg-streng (Paper-Referenz)

Statische Lookup-Tabelle der publizierten SWR-Werte aus dem 2025-Paper. Kein Live-Run — wir können Cederburgs 38-Länder-Sample nicht reproduzieren (Lizenz), aber wir können seine Endergebnisse zeigen. Das ist als „akademische Realitäts-Sanity-Check" gedacht: Wenn unsere Live-Zahl deutlich von Cederburgs Zahl abweicht, ist das ein Signal, dass unser kleinerer Sample-Pool eine andere Geschichte erzählt.

3. Nur USA (Shiller)

Block-Bootstrap auf den reinen Shiller-S&P-500-Daten ab 1871. Bewusst optimistisch, methodisch gleichwertig zum Default, aber mit dem dokumentierten Survivorship-Bias. Sinn dieses Modus: User sehen den Spread zwischen Multi-Country und US-only direkt — der Unterschied ist im Tool sichtbar, nicht nur im Artikel.

Regime-Switching: Die theoretisch eleganteste Alternative

Es gibt einen vierten methodischen Ansatz, der in der Asset-Pricing-Akademie hoch angesehen ist, aber in der FIRE-Praxis Nische bleibt: Hamilton-Markov-Regime-Switching (Hamilton 1989). Idee: Statt nur eine Renditeverteilung anzunehmen, modelliere explizit zwei oder drei Markt-Regimes (Bull, Bear, Krise) mit eigenen Renditeverteilungen, und Übergangs-Wahrscheinlichkeiten zwischen den Regimes.

Theoretisch ist das elegant — fat-tail-fähig, regime-konditional, kompatibel mit konditionellen Entnahmestrategien („in Bear-Regime weniger ziehen"). In der Praxis aber: Parameterschätzung ist instabil (Transitions-Wahrscheinlichkeiten brauchen viele Regime-Wechsel im Sample), die Komplexität skaliert schnell, und Tharp/Kitces beklagt explizit: „no financial planning software is yet built" für Regime-Switching im Retirement-Kontext.

Karsten Jeskes CAPE-Conditioning-Ansatz erreicht ähnliche Ziele einfacher: man konditioniert die SWR auf das aktuelle Bewertungsniveau (CAPE), ohne formales Regime-Modell. Das könnte eine sinnvolle Zukunfts-Erweiterung dieses Tools werden. Aktuell: wir bauen Block-Bootstrap. Regime-Switching ist erwähnt, nicht implementiert.

Auch Block-Bootstrap hat Grenzen

Methodische Ehrlichkeit verlangt, die Limits zu nennen:

Keine Pfade, die nie passiert sind. Bootstrap sampelt nur aus historischen Renditen. Wenn die Zukunft eine ganz neue Krisen-Konstellation bringt (z. B. eine 50-Jahre-Stagnation der entwickelten Welt durch demografischen Wandel + KI-Disruption + Klimakosten), ist das im Sample nicht enthalten. Wir würden es nicht sehen. Das ist der zentrale Punkt, an dem Regime-Switching theoretisch besser wäre — aber zur Erinnerung: 2008 wurde auch nicht „aus den Daten" erwartet, und passierte trotzdem. Kein statistisches Modell repariert das.

Block-Länge ist eine Annahme. Wir nutzen Mittel 10 Jahre nach Anarkulova. Sensitivitätstests in der Literatur (Michael James 2022) zeigen: Bei 5-Jahres-Blöcken läge die SWR ungefähr 0,3 %-Punkte tiefer, bei 15-Jahres-Blöcken etwas höher. Das ist real, aber bewegt sich in einem Korridor, den wir methodisch verteidigen können. Wir exposen den Knopf nicht in der UI — das wäre Theater mit Pseudo-Wissenschaft.

Sample-Pool ist 16 statt 38 Länder. Cederburgs 38-Länder-Sample inkludiert Argentinien, Chile und einige Schwellenmärkte mit dramatischen historischen Episoden. Unser Sample ist enger — entsprechend leicht weniger konservativ. Das macht unsere Multi-Country-Zahl optimistischer als Cederburgs Paper-Wert, aber deutlich realistischer als reines US-Sample. Wer akademisch streng will: Cederburg-strict-Modus im Tool.

Lizenz-Hinweis. Die Cap-Daten von Kuvshinov/Zimmermann stehen unter CC-BY-NC-SA 4.0 (nicht-kommerziell). Dieser Rechner ist frei und werbefrei, also lizenzkonform. Falls das Tool je kommerzialisiert würde, müssten wir entweder die Daten ersetzen oder eine kommerzielle Erlaubnis bei den Autoren einholen. Attribution ist im Quellen-Abschnitt unten dokumentiert.

Multi-Country mischt heterogene Regime. Argentinien 1989 ist ein anderes ökonomisches Phänomen als USA 1929. Sie alle in einen Topf zu werfen ist eine simplifizierende Annahme. Cederburg verteidigt das in seinem Paper — die Survivorship-Bias-Korrektur wiegt schwerer als das Heterogenitäts-Risiko. Ich folge dem Argument.

Wo sich die Zahlen im Tool verschieben

Konkret im Vergleich zu der parametrischen iid-Normal-MC, die dieses Tool bis Mai 2026 nutzte:

Dashboard-Pleiterisiko-KPI bewegt sich um 0,5–2 %-Punkte je nach Setup. Bei aggressiver Entnahme (≥ 5 % Anfangsrate) eher höher als vorher; bei konservativer Entnahme manchmal niedriger (Mean-Reversion hilft in den Tails).
Pfad-Modus-Floor sinkt typischerweise um 5–15 % gegenüber der alten parametrischen Zahl. Das ist die ehrlichere Antwort.
Median-Endkapital ist meist niedriger (weil die realen historischen Renditen leicht niedriger sind als die typischen Annahmen für etfRate).

Wenn dich diese Verschiebung schockt: Das ist methodisch korrekt. Du hast nicht plötzlich „mehr Risiko"; du hast endlich die Zahl, die dem realen historischen Risiko entspricht. Die alte Zahl war zu glatt.

Quellen

Die zentralen Studien für diese Methodik:

Anarkulova, Cederburg, O'Doherty, Sias (2025). The Safe Withdrawal Rate: Evidence from a Broad Sample of Developed Markets. Journal of Pension Economics and Finance. — Das Landmark-Paper. SWR = 2,26 % für 65-Jahre-Paar bei 5 % Risk-Toleranz.
Anarkulova, Cederburg, O'Doherty (2022). Stocks for the Long Run? Evidence from a Broad Sample of Developed Markets. Journal of Financial Economics. — Survivorship-Bias-Befund: 30-Jahres-Realverlust 1,2 % US vs. 12,1 % international.
Politis, Romano (1994). The Stationary Bootstrap. JASA. Plus Politis/White (2004) Automatic Block-Length Selection. — Methodische Grundlage des Stationary-Bootstrap und der Block-Längen-Wahl.
Hamilton (1989). Markov-Switching Models (Palgrave-Übersicht 2005). — Regime-Switching-Klassiker, theoretische Alternative zu Bootstrap.
Tharp, Kitces (2018). Fat Tails In Monte Carlo Analysis vs Safe Withdrawal Rates. — Empirischer Befund: iid-MC produziert Pfade schlimmer als jede Realität.
Pfau (2010). An International Perspective on Safe Withdrawal Rates. — Frühe internationale Erweiterung der Trinity-Logik.
Jeske (Early Retirement Now, SWR-Series Part 46, 2021). The Need for Precision in an Uncertain World. — Praktikers-Position: CAPE-Conditioning statt synthetischer Pfade.
Bengen (1994). Determining Withdrawal Rates Using Historical Data. Journal of Financial Planning. — Der Original-Backtest-Ansatz, gegen den die moderne Forschung argumentiert.
Jordà, Schularick, Taylor. Macrohistory Database R6. — Unsere Datenquelle. 18 Länder ab 1870, Creative Commons.
Kuvshinov, Zimmermann (2022). The Big Bang: Stock Market Capitalization in the Long Run. Journal of Financial Economics. Daten: dkuvshinov.com (CC-BY-NC-SA 4.0). — Quelle für die historischen Aktienmarkt-Kapitalisierungen, die wir fürs Value-Weighting unseres Multi-Country-Samples nutzen.
Michael James (2022). Searching for a Safe Withdrawal Rate: the Effect of Sampling Block Size. — Empirische Sensitivitätsanalyse zur Block-Länge.

Verwandte Themen im Leitfaden:

Optimaler Entnahme-Pfad — wie die Floor-VPW-Strategie funktioniert, die wir mit Bootstrap kalibrieren
Monte-Carlo-Simulation — was MC ist und warum sie historisch wichtig war
Sequence-of-Returns-Risiko — warum die ersten Jahre der Entnahme entscheiden (orthogonal zur Methodik)
Sichere Entnahmerate — was die klassischen Trinity-Backtests sagen
Entnahmestrategien im Vergleich — 4-%-Regel, Guardrails und VPW nebeneinander

Block-Bootstrap im eigenen Plan testen →