Die praktische Konsequenz während eines AWS-Bereitstellungsausfalls ist erheblich: Neon muss unter Ausfall-Druck keine EC2-APIs aufrufen, um tote Compute-Knoten zu ersetzen. Es kann einen Ersatz aus einem bereits laufenden, vorgewärmten Pool laufender Instanzen ziehen und diesen mit dem bestehenden Speicherzustand verbinden. Die Beeinträchtigung der Kontrollebene des Cloud-Anbieters wird so zu einer betrieblichen Unannehmlichkeit, nicht zu einem Notfall für die Datenverfügbarkeit.
Die regionalen Bereitstellungen von Neon sind kein Monolith. Jede Region besteht aus einer oder mehreren identisch geformten Zellen, wobei eine Zelle ihre eigene Kubernetes-Kontrollebene, ihren eigenen Compute-Pool und ihre eigenen Speicherressourcen bündelt . Diese Kompartimentierung bedeutet, dass ein Ausfall in einer Zelle – verursacht durch einen Cloud-Anbieter-Ausfall, einen Softwarefehler oder Ressourcenerschöpfung – nicht auf andere Zellen in derselben Region übergreift.
Während des AWS-Ausfalls im Mai 2026 in us-east-1 betraf der Fehler des Cloud-Anbieters speziell dessen Fähigkeit, neue Instanzen zu provisionieren und IP-Adressen zuzuweisen . Bei einer Einzelzellen-Architektur wäre dies ein region-umspannender Vorfall gewesen. In Neons zellbasiertem Design waren nur die Zellen betroffen, deren vorab bereitgestellte Compute-Puffer erschöpft waren. Andere Zellen mit ausreichenden Puffern bereits zugewiesener Instanzen liefen ohne Unterbrechung weiter
.
Dieses Ergebnis spiegelt eine bewusste Designentscheidung wider: Zellen sind so dimensioniert, dass die Ressourcenlimits einer einzelnen Zelle nicht zu einem regionalen Flaschenhals werden können. Frühere architektonische Lektionen haben dieses Denken verstärkt. Vor der Umstellung auf zellbasierte Isolation betrieb Neon einen einzigen Kubernetes-Cluster pro Region, und Tests zeigten eine Dienstverschlechterung jenseits von 10.000 gleichzeitigen Datenbanken aufgrund von EKS-etcd-Speicherlimits, Netzwerkkonfigurationsbeschränkungen und Ratenbegrenzungen der Kubernetes-API . Die zellbasierte Architektur beseitigt diese Einzelcluster-Grenzen vollständig, indem sie die Last auf unabhängige, nicht interagierende Zellen verteilt.
Neons Beziehung zum zugrundeliegenden Cloud-Anbieter ist bewusst auf Distanz ausgelegt. Anstatt bei jedem Datenbankstart bedarfsgesteuert die EC2-APIs aufzurufen, weist Neon vorab Pools großer – oft Bare-Metal – Instanzen zu und unterhält Pufferkapazitäten, um Bereitstellungsausfälle abzufedern . Dieser Puffer ist kein kleiner Warm-Pool für Premium-Mandanten; er ist eine strukturelle Komponente des Compute-Schedulings.
Auf diesen vorab bereitgestellten Instanzen betreibt Neon eine eigene, vertikal autoskalierende Virtualisierungsschicht, die mehrere Postgres-Instanzen auf einem einzigen physischen Host konsolidiert. Dies umgeht gleichzeitig zwei Abhängigkeiten vom Cloud-Anbieter: die VM-Provisionierungs-API (Instanzen laufen bereits) und den Pfad zur Block-Speicher-Anbindung (Neons Compute-Knoten verwenden keine Cloud-Block-Volumes) .
Die Datenhaltbarkeit folgt dem gleichen Muster. Alle Datenbankinhalte befinden sich in Neons eigenem, zonenresilienten Speicherdienst, der durch Objektspeicher wie Amazon S3 oder Azure Blob Storage gesichert wird, und nicht auf Blockgeräten des Cloud-Anbieters . Objektspeicher-APIs haben andere Ausfallmodi als VM-Provisionierungs-APIs, und in der Praxis hat sich die Haltbarkeit von Objektspeichern bei regionalen Ausfällen der Kontrollebene als deutlich widerstandsfähiger erwiesen. Wenn ein Pageserver- oder Safekeeper-Knoten ausfällt, geht kein dauerhafter Zustand verloren – ein anderer Knoten kann die benötigten Seiten aus dem WAL und dem Objektspeicher rekonstruieren
.
Bei vielen verwalteten Datenbankdiensten ist die Multi-AZ-Speicherreplikation eine kostenpflichtige Funktion, die explizit konfiguriert werden muss. Bei Neon ist jede Datenbank – unabhängig vom Preismodell – durch verteilten, zonen-redundanten Objektspeicher mit NVMe-SSD-Caches über mehrere Verfügbarkeitszonen hinweg gesichert . Damit entfällt die physische Replikation über Zonen hinweg als separates Thema, da die Speicherschicht inhärent repliziert ist.
Das WAL-Replikationsdesign bietet konkrete Haltbarkeitsgarantien: Schreibvorgänge werden synchron mit einer Quorum-Anforderung auf Safekeeper repliziert (eine veröffentlichte Konfiguration ist eine 6-fach-Replikation mit einem 4-von-6-Schreibquorum), was bedeutet, dass eine gesamte Verfügbarkeitszone plus eine weitere Replik ausfallen kann, ohne dass Daten verloren gehen . Dies ist keine theoretische Resilienz, sondern eine Eigenschaft des Schreibpfads, die erfüllt sein muss, bevor eine Transaktion dem Client bestätigt wird.
Speziell für die Compute-Verfügbarkeit bietet das Modell des gemeinsamen Speichers einen Vorteil, den traditionelle Primär-Replikat-Architekturen nicht erreichen können: Da alle Compute-Instanzen dieselbe dauerhafte Speicherhistorie teilen, muss ein Ersatz-Compute nicht durch physische Replikation aufholen. Es verbindet sich mit der bestehenden Historie und beginnt innerhalb von Sekunden bis wenigen Minuten mit der Verarbeitung von Anfragen, abhängig von der Arbeitslast und der Größe des zwischengespeicherten Arbeitsspeichers .
Veröffentlichte Verfügbarkeits-SLIs für die Lakebase-Architektur von Neon liegen im Bereich von ca. 99,93 % bis 99,96 % . Diese Zahlen reflektieren ein Design, bei dem Compute-Ausfälle durch das Ersetzen zustandsloser Knoten und nicht durch Failover auf inaktive Hot-Standbys behoben werden, und bei dem die Speicherhaltbarkeit durch Objektspeicher-gestützte Replikation statt durch synchrone Plattenspiegelung erreicht wird.
Neons eigene Incident-Historie bietet eine nützliche Kalibrierung dieser Ziele. Ein Vorfall im Mai 2025 in us-east-1 verursachte über zwei separate Ereignisse hinweg 5,5 Stunden Nichtverfügbarkeit für das Starten und Erstellen von Datenbanken, obwohl aktive Datenbanken unbeeinträchtigt blieben . Die Grundursache – erschöpfte IP-Adressen in Kubernetes-Subnetzen, ausgelöst durch eine Überlastung der Kontrollebene und eine AWS-CNI-Fehlkonfiguration – deckte ein Skalierungslimit auf, das die zellbasierte Architektur künftig verhindern sollte
. Zuvor, im August 2024, betraf ein Pageserver-Ausfall in us-east-1 etwa 0,4 % der Kundenprojekte für bis zu zwei Stunden nach dem Ausfall einer EC2-Instanz; da Pageserver als lokaler Festplatten-Cache mit S3-Backing fungieren, bedeutete der Verlust eines Pageservers eher temporäre Nichtverfügbarkeit als dauerhaften Datenverlust
.
Diese Vorfälle unterstreichen, dass zustandsloses Compute und geteilter Speicher die Schwere von Ausfällen reduzieren, aber nicht vollständig eliminieren. Die Resilienz-Eigenschaften der Architektur – kein Datenverlust bei Compute-Ausfällen, automatische Wiederherstellung durch Neuverbindung, zellbegrenzter Explosionsradius – halten unter realen Ausfallbedingungen stand, aber das System ist nicht immun gegen Softwarefehler, Ressourcenerschöpfung oder Cloud-Anbieter-Abhängigkeiten, die noch nicht vollständig entkoppelt wurden (wie z. B. die Zuweisung von IP-Adressen).
Laut dem Engineering-Blog von Neon wird das System gegen reale Ausfallszenarien getestet, darunter Ausfälle der Cloud-Anbieter-Provisionierung und Simulationen der Trennung ganzer Verfügbarkeitszonen . Diese Tests beanspruchen die vorab bereitgestellten Instanzpuffer und die Grenzen der Zellisolation, die den Explosionsradius begrenzen sollen. Die allgemeine Form des Chaos-Engineerings, die Neon beschreibt, spiegelt die etablierte Praxis wider: Definiere eine Steady-State-Hypothese, wie sich das System unter Ausfall verhalten sollte, injiziere einen kontrollierten Fehler (wie das Trennen einer ganzen AZ oder das Erschöpfen von Compute-Puffern), beobachte, ob die Hypothese hält, und iteriere die Architektur, falls nicht
.
Obwohl Neon über die architektonische Blog-Übersicht hinaus keine detaillierte Chaos-Engineering-Methodik oder spezifische Experimentergebnisse veröffentlicht hat, zeigen die verfügbaren Belege, dass die Tests direkt auf die charakteristischen Resilienz-Behauptungen des Systems abzielen. Die von Neon beschriebenen Tests – Simulation von Provisionierungsausfällen und AZ-Ausfällen – sind genau die Szenarien, in denen zustandsloses Compute und Zellisolation den größten Vorteil gegenüber traditionellen verwalteten Datenbankarchitekturen bieten sollten. Der AWS-Ausfall im Mai 2026 diente effektiv als ungeplante Validierung genau dieser Mechanismen, und das Ergebnis eines eingedämmten Explosionsradius ist konsistent mit dem, was Vorab-Bereitstellung und Zellisolation leisten sollen.
Neons Architektur bietet einen spezifischen Resilienz-Kompromiss: Sie akzeptiert, dass Compute kurzlebig ist, und ersetzt ihn schnell, anstatt ihn um jeden Preis am Laufen zu halten, während sie stark in Speicherhaltbarkeit und die Isolation von Fehlerdomänen investiert. Für Workloads, bei denen gelegentliche Unterbrechungen von unter einer Minute akzeptabel sind und die Datenintegrität im Vordergrund steht, eliminiert dieses Modell die Kosten und die Komplexität der Bereithaltung von Hot-Standbys. Für Workloads mit dem Bedarf an kontinuierlicher Abfrageverfügbarkeit ohne Unterbrechungen sind Multi-Compute-Konfigurationen verfügbar, aber mit höheren Kosten verbunden.
Die Architektur erzwingt zudem eine ehrliche Bilanzierung der Cloud-Abhängigkeit. Kein Datenbankdienst ist wirklich unabhängig von seinem zugrunde liegenden Cloud-Anbieter, aber der Grad der Kopplung variiert enorm. Neons Entscheidung, Kapazitäten vorab bereitzustellen, eine eigene Virtualisierungsschicht zu verwenden und Daten im Objektspeicher statt auf Block-Volumes abzulegen, reduziert die Angriffsfläche der Cloud-Anbieter-APIs, die verfügbar sein müssen, damit die Datenbankebene funktioniert. Diese schmalere Abhängigkeitsoberfläche hat sich während des AWS-Ausfalls im Mai 2026 ausgezahlt, als Zellen mit ausreichenden, vorab bereitgestellten Puffern einen Fehler überstanden, der für eine enger gekoppelte Architektur einen region-weiten Ausfall bedeutet hätte.
Für Teams, die auf serverloser Infrastruktur aufbauen, zeigt der Ansatz von Neon, dass die Eindämmung des Explosionsradius kein nachträglicher Einfall ist – sie ist ein Produkt architektonischer Entscheidungen, die lange vor einem Ausfall an der Grenze zwischen Speicher und Compute und in der Struktur der Fehlerdomäne getroffen werden.
Comments
0 comments