AWS-Ausfall: Ihr digitales Ökosystem schützen – Betrachtung des Amazon-Falls

Gedanken des Experten

„Der AWS-Ausfall im Oktober 2025 ist eine deutliche Erinnerung daran, dass in einer cloud-zentrierten Welt architektonische Resilienz keine Verhandlungssache ist. Als AWS ausfiel, war das nicht nur ein Infrastrukturproblem, sondern eine großflächige Katastrophe, die Tausende von Unternehmen und zig Millionen Internetnutzer beeinflusste.

In diesem Blogbeitrag gibt das Silk Data Team einen kurzen Überblick über den AWS-Status, den alle am 19./20. Oktober 2025 sahen, erklärt, warum die gleiche Situation jedem Unternehmen passieren kann, das auf Webserver angewiesen ist, und erörtert, wie sich solche Ausfälle abmildern lassen.“

Yuri Svirid, PhD. — CEO Silk Data

Einige Einblicke in Ausfälle von Amazon Web Services

Was bedeutet AWS-Ausfall?

Der AWS-Ausfall ist ein großer operativer Zusammenbruch von Amazon Web Services, der vom 19. bis 21. Oktober 2025 stattfand und massive Internetstörungen verursachte.

Laut den neuesten Nachrichtenberichten von BBC und Reuters wurde das anfängliche Problem durch Probleme mit der Domain Name System (DNS)-Auflösung in der AWS-Region US-EAST-1 verursacht. Der Codename steht für das größte und älteste Rechenzentrum von Amazon in Nord-Virginia.

Wer war vom Ausfall der Amazon-Server betroffen?

Da eine enorme Anzahl von Unternehmen auf Amazon angewiesen ist, waren die Probleme weit verbreitet. Der Dienst Downdetector gab an, dass er viele Beschwerden erhalten habe.

Insgesamt deuten die Angaben auf 6,5 Millionen Meldungen hin, und über 1.000 Unternehmen hatten in den ersten 24 Stunden mit Problemen zu kämpfen.

Beliebte Finanz-Apps wie Venmo und Coinbase hatten auch am 21. Oktober noch Probleme, selbst als Amazon mitteilte, dass das Problem weitgehend gelöst sei. Gaming-Giganten wie Roblox und Fortnite waren ebenfalls betroffen, kehrten aber schnell zum Normalbetrieb zurück.

Darüber hinaus wurden Probleme bei den folgenden Online-Diensten festgestellt:

Duolingo
Reddit
Slack
Snapchat
WhatsApp
Zoom
Prime Video
Twitch und viele andere

Einige US-Reporter fanden heraus, dass sogar der Online-Shop von Amazon einige Unterbrechungen erlebte.

Es ist erwähnenswert, dass dies das dritte Mal in den letzten fünf Jahren ist, dass ein großer Internetausfall vom Rechenzentrum in Nord-Virginia ausging. Darüber hinaus war es die größte Internetstörung seit der CrowdStrike-Panne im letzten Jahr, die digitale Ökosysteme in Krankenhäusern, Banken und Flughäfen beeinträchtigte.

Was sind die Gründe für Ausfälle?

Systemausfälle können durch eine Vielzahl von Ereignissen in vier Schlüsselbereichen verursacht werden: zugrundeliegende Technologie, menschliches Handeln, organisatorische Prozesse und externe Einflüsse.

Infrastruktur- und Technologiefehler

Ausfälle der Netzwerkebene

Die Netzwerkebene ist für die Konnektivität und Kommunikation zwischen allen Systemkomponenten und dem Internet verantwortlich. Ein Fehler auf dieser Ebene bedeutet, dass Benutzer und Dienste Ihre Server und Anwendungen nicht erreichen können, selbst wenn diese zu 100% funktionieren, was zu einem vollständigen oder teilweisen Ausfall führt.

Beispiele für Netzwerkebenen sind:

DNS-Ausfall. DNS (Domain Name System) ist für die Übersetzung von menschenlesbaren Domainnamen in maschinenlesbare IP-Adressen verantwortlich. Die DNS-Server selbst können überlastet, nicht reagierend oder offline sein. Wenn ein Benutzergerät diese Server nicht abfragen kann, wird die Website gewissermaßen unauffindbar. In anderen Fällen kann das Problem in Fehlkonfigurationen (wenn ein Administratorfehler Domains unauflösbar macht) oder Cache-Problemen liegen (wenn beschädigte DNS-Daten in den Cache eines Resolvers gelangen, was zur Rückgabe einer falschen IP-Adresse führt).
BGP-Entführung oder -Leck. Border Gateway Protocol (BGP) ist das Protokoll, das verwaltet, wie Pakete über das Internet durch verschiedene autonome Systeme geroutet werden. Probleme können auftreten, wenn ein Dritter absichtlich oder versehentlich Routing-Pfade für große Blöcke von IP-Adressen ankündigt, was zur Umleitung von Verkehr führen kann.
Ausfälle der physischen Infrastruktur. Bauarbeiten oder Naturkatastrophen können ganze Regionen vom Netz trennen, da kritische Netzwerkhardware in einem Rechenzentrum ausfallen und die Konnektivität für alles dahinter verlieren kann.

Ausfälle der Daten- und Speicherebene

Dies sind kritische Ausfälle, bei denen Daten unzugänglich oder beschädigt werden. Dies kann durch natürliche oder künstliche Datenbankabstürze aufgrund von außer Kontrolle geratenen Abfragen, erschöpften Verbindungspools oder Speicherplattenausfällen verursacht werden. Jedes dieser Ereignisse kann zu Ausfällen und Zusammenbrüchen von Webdiensten und Anwendungen führen.

Abhängigkeitsausfälle

Moderne Anwendungen sind meist auf ein Netz externer Dienste angewiesen. Ein Ausfall tritt auf, wenn eine kritische Drittanbieter-API (z. B. ein Zahlungsgateway oder Authentifizierungsdienst) oder ein zugrundeliegender Cloud-Provider-Dienst (wie AWS S3) ausfällt. Infolgedessen fällt auch der davon abhängige Dienst aus.

Menschliche Fehler

Schlechte Code-Bereitstellung

Es gibt viele Fälle, in denen technische Spezialisten ein Software-Update, das einen Fehler, ein Speicherleck oder eine andere inkompatible Änderung enthält, direkt in die Produktion einspielen, ohne angemessene Tests.

Die Gründe dafür können die Notwendigkeit sein, mit Wettbewerbern oder ständig wachsenden Marktanforderungen Schritt zu halten, was zu knappen Terminen und übermäßiger Arbeitsbelastung führt. Infolgedessen kann die Testphase vernachlässigt werden, was sofort zu einem Absturz oder einer schlechten Leistung eines Dienstes führen kann.

Fehler durch Behebungen

Ein weiterer häufiger Fall ist ein gut gemeinter Versuch, ein kleines Problem zu beheben, der zu großen Problemen führt.

Zum Beispiel können Entwickler einen Dienst neu starten oder eine notwendige ‚Schnellkorrektur‘ anwenden oder eine Konfiguration ändern. Eine kleine Aktion kann jedoch unbeabsichtigt einen größeren, kaskadierenden Fehler auslösen, der in einem größeren Ausfall endet.

Versehentliches Löschen

Ein weiteres Problem, das dank verschiedener Datenwiederherstellungsprotokolle heutzutage immer seltener wird. Menschliche Spezialisten können versehentlich kritische Produktionsressourcen löschen, wie eine Datenbanktabelle, einen Cloud-Speicher-Bucket oder eine Serverkonfiguration, was zu sofortiger und oft schwerwiegender Dienstunterbrechung führt.

Wie bereits erwähnt, haben Unternehmen jedoch gelernt, mit solchen Unfällen umzugehen, so dass der menschliche Faktor des versehentlichen Löschens einer der seltensten Gründe für massive Webausfälle ist.

Managementfehler

Unzureichende Kapazitätsplanung

Das Problem beschreibt das Versagen bei der Antizipation von Benutzerwachstum oder Verkehrsspitzen, was zur Erschöpfung der Ressourcen führt. Das System wird während der Spitzenlast überfordert und reagiert nicht mehr, weil keine Abminderungsstrategien oder zusätzlichen Vorbereitungen getroffen wurden, um ihnen zu begegnen.

Schlechtes Änderungsmanagement

Eine weitere Praxis, die das Risiko, destabilisierende Fehler in die Produktionsumgebung einzubringen, erheblich erhöht. Es bedeutet, dass das Team jede Ökosystemänderung ohne einen fein abgestimmten Prozess vornehmen kann, der normalerweise ordnungsgemäße Tests, zusätzliche Überprüfungen und einen klaren Rollback-Plan (zur Rückkehr zum Zustand vor den Änderungen) umfasst.

Dies ist ein sehr riskanter Ansatz, der dem bestehenden Ökosystem erheblichen Schaden zufügen kann.

Mangel an Überwachung und Tests

Effiziente Abmilderung von Fehlern und Vermeidung möglicher Ausfälle setzt eine 24/7-Systemüberwachung voraus.

Ebenso bedeuten das Fehlen regelmäßiger Tests (d. h. Chaos Engineering oder eine Art von Zuverlässigkeitstests, die auf dauerhaft ausgeführte automatisierte Zuverlässigkeitstests abzielen), dass versteckte Schwächen und Fehlerpfade unbekannt bleiben, bis sie sich offenbaren und Ökosystem-Zusammenbrüche verursachen.

Externe Fehler

Stromausfälle

Ein Verlust der elektrischen Energie in einem Rechenzentrum, insbesondere wenn Backup-Systeme wie Generatoren oder USV-Einheiten ausfallen, wird die physische und Cloud-Infrastruktur sofort zum Erliegen bringen. Selbst voll funktionsfähige Reserveenergiesysteme können jedoch selten den Arbeitslastbedarf von Servern, die über Tausende von Diensten hinweg arbeiten, vollständig decken.

Naturkatastrophen

Ereignisse wie Erdbeben, Überschwemmungen, Hurrikane oder Brände können katastrophale Schäden an Rechenzentren, physischer Infrastruktur und Netzknotenpunkten verursachen, was zu langanhaltenden regionalen Ausfällen führt.

Cyberangriffe

Bösartige Aktivitäten wie ausgeklügelte DDoS-Angriffe, Ransomware, die kritische Systeme verschlüsselt, oder andere Netzwerkeinbrüche sind speziell darauf ausgelegt, die Dienstverfügbarkeit zu stören und Daten zu gefährden.

Einige mögen bemerken, dass alle Ausfallgründe irgendwie miteinander verwoben sind. Managementfehler sind eng mit menschlichen Fehlern verbunden, während einige technische Probleme durch Naturkatastrophen verursacht werden können. Das bedeutet, dass in den meisten Fällen große Systemausfälle durch eine Reihe von Gründen verursacht wurden.

Welche Möglichkeiten gibt es, mögliche Ausfälle zu mindern?

Geschäftliche Maßnahmen

Eigener privater Server

Eine der offensichtlichsten, effizientesten und dennoch umstrittensten Maßnahmen ist der Aufbau eines eigenen Reserveservers des Unternehmens, um weniger abhängig von Drittanbieter-Serveranbietern zu sein.

Dieser Ansatz bietet eine Reihe von Vorteilen:

Ultimative Kontrolle und Unabhängigkeit. Das Unternehmen ist nicht auf den Zeitplan des Cloud-Anbieters für Ausfälle angewiesen. Es kann selbst entscheiden, wann es ein Failover durchführt und Wartungen nach eigenem Zeitplan vornimmt.
Abmilderung von Anbieterausfällen. Dies ist eine der besten Optionen, um Ihren Onlinedienst vor einem längeren, weit verbreiteten Ausfall eines Anbieters wie AWS, Azure oder Google Cloud zu schützen.
Datensouveränität und -sicherheit. Für hochsensible Branchen (wie Gesundheitswesen oder Finanzen) kann die Vorhaltung eines Kern-Backups vor Ort die Einhaltung strenger Gesetze zum Datenaufenthaltsort vereinfachen und eine zusätzliche Ebene der Datensicherheit bieten.

Eine der schmerzhaftesten Seiten eines solchen Ansatzes sind jedoch die extremen Kosten und die Komplexität. Das Unternehmen muss seine eigene Hardware, Netzwerkausrüstung und Rechenzentrumsfläche kaufen und warten. Darüber hinaus benötigt das Unternehmen ein Team von Experten, um die physische Infrastruktur, die Stromversorgung und das Netzwerk zu verwalten.

Eine solche große Aufgabe kann für ein Unternehmen, das nicht über die entsprechenden Ressourcen verfügt, zu einem Problem werden, so dass sich nur große Unternehmen den Aufbau zusätzlicher unternehmenseigener Server-Ökosysteme leisten können.

Einführung einer Multi-Cloud-Strategie

Für die meisten Unternehmen wird dies ein praktikablerer und kostengünstigerer Ansatz sein. Es ist eine Strategie, bei der kritische Arbeitslasten auf zwei oder mehr verschiedene Cloud-Anbieter verteilt werden (z. B. AWS und Google Cloud). Dies vermeidet die Notwendigkeit, physische Hardware aufzubauen und zu verwalten, und bietet gleichzeitig Schutz vor einem Ausfall eines einzelnen Anbieters.

Bei der Wahl dieses Ansatzes können Unternehmen jedoch auf einige rechtliche Probleme stoßen.

Große Technologieunternehmen, die Unternehmen Servern zur Verfügung stellen, wie Amazon, Google oder Microsoft, können strenge ‚Nutzungsbedingungen‘ haben. Das bedeutet, dass sie rechtlich festlegen können, dass Ihr Unternehmen keine anderen konkurrierenden Serveranbieter in Anspruch nehmen darf.

Obwohl solche Situationen nicht weit verbreitet sind, ist das Risiko dennoch vorhanden.

Aufbau einer auf Ausfälle ausgerichteten Geschäftsstrategie

Solche technischen Ausfälle haben direkte Konsequenzen für die Finanzen und die Teamarbeit des Unternehmens. Das Unternehmen muss dieses Risiko proaktiv managen.

Die erste Maßnahme ist die Implementierung proaktiver Risikomanagement- und finanzieller Abmilderungstechniken. Dazu gehören die systematische Identifizierung und Bewertung potenzieller Bedrohungen für kritische Geschäftskomponenten, die Schätzung ihrer potenziellen Auswirkungen, abgesicherte Versicherungspolicen, die Verluste abdecken, verlängerte Cloud-Ausfälle und Datenschutzverletzungen. Alles sollte getan werden, um die Katastrophe in eine handhabbare finanzielle Schwierigkeit zu verwandeln.

Die zweite Maßnahme sollte eine gründliche Teamvorbereitung und -schulung umfassen. Dazu gehört die regelmäßige Durchführung simulierter Ausfallszenarien, in denen das Team die Reaktionspläne für Vorfälle befolgen und effektiv kommunizieren muss.

Schließlich sollten Unternehmen gezielte Schulungen für alle Spezialisten durchführen, die für den normalen Betrieb erforderlich sind. Das Team sollte in modernen operativen Disziplinen wie DevOps und Site Reliability Engineering (SRE) geschult werden, die Automatisierung, permanente Überwachung und eine starke Kooperationskultur betonen. Dies stellt sicher, dass im Moment der Krise jeder weiß, was zu tun ist.

Technische Maßnahmen

Robuste Architekturentwicklung

Dieser Ansatz beinhaltet die Gestaltung von Systemen nicht nur für ideale Bedingungen, sondern für unvermeidliche Ausfälle und unvorhersehbare Nachfrage.

Datenreplikation über mehrere Ebenen und Regionen hinweg. Anstatt eine einzelne Kopie Ihrer Daten an einem Ort zu speichern, kopieren Sie sie automatisch und kontinuierlich (d. h. replizieren) auf mehrere redundante Knoten, Verfügbarkeitszonen oder sogar völlig unterschiedliche geografische Regionen. Wenn ein Server ausfällt, kann ein anderer mit einer identischen Kopie der Daten sofort übernehmen. Mit anderen Worten: Der Verlust eines Knotens bedeutet nicht den Verlust von allem.
Lastverteilung und automatische Skalierung. Der Lastverteiler verteilt eingehende Benutzeranfragen auf einen Pool von Backend-Servern. Dies verhindert, dass ein einzelner Server überlastet wird. Gleichzeitig bedeutet automatische Skalierung die Fähigkeit, Computerressourcen (Server, Container) basierend auf der Echtzeitnachfrage automatisch hinzuzufügen oder zu entfernen. Beide Funktionen ermöglichen es dem System, flexibel auf Verkehrsspitzen zu reagieren und sich selbst an die aktuelle Last anzupassen, ohne Leistungseinbußen oder Abstürze.
Automatische Failover-Mechanismen. Es ist ein vorkonfigurierter Prozess, bei dem eine Standby-Komponente (ein Server, eine Datenbank oder ein ganzes Rechenzentrum) automatisch und nahtlos die Arbeitslast übernimmt, wenn die primäre Komponente ausfällt. Dieser Wechsel erfolgt ohne menschliches Zutun. Wenn eine Komponente ausfällt, übernimmt eine andere ihre Aufgaben, wodurch Ausfallzeiten und die Notwendigkeit von Notfall-Eingriffen reduziert werden.

Durchsetzung umfassender Tests

Ein weiterer wichtiger Punkt ist die Implementierung einer umfassenden Teststrategie, einschließlich Unit-, Integrations- und Lasttests. Alle diese Testtypen sollten sowohl nach einem festgelegten Zeitplan (um die Leistung des Systems zu überprüfen) als auch nach jeder Änderung oder jedem Update durchgeführt werden.

Eine weitere Schlüsselpraxis ist das sogenannte Chaos Engineering, eine Testmethode, bei der absichtlich Fehler in der Produktion injiziert werden. Es ist entscheidend für die Aufdeckung versteckter Abhängigkeiten und Schwachstellen.

Permanente Überwachung und Vorfallmanagement

Abgesehen vom Aufbau einer robusten Architektur benötigen Sie operative Disziplin, um Probleme zu erkennen und aus Fehlern zu lernen.

Erstens wird empfohlen, Überwachungstools wie Prometheus (zur Metrikerfassung), Grafana (zur Visualisierung) und Datadog (als All-in-One-Plattform) zu implementieren, um tiefe Echtzeiteinblicke in jeden Teil Ihres Systems zu erhalten. Dies ermöglicht es Ihnen nicht nur zu sehen, ob ein Dienst betriebsbereit ist oder abgeschaltet wurde, sondern zu verstehen, wie er sich verhält.

Zweitens muss das Unternehmen ein intelligentes proaktives Alarmierungssystem einrichten und Alarme so konfigurieren, dass sie als Frühwarnsystem fungieren. Anstatt Sie erst nach einem Totalausfall zu benachrichtigen, richten Sie Alarme auf Frühindikatoren für Probleme ein, wie z. B.:

Ein stetiger Anstieg der Latenz.
Erhöhte CPU- oder Speichernutzung.
Ein allmählicher Rückgang der Verfügbarkeit oder ein Anstieg der Fehlerraten.

Infolgedessen wird das Team in der Lage sein, Probleme zu untersuchen und zu beheben, bevor sie zu einem großflächigen Ausfall eskalieren.

Die Beschreibung möglicher Maßnahmen ist umfangreich, aber das Hauptproblem liegt nicht in der Wahl des richtigen Ansatzes, sondern in der Vernachlässigung jeglicher Praktiken zur Ausfallminderung durch die Unternehmen. Jede Maßnahme erfordert zusätzliche Ressourcen, und Unternehmen, die dazu neigen, ihre Betriebskosten auf ein Minimum zu senken, sind nicht bereit, ernsthaft an geschäftlichen oder technischen Lösungen zu arbeiten.

Schlussfolgerungen

Der AWS-Ausfall im Oktober 2025 war eine weitere eindringliche Erinnerung daran, dass in unserem digital abhängigen Ökosystem kein Dienst immun gegen Ausfälle ist. Dieses Ereignis unterstreicht eine entscheidende Wahrheit: Die heutige Resilienz ist keine Option, sondern essentiell für den Betrieb Ihres Unternehmens.

Unternehmen müssen über das bloße Reagieren auf Ausfälle hinausgehen und stattdessen proaktiv Systeme aufbauen, die darauf ausgelegt sind, sie zu überstehen. Das bedeutet, architektonische Muster zu übernehmen, die davon ausgehen, dass Fehler auftreten werden. Es erfordert auch Geschäftsstrategien, die Resilienz als einen zentralen Wettbewerbsvorteil behandeln, nicht nur als ein technisches Anliegen.

Während die Umsetzung dieser Maßnahmen Investitionen erfordert, sind die Kosten der Unvorbereitetheit weitaus höher. Da Cloud-Dienste weiterhin unsere digitale Wirtschaft antreiben, werden die Organisationen, die erfolgreich sein werden, diejenigen sein, die nicht nur für den Erfolg, sondern für das Überleben bauen.

Wenn Sie nicht genügend Zeit aufwenden können oder das Fachwissen fehlt, um dieses Problem zu lösen, können Sie sich jederzeit an Profis wenden. Unternehmen wie Silk Data haben sich seit Jahren mit verschiedenen Anforderungen und der Entwicklung digitaler Lösungen befasst, und die Sicherheit Ihres digitalen Ökosystems ist eine der vielen Aufgaben, die wir erfüllen können.

Häufig gestellte Fragen

Es gibt immer noch keinen umfassenden technischen Bericht von Amazon zu den Einzelheiten des Ausfalls. Die meisten Nachrichten besagen, dass das Problem aufgrund von Problemen mit der Domain Name System (DNS)-Auflösung in einem der Rechenzentren des Unternehmens in Nord-Virginia auftrat.

Den Berichten zufolge war das Problem bis zum 22. Oktober weitgehend behoben, obwohl der Downdetector-Dienst immer noch eine Reihe von Beschwerden erhielt.

Es gibt keine offizielle Ankündigung bezüglich eines Ersatzes für AWS. Amazon beabsichtigt, seine Webserver-Dienste auf der Grundlage der bereits bestehenden Rechenzentren weiterhin anzubieten.

Möchten Sie Praktiken zur Ausfallminderung implementieren? Kontaktieren Sie unsere Spezialisten!

Unsere Partnerschaften und Auszeichnungen

Unsere Lösungen

Wir arbeiten in verschiedenen Bereichen und bieten eine Vielzahl von IT- und KI-Dienstleistungen an. Darüber hinaus sind wir in der Lage, Ihnen bei jeder Aufgabe Produkte unterschiedlicher Komplexität und Ausarbeitung zu liefern, einschließlich Proof of Concept, Minimum Viable Product oder vollständiger Produktentwicklung.