Cloudflare biedt excuses aan voor storing in dienstverlening
Cloudflare biedt zijn excuses aan voor de storing in zijn diensten die gisteren tot grote problemen heeft geleid bij het afhandelen van internetverkeer. Door de storing waren websites en diensten van Cloudflare-klanten slechter bereikbaar dan normaal.
Dit schrijft Cloudflare-CEO Matthew Prince. De problemen ontstonden niet door een cyberaanval of kwaadwillende activiteit, maar door een wijziging in de toegangsrechten van een databasesysteem. Hierdoor produceerde de database meerdere vermeldingen in een 'feature file', een bestand dat wordt gebruikt door het Bot Management-systeem van Cloudflare. Dit bestand verdubbelde in omvang en werd vervolgens verspreid naar alle machines in het netwerk.
Software kon bestand niet verwerken
De software die verantwoordelijk is voor het routeren van verkeer binnen Cloudflare, kon het vergrote bestand niet verwerken omdat er een interne limiet gold voor de bestandsgrootte. Dit veroorzaakte een falen in het systeem, met als gevolg dat verkeer niet meer correct kon worden doorgestuurd.
In eerste instantie vermoedde Cloudflare dat de symptomen het gevolg waren van een grootschalige DDoS-aanval, maar al snel werd de daadwerkelijke oorzaak geïdentificeerd. Het bedrijf slaagde erin de verspreiding van het te grote bestand te stoppen en verving het door een eerdere, werkende versie. Rond 14:30 UTC (red: 15:30 Nederlandse tijd) was het merendeel van het verkeer hersteld. In de uren daarna werkte Cloudflare aan het verminderen van de extra belasting op het netwerk, veroorzaakt door de plotselinge toestroom van verkeer. Om 17:06 UTC (red: 18:06 Nederlandse tijd) functioneerden alle systemen weer normaal.
Excuses
Het bedrijf biedt zijn excuses aan voor de impact op klanten en internetgebruikers wereldwijd. "Elke storing in ons netwerk is onacceptabel, vooral gezien de cruciale rol die Cloudflare speelt in de internetinfrastructuur. Dat ons netwerk gedurende enige tijd geen verkeer kon routeren, is diep pijnlijk voor ons hele team. We hebben onze gebruikers vandaag in de steek gelaten", schrijft Prince.
Cloudflare belooft een gedetailleerd onderzoek naar de gebeurtenissen en de systemen die falen vertonen. Daarnaast worden maatregelen voorbereid om herhaling van een dergelijke storing te voorkomen. Een uitgebreid rapport over de oorzaken en de genomen stappen volgt later.
'Voer regelmatig digitale brandoefeningen uit'
Cybersecurity expert Zahier Madhar van Check Point Security Technologies vindt het belangrijk dat over dit soort situaties door organisaties nagedacht wordt, en pleit voor het regelmatig uitvoeren van een "digitale brandoefening”:
"De storing bij Cloudflare vandaag volgt hetzelfde patroon als de recente storingen bij AWS en Azure. Deze platforms zijn enorm, efficiënt en worden in bijna elk aspect van het moderne leven gebruikt. Het voordeel is duidelijk. Door hun schaalgrootte blijven de kosten laag, worden beveiligingstools toegankelijker en krijgen zelfs kleine organisaties prestaties die voorheen onmogelijk waren. Het nadeel is net zo duidelijk. Wanneer een platform van deze omvang uitvalt, verspreidt de impact zich snel en ver, en voelt iedereen dat meteen."
"Tijdens de storing van vandaag liepen nieuwssites, betalingen, openbare informatiepagina's en gemeenschapsdiensten allemaal vast. Dat kwam niet doordat elke organisatie afzonderlijk faalde. Het kwam doordat één enkele laag waarop ze allemaal vertrouwen, niet meer reageerde. Mensen zagen een eenvoudige foutpagina, maar de storing reikte tot in de systemen die essentiële diensten ondersteunen."
"Vanuit het oogpunt van cyberbeveiliging is dit het belangrijkste aspect. Elk platform dat zoveel wereldwijd verkeer verwerkt, wordt een doelwit. Zelfs een toevallige storing zorgt voor onrust en onzekerheid, waar aanvallers handig gebruik van kunnen maken. Als een incident van deze omvang opzettelijk zou worden veroorzaakt, zou de verstoring zich verspreiden over landen die deze platforms gebruiken om met het publiek te communiceren en basisdiensten te leveren."
"Veel organisaties laten nog steeds alles via één route lopen, zonder zinvolle back-up. Als die route uitvalt, is er geen alternatief. Dat is de zwakte die we steeds weer zien terugkomen. Het internet was bedoeld om veerkrachtig te zijn door middel van distributie, maar uiteindelijk hebben we enorme hoeveelheden wereldwijd verkeer geconcentreerd bij een handvol cloudproviders."
"Grote platforms bieden voordelen, maar gebeurtenissen zoals vandaag laten zien wat de kosten van die keuze zijn. Zolang er geen echte diversiteit en redundantie in het systeem is, zal elke storing mensen harder treffen dan nodig is.”