SentinelOne storing is voorbij - een overzicht
Op 29 mei 2025 heeft SentinelOne een wereldwijde dienstverleningsonderbreking ervaren die diverse klantgerichte services raakte. Hoewel de beveiliging van de endpoints van klanten gedurende het incident gewaarborgd bleef, konden beveiligingsteams de beheerconsole en gerelateerde diensten niet bereiken, wat de operationele mogelijkheden aanzienlijk beïnvloedde.

Oorzaak en impact van de onderbreking
De verstoring werd veroorzaakt door een softwarefout in een infrastructuurcontrolesysteem. Deze fout leidde tot het verwijderen van cruciale netwerkroutes en DNS-resolverregels, wat resulteerde in een wijdverbreid verlies van netwerkconnectiviteit binnen het SentinelOne-platform. Het bedrijf benadrukt dat het geen beveiligingsgerelateerd incident betrof en dat er geen beveiligingsdata verloren is gegaan.
De kern van het probleem lag in een verouderd controlesysteem dat werd geactiveerd tijdens de overgang van SentinelOne's productiesystemen naar een nieuwe Infrastructure-as-Code (IaC)-architectuur. Een configuratievergelijkingsfunctie in dit oude systeem identificeerde onjuist discrepanties en overschreef bestaande netwerkinstellingen met een lege routetabel. Dit werd verergerd door historische handmatige netwerkconfiguraties, die inmiddels worden uitgefaseerd ten gunste van de IaC-aanpak.
Tijdens de onderbreking konden klanten niet inloggen op de beheerconsole, hun SentinelOne-data benaderen of diensten beheren. Ook programmatische toegang, Unified Asset Management/Inventory en Identity-diensten waren niet beschikbaar. MDR-alerts en data-invoer van externe diensten kunnen eveneens zijn beïnvloed.
Tijdlijn van het incident en herstel
De verstoring begon op 29 mei om 13:37 UTC toen de softwarefout kritieke netwerkroutes verwijderde. Binnen 13 minuten, om 13:50 UTC, ontving SentinelOne Engineering alerts over falende netwerkconnectiviteit. Klantrapporten stroomden binnen vanaf 13:55 UTC.
Het Incident Response Task Force begon om 14:27 UTC met het herstellen van de routetabellen en kernconnectiviteit, en startte de communicatie naar klanten. Verschillende updates werden gedeeld via het klantenportaal, e-mail en sociale media. Om 20:05 UTC werd de handmatige herstel van alle routes voltooid, waarna de validatie van consoletoegang begon. Tegen 20:50 UTC waren consoletoegang en de meeste diensten hersteld. De volledige herstel van alle data-invoer en operationele diensten was voltooid op 30 mei 2025, om 10:00 UTC.
Oplossingen en toekomstige stappen
SentinelOne heeft diverse corrigerende maatregelen geïmplementeerd:
- Audit van geautomatiseerde functies: Om te voorkomen dat verouderde controlecode wordt geactiveerd, worden alle automatische functies in EventBridge en vergelijkbare bronnen geaudit.
- Versnelling van IaC-overgang: De inspanningen om alle systemen en klanten over te zetten naar de nieuwe IaC-architectuur worden versneld om risico's te verminderen en herstel te verbeteren.
- Verbeterde herstelautomatisering: Back-ups van alle Transit Gateways zijn gemaakt en de automatisering van herstelprocessen wordt verbeterd en getest.
- Verbeterde communicatie: Er wordt versneld gewerkt aan een onafhankelijk beheerde, openbare statuspagina die niet afhankelijk is van de productie-infrastructuur. Daarnaast zijn interne incidentrespons-draaiboeken bijgewerkt om een vroegtijdige en continue betrokkenheid van communicatieteams te waarborgen.
SentinelOne verzekert klanten dat deze stappen de veerkracht van hun platform zullen versterken en toekomstige paraatheid zullen verbeteren.