EchoGram omzeilt beveiliging van GPT-4 en Gemini
Onderzoekers van HiddenLayer hebben een baanbrekende aanvalstechniek ontdekt genaamd 'EchoGram', die de meest gebruikte beveiligingssystemen (guardrails) van Large Language Models (LLM's) zoals GPT-4, Claude en Gemini kan omzeilen. De ontdekking ondermijnt het huidige gevoel van veiligheid rond AI-systemen en vormt een "wake-up call" voor de AI-industrie.
EchoGram misbruikt een fundamentele zwakte in de manier waarop AI-verdedigingsmodellen worden getraind:
Verkeerde oordelen: Door een specifieke, ogenschijnlijk willekeurige reeks van tokens (woorden of deeltjes) aan een kwaadaardige opdracht toe te voegen, kunnen aanvallers het verdedigingsmodel doen geloven dat de input veilig is, waardoor schadelijke prompts (prompt injection of jailbreaks) doorgelaten worden naar het doelmodel.
False positives: De techniek kan ook worden gebruikt om goedaardige input onterecht als kwaadaardig te markeren. Dit riskeert het overspoelen van beveiligingsteams met valse alarmen, wat leidt tot wantrouwen in de defensieve systemen.
Kwetsbaarheid in het ecosysteem
Volgens de HiddenLayer-onderzoekers richten de meest voorkomende verdedigingsmechanismen (zoals text classification models en LLM-as-a-judge systemen) zich op de classificatie van prompts. Door onevenwichtigheden in de trainingsdata te exploiteren, vindt EchoGram zogeheten "flip tokens" die het oordeel van de verdediging veranderen, terwijl de eigenlijke aanval (de payload) intact blijft.
Omdat veel toonaangevende AI-systemen vergelijkbare defensieve modellen gebruiken, is deze kwetsbaarheid niet geïsoleerd, maar een inherente tekortkoming in het huidige ecosysteem. Een succesvolle EchoGram-sequentie kan potentieel worden hergebruikt om meerdere platforms te compromitteren, van bedrijfs-chatbots tot AI-toepassingen van de overheid.
De onderzoekers concluderen dat AI-veiligheidstools hun betrouwbaarheid moeten verdienen door veerkracht en continue tests, en niet mogen worden aangenomen op basis van reputatie.