Witold Kepinski - 01 juni 2026

Cisco Talos kraakt de code van AI-inconsistentie

Hoewel veruit de meeste organisaties inmiddels tastbare waarde halen uit hun investeringen in kunstmatige intelligentie, lopen vroege adoptanten tegen een harde muur op zodra ze AI inzetten voor lange, technische documenten. Wanneer een Large Language Model (LLM) zoals ChatGPT, Claude of Gemini wordt gevoed met ruwe notities om een technisch rapport te schrijven, is het resultaat vaak een gepolijst document dat op het eerste gezicht indrukwekkend oogt, maar bij nadere inspectie wemelt van de fouten, inconsistente schrijfstijlen en bizarre conclusies.

Cisco Talos kraakt de code van AI-inconsistentie image

Om de vinger op de zere plek te leggen, richtte het Cisco Talos Incident Response-team (Talos IR) het speciale 'AI Tiger Team' op. Door middel van uitgebreide experimenten — met name rond het automatiseren van verslagen voor cybersecurity-crisissimulaties (Tabletop Exercises of TTX) — brachten de onderzoekers het inconsistentieprobleem in kaart én ontwikkelden ze een methode om de AI effectief aan de leiband te houden.

De vier gezichten van AI-inconsistentie

Het fundamentele probleem van LLM's is hun probabilistische (op waarschijnlijkheid gebaseerde) natuur. Een model voorspelt simpelweg het volgende woordteken (token) op basis van statistische gewichten. Hierdoor is geen enkele output identiek, zelfs niet bij exact dezelfde invoer. Talos IR categoriseert de misverstanden die hierdoor ontstaan in vier typen:

Inconsistente bronvermelding: Omdat modellen bij verschillende pogingen wisselende websites of trainingsdata raadplegen, verschuift de onderliggende feitenbasis continu.

Wisselende conclusies: Zelfs met identieke data kan een AI de ene keer een volledige, organisatiebrede wachtwoordreset adviseren na een datalek, en de volgende keer een zeer gerichte reset. Het model mist de nuance om context te wegen en kiest vaak blind voor de eerste statistische optie.

Vervormde lay-out: Omdat de tekst woord voor woord wordt gegenereerd, kan de structuur van het document per run volledig transformeren. Voor professionele rapportages waar vaste formats (zoals een vaste directiesamenvatting) vereist zijn, is dit onacceptabel.

Context-vervuiling en -drift: De 'context-window' (het kortetermijngeheugen van de AI) heeft limieten. Zodra deze volraakt, wist het model oudere informatie, waardoor cruciale initiële instructies verloren gaan. Bovendien zorgt het uitvoeren van meerdere taken in één sessie ervoor dat data door elkaar gaat lopen.

De verdedigingslinie: Prompt engineering als controlemechanisme

Om deze onvoorspelbaarheid te temmen, ontwikkelde het Tiger Team vier concrete methoden op het gebied van prompt engineering. Hoewel de technieken afzonderlijk niet revolutionair zijn, zorgden ze in combinatie voor een uiterst betrouwbaar en accuraat eindrapport:

1. Prompt-specialisatie
In plaats van één gigantische, allesomvattende opdracht, wordt het rapport opgeknipt in granulaire deeltaken. Door voor elke sectie een aparte, gefocuste prompt te gebruiken, wordt het risico op 'hallucinaties' of kruisbestuiving tussen hoofdstukken drastisch verkleind.

2. Strikte bronbeperking (Source Constraints)
De AI krijgt expliciet te horen uit welke specifieke documenten of databronnen de informatie geput mag worden. Dit trekt een harde grens rond het model en voorkomt dat het onbetrouwbare of tegenstrijdige informatie van het internet plukt.

3. Harde output-specificaties
Door de AI te dwingen binnen rigide parameters te opereren wat betreft lengte, toon, doelgroep en schrijfstijl, wordt voorkomen dat het model doorslaat in creativiteit.

4. Sjabloon-gestuurde prompts (Template-guided prompting)
De structuur van het rapport wordt als een onbuigzaam sjabloon in de prompt ingebed. De AI krijgt de strikte instructie om statische tekst ongemoeid te laten en alleen de dynamische 'placeholders' in te vullen.

De praktijktest: 50% tijdwinst, maar blijf alert

De resultaten van de casestudy waren veelbelovend. Het gebruik van gerichte AI-prompts leverde een tijdsbesparing op van maar liefst 50% op het totale schrijfproces (inclusief handmatige controle en redactie). Kwalitatief bleken de rapporten tijdens blinde tests bovendien minder typefouten te bevatten en kwamen de modellen soms met waardevolle aanbevelingen waar de menselijke facilitators niet direct aan hadden gedacht.

Toch waarschuwt Talos IR voor een aantal flinke addertjes onder het gras. Ten eerste is datamanagement cruciaal: het uploaden van gevoelige bedrijfs- of incidentgegevens naar publieke AI-tools is een zware privacy-inbreuk. Daarnaast blijft de menselijke auteur te allen tijde verantwoordelijk voor het eindproduct. LLM's genereren nog te vaak irrelevante of dubbele aanbevelingen die er op het eerste gezicht professioneel uitzien, maar in de praktijk onbruikbaar zijn.

De belangrijkste les van het onderzoek is helder: AI is een fantastische assistent om de productiviteit te verdubbelen, mits de mens de regie strak in handen houdt en het model dwingt te opereren binnen de lijntjes van een streng gecureerd operationeel kader.

Ingram Micro BW + BN Dutch IT Security Day 2026 BW + BN
Ingram Micro BW + BN

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!