Witold Kepinski - 01 juni 2026

Cisco Talos kraakt de code van AI-inconsistentie

Hoewel veruit de meeste organisaties inmiddels tastbare waarde halen uit hun investeringen in kunstmatige intelligentie, lopen vroege adoptanten tegen een harde muur op zodra ze AI inzetten voor lange, technische documenten. Wanneer een Large Language Model (LLM) zoals ChatGPT, Claude of Gemini wordt gevoed met ruwe notities om een technisch rapport te schrijven, is het resultaat vaak een gepolijst document dat op het eerste gezicht indrukwekkend oogt, maar bij nadere inspectie wemelt van de fouten, inconsistente schrijfstijlen en bizarre conclusies.

Security Cybersecurity

Om de vinger op de zere plek te leggen, richtte het Cisco Talos Incident Response-team (Talos IR) het speciale 'AI Tiger Team' op. Door middel van uitgebreide experimenten — met name rond het automatiseren van verslagen voor cybersecurity-crisissimulaties (Tabletop Exercises of TTX) — brachten de onderzoekers het inconsistentieprobleem in kaart én ontwikkelden ze een methode om de AI effectief aan de leiband te houden.

De vier gezichten van AI-inconsistentie

Het fundamentele probleem van LLM's is hun probabilistische (op waarschijnlijkheid gebaseerde) natuur. Een model voorspelt simpelweg het volgende woordteken (token) op basis van statistische gewichten. Hierdoor is geen enkele output identiek, zelfs niet bij exact dezelfde invoer. Talos IR categoriseert de misverstanden die hierdoor ontstaan in vier typen:

Inconsistente bronvermelding: Omdat modellen bij verschillende pogingen wisselende websites of trainingsdata raadplegen, verschuift de onderliggende feitenbasis continu.

Wisselende conclusies: Zelfs met identieke data kan een AI de ene keer een volledige, organisatiebrede wachtwoordreset adviseren na een datalek, en de volgende keer een zeer gerichte reset. Het model mist de nuance om context te wegen en kiest vaak blind voor de eerste statistische optie.

Vervormde lay-out: Omdat de tekst woord voor woord wordt gegenereerd, kan de structuur van het document per run volledig transformeren. Voor professionele rapportages waar vaste formats (zoals een vaste directiesamenvatting) vereist zijn, is dit onacceptabel.

Context-vervuiling en -drift: De 'context-window' (het kortetermijngeheugen van de AI) heeft limieten. Zodra deze volraakt, wist het model oudere informatie, waardoor cruciale initiële instructies verloren gaan. Bovendien zorgt het uitvoeren van meerdere taken in één sessie ervoor dat data door elkaar gaat lopen.

De verdedigingslinie: Prompt engineering als controlemechanisme

Om deze onvoorspelbaarheid te temmen, ontwikkelde het Tiger Team vier concrete methoden op het gebied van prompt engineering. Hoewel de technieken afzonderlijk niet revolutionair zijn, zorgden ze in combinatie voor een uiterst betrouwbaar en accuraat eindrapport:

1. Prompt-specialisatie
In plaats van één gigantische, allesomvattende opdracht, wordt het rapport opgeknipt in granulaire deeltaken. Door voor elke sectie een aparte, gefocuste prompt te gebruiken, wordt het risico op 'hallucinaties' of kruisbestuiving tussen hoofdstukken drastisch verkleind.

2. Strikte bronbeperking (Source Constraints)
De AI krijgt expliciet te horen uit welke specifieke documenten of databronnen de informatie geput mag worden. Dit trekt een harde grens rond het model en voorkomt dat het onbetrouwbare of tegenstrijdige informatie van het internet plukt.

3. Harde output-specificaties
Door de AI te dwingen binnen rigide parameters te opereren wat betreft lengte, toon, doelgroep en schrijfstijl, wordt voorkomen dat het model doorslaat in creativiteit.

4. Sjabloon-gestuurde prompts (Template-guided prompting)
De structuur van het rapport wordt als een onbuigzaam sjabloon in de prompt ingebed. De AI krijgt de strikte instructie om statische tekst ongemoeid te laten en alleen de dynamische 'placeholders' in te vullen.

De praktijktest: 50% tijdwinst, maar blijf alert

De resultaten van de casestudy waren veelbelovend. Het gebruik van gerichte AI-prompts leverde een tijdsbesparing op van maar liefst 50% op het totale schrijfproces (inclusief handmatige controle en redactie). Kwalitatief bleken de rapporten tijdens blinde tests bovendien minder typefouten te bevatten en kwamen de modellen soms met waardevolle aanbevelingen waar de menselijke facilitators niet direct aan hadden gedacht.

Toch waarschuwt Talos IR voor een aantal flinke addertjes onder het gras. Ten eerste is datamanagement cruciaal: het uploaden van gevoelige bedrijfs- of incidentgegevens naar publieke AI-tools is een zware privacy-inbreuk. Daarnaast blijft de menselijke auteur te allen tijde verantwoordelijk voor het eindproduct. LLM's genereren nog te vaak irrelevante of dubbele aanbevelingen die er op het eerste gezicht professioneel uitzien, maar in de praktijk onbruikbaar zijn.

De belangrijkste les van het onderzoek is helder: AI is een fantastische assistent om de productiviteit te verdubbelen, mits de mens de regie strak in handen houdt en het model dwingt te opereren binnen de lijntjes van een streng gecureerd operationeel kader.

Tip de redactie

Over Witold Kepinski

Witold Kepinski (1969) is Bestuurder, Editor-in-Chief en Director Content van Dutch IT Channel en Dutch IT Leaders. Witold Kepinski is 25 jaar actief in de IT Media en Tech Business branche

Witold Kepinski geeft met een gespecialiseerd team van redacteuren, bloggers en videomakers inzicht in tech business trends en toepassingen waarmee IT-beslissers en Channel Partners impact maken.

Auteur pagina

Cisco Talos kraakt de code van AI-inconsistentie

De vier gezichten van AI-inconsistentie

De verdedigingslinie: Prompt engineering als controlemechanisme

De praktijktest: 50% tijdwinst, maar blijf alert

Dutch IT events

Meer over Security

Over Witold Kepinski

Wil jij dagelijkse updates?