AI-modellen kunnen onzin verzinnen in plaats van onwetendheid toe te geven
OpenAI heeft onthuld dat de neiging van AI-modellen om te 'hallucineren' – het genereren van onjuiste informatie – deels het gevolg is van hun trainingsmethode. In een wetenschappelijk artikel, getiteld "Why Language Models Hallucinate", geeft OpenAI toe dat de meerderheid van de evaluatiesystemen voor AI 'hallucinatoir gedrag' belonen.

Het kernprobleem, zo stellen de onderzoekers (PDF), is dat modellen primair worden getraind om een antwoord te geven, zelfs als ze het juiste antwoord niet weten. Dit komt doordat de benchmarks die gebruikt worden om AI te testen, vergelijkbaar zijn met examens die onzekerheid bestraffen en enkel een binair resultaat (goed of fout) accepteren zo meldt The Register.
De onderzoekers beschrijven een experiment waarbij een bot herhaaldelijk foute antwoorden gaf op een vraag over de verjaardag van een van de auteurs van het artikel. De bot was getraind om te gokken in plaats van onwetendheid toe te geven, omdat gokken in de trainingsdata vaker tot een hogere score leidt. Dit gedrag is diep ingebed in de modellen omdat ze getraind worden met enorme datasets die onvermijdelijk fouten bevatten. Als een AI geen duidelijk patroon kan herkennen, zoals bij zeldzame feiten, zal het model eerder een gok wagen dan toegeven dat het het antwoord niet weet.
OpenAI stelt dat het aanpassen van de evaluatiesystemen, zodat ze onzekerheid belonen in plaats van bestraffen, de kans op hallucinaties kan verminderen. Het bedrijf claimt dat het deze aanpak heeft toegepast op de training van ChatGPT-5, maar erkent dat het onmogelijk is om hallucinaties volledig uit te sluiten, omdat de trainingsdatasets te omvangrijk en complex zijn.