Redactie - 23 juni 2025

Nieuw project archiveert tekst en beelden die zonder AI zijn vervaardigd

Een nieuwe website verzamelt teksten en beelden die gemaakt zijn voor de introductie van AI. De inhoud wordt behandeld als een kostbaar goed dat gearchiveerd moet worden. John Graham-Cumming, een voormalige Cloudflare-baas, heeft het project opgestart om content te verzamelen die volledig door mensen is gemaakt. Het gaat om teksten en beelden die ‘organisch’ zijn gemaakt, van voor de tijd dat machines meededen in de conversatie.

Nieuw project archiveert tekst en beelden die zonder AI zijn vervaardigd image

Hier komt Low-backgroundSteel.ai. De naam van de website verwijst naar een tijd waarin onderzoekers staal verzamelden dat gemaakt is voordat de eerste nucleaire testen werden uitgevoerd. Die kerntesten, en de radioactieve isotopen die daarbij vrijkwamen, beschadigden wereldwijd namelijk het nieuw gemaakte metaal. Voor specifieke doeleinden moesten onderzoekers dus staal en lood halen uit schepen die voor 1945 gezonken waren. Iets soortgelijks wil low-backgroundsteel.ai dus doen voor menselijke expressie.

Nu er steeds meer artikelen en beelden worden gegenereerd door kunstmatige intelligentie, wordt het ook steeds moeilijker om teksten te vinden die met 100% zekerheid door een mens zijn geschreven. Dat heeft onder andere gevolgen voor onderzoeksprojecten die instanties van menselijke expressie nodig hebben. Een voorbeeld daarvan is wordfreq, een langlopend project dat taalgebruik volgde in een veertigtal talen. Het doel was onder andere om door de jaren heen de evolutie van taal te documenteren. Een van de belangrijke bronnen daar was echter het internet, maar omdat steeds meer websites zich afsluiten om te voorkomen dat er op hun teksten getraind wordt, en omdat veel van de rest van het internet wordt gevuld met ‘AI slop’, zoals wordfreq het noemt, moest het project worden stopgezet.

‘Model collapse’ en tijdcapsules

Het opbouwen van een archief met geverifieerde menselijke teksten heeft meerdere doelen. Een daarvan is het tegengaan van zogenaamde ‘model collapse’. Het idee daar is dat als je een large language model blijft trainen op zijn eigen output, of de output van andere large language models, je op den duur zoveel data van slechte kwaliteit gaat binnenhalen dat het model in elkaar stort. Daarnaast gaat het ook om een soort tijdcapsule van een tijd (grotendeels pre-2022) waarin men zeker is dat alles nog door echte mensen is geschreven. De website vermeldt bijvoorbeeld een Wikipedia-archief uit augustus 2022 (voor de eerste release van ChatGPT in november van dat jaar dus), naast meer klassieke websites zoals Project Gutenberg (boeken in het publieke domein) en foto-archieven van de Amerikaanse Library of Congress. Je kunt zelf ook archieven voorstellen voor dit moderne archeologieproject.

In samenwerking met Data News

Veeam 10/06/2025 t/m 01/07/2025 BN + BW Digital Realty 28/05/2025 t/m 25/06/2025 BN + BW
Veeam 10/06/2025 t/m 01/07/2025 BN + BW

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!