Cloudflare: Crawlers van AI-bedrijf Perplexity omzeilen restricties van websites
Cloudflare meldt dat de crawlers van AI-bedrijf Perplexity zich specifiek gaan vermommen wanneer ze een site tegenkomen die hen blokkeert. Het is niet de eerste keer dat Perplexity tegen de lamp loopt voor het stelen van content zonder toestemming.

Cloudflare, dat internetarchitectuur aanbiedt en dus onder meer sites toelaat om zelf te kiezen welke crawlers worden toegelaten, schrijft in een rapport dat de AI start-up Perplexity dit soort restricties actief omzeilt. Wanneer een crawler van het bedrijf een blokkage tegenkomt, gaat hij zich vermommen om de voorschriften van de website te omzeilen.
Crawlers
De meeste crawlers op het internet voldoen aan voorschriften die websites in een robots.txt bestand aangeven. Via zo’n bestand kan een website bijvoorbeeld kiezen welke van de pagina’s door Google geïndexeerd mogen worden. Perplexity houdt zich dus niet aan de regels, aldus Cloudflare, en dat is niet de eerste keer. Vorig jaar liep het bedrijf al tegen de lamp voor het negeren van robots.txt-bestanden, en het stelen van content die achter betaalmuren zat. Toen legde CEO Aravind Srinivas de schuld nog bij crawlers van derde partijen.
Cloudflare zegt dat het klachten ontving van klanten die Perplexity’s bots alsnog in bestanden vonden die ze daarvoor hadden afgesloten. Om de klachten te testen, bouwde Cloudflare enkele nieuwe domeinen met gelijkaardige restricties, in het robots.txt bestand en met regels in de firewall van de site. Het bedrijf zag dat de AI-scrapers van Perplexity eerst een site probeerden aan te spreken door zich te identificeren als ‘PerplexityBot’, maar als dat niet werkte, ging de agent zich voordoen als een Chrome of macOS-gebruiker. Die vermomming gebruikt ook verschillende IP-adressen, waarvan er geen werd bekendgemaakt als die van PerplexityBots. "We zagen deze activiteit in tienduizenden domeinen met miljoenen aanvragen per dag", aldus Cloudflare.
In een mededeling noemt Perplexity het rapport een ‘pubiciteitsstunt’. Cloudflare werpt zich de laatste tijd op als een verdediger van websites tegen ongeoorloofde AI crawlers. Veel AI-bedrijven zetten die botjes in om tekst en beelden te verzamelen om hun modellen op te draaien. Het netwerkbedrijf probeert een systeem te bouwen waarbij zulke AI-bedrijven kunnen betalen voor content. In een nieuwe update blokkeert Cloudflare ook standaard alle AI crawlers.
In samenwerking met Data News.