Tags en AI: Waarom we anders naar databeheer moeten kijken
De hoeveelheid bedrijfsdata groeit explosief, met name de ongestructureerde data. Volgens Gartner is inmiddels 80 tot 90% van alle data ongestructureerd en groeit deze categorie drie keer zo snel als traditionele gegevens. Deze data wordt continu gegenereerd door mensen en applicaties en verspreidt zich over edge-locaties, datacenters en de public cloud. Door het gebrek aan een centraal, wereldwijd overzicht ontstaat versnippering. Dit maakt het beheren, beveiligen en analyseren van data niet alleen complex, maar ook foutgevoelig.
Van silo’s naar tags
Wanneer data in silo’s opgeslagen ligt, gelden er vaak afzonderlijke beleidsregels per locatie. Een wereldwijd opslagsysteem op basis van tags biedt hier de oplossing. In plaats van beleid te koppelen aan de opslaglocatie, koppel je de regels aan de data zelf via tags. Hierdoor blijven de juiste beveiligings- en beheerregels van kracht, ongeacht waar de data zich bevindt of naartoe verplaatst. De grootste uitdaging is echter om deze tags automatisch en correct toe te kennen bij het aanmaken of wijzigen van bestanden. Dit vereist aanzienlijke rekenkracht om elk bestand direct te analyseren en classificeren.
AI: de oplossing én de nieuwe uitdaging
Kan kunstmatige intelligentie (AI) hierbij helpen? Absoluut. Traditionele AI blinkt uit in classificatie en herkent patronen die voor standaardregelgeving onzichtbaar blijven. Het is dan ook logisch om AI in te zetten voor het automatisch taggen van data. Maar in het tijdperk van Generatieve AI (GenAI) ligt dit gecompliceerder.
Moderne AI-modellen creëren nieuwe content op basis van de data die ze 'zien'. Omdat modellen zelf ook bestaan uit ongestructureerde dataobjecten (code en parameters), moeten we hier voorzichtig mee omgaan. Een AI-model kan de data waarop het getraind is namelijk niet 'vergeten'. Dit betekent dat het model aan dezelfde veiligheidseisen moet voldoen als de meest gevoelige data waarmee het is gevoed. Als bijvoorbeeld managementinformatie vertrouwelijk is, moet het AI-model dat met deze info is getraind, ook exclusief voor het management toegankelijk zijn. De vraag blijft echter: hoe genereren we tags voor deze modellen om dit te bewerkstelligen?
Tagging voor AI-modellen
Hier bewijst tagging opnieuw zijn waarde. In plaats van te proberen alle individuele datafragmenten in een model te tracken, sturen we het model aan op basis van de samenstelling van tags. Het model erft automatisch de 'optelsom' van alle beleidsregels die gelden voor de trainingsdata. Vooral in hybride cloudomgevingen is dit cruciaal: het trainen en verfijnen van modellen op eigen data moet gebeuren onder strikt governance-beleid, geborgd door de juiste tags.
Breng compute naar de data
Gezien het toenemende belang van privacy en security moeten we de omslag maken: van beleid op basis van opslagstructuur naar beleid op basis van datatype. Dit vereist classificatie en tagging. Er zijn twee manieren om dit wereldwijd aan te pakken:
- Alle data verplaatsen naar een centrale plek (zoals de public cloud) voor analyse.
- De rekenkracht (compute) naar de data brengen om lokaal te categoriseren.
De tweede optie heeft absoluut de voorkeur, want data heeft ‘zwaartekracht’ en is log en duur om te verplaatsen. Compute is daarentegen licht en wendbaar. Om dit alles goed te doen, heb je een platform nodig dat geavanceerde berekeningen op een uniforme manier kan uitvoeren en data en compute naadloos combineert – van de edge tot in de cloud.
Kortom, wie zijn wereldwijde databeheer op orde wil krijgen, heeft een platform nodig dat niet kiest tussen data of compute, maar beide combineert.
Door: Manosiz Bhattacharyya (foto), CTO bij Nutanix