Hans Steeman - 10 februari 2024

Groq ontwikkelde LPU om AI te versnellen

Moderne IT wordt tot nu toe vooral gedreven door CPU’s en GPU’s. Speciaal GPU’s hebben grote toegevoegde waarde bij AI. Het zijn de engines die het vele rekenwerk moeten realiseren. Startup Groq uit Mountain View, waarvan Jonathan Ross oprichter en CEO is, spraken we tijdens de IT Press tour in Californië. Het bedrijf claimt een machine learning-processor (LPU) ontwikkeld te hebben die volgens onafhankelijke metingen GPU’s in het stof laat bijten in grote rekenopdrachten rond taalmodellen. Volgens de specificatie is de unit 10 keer sneller dan een Nvidia GPU en dat tegen 10 % van de kosten en met slechts 10 % van het elektrisch energieverbruik.

Groq ontwikkelde LPU om AI te versnellen image

Jonathan Ross is een ex-Google engineer die aldaar verantwoordelijk was voor het ontwerpen van de tensor processing unit (TPU). Deze chip is goed voor de basale AI-training, maar minder geschikt voor AI-inferentie workloads (het vermogen om nieuwe kennis af te leiden uit bestaande kennis). Dat was de drijfveer om op eigen kracht iets nieuws (de TSP) te creëren.

Een GPU, met zijn enorme aantal parallelle kernen, kan de seriële gegevensstroom niet optimaal verwerken. De door Groq ontwikkelde Tensor Stream Processor (TSP) juist wel. Toen de interesse in generatieve AI een jaar geleden snel groeide, realiseerde Ross zich dat de TSP ideaal was voor het uitvoeren van LLM-inferentietaken (Large Language Models). Om commerciële redenen werd de chip qua naam omgedoopt tot de Language Processing Unit (LPU). De naam Tensor is bij het bredere publiek niet bekend.

Het succes van Groq werd gerealiseerd door een manier te ontwikkelen om grote taalmodellen (LLM’s) te compileren, ze vervolgens nagenoeg als een computerprogramma te behandelen en ze daarna in hardware op chipniveau te verwerken in een speciaal ontwikkelde rekenunit, de LPU. De LPU is in staat om de gecompileerde LLM-code uit te voeren. Hierbij worden generatieve AI-inferentietoepassingen door de chip uitgevoerd. Deze hardware is deterministisch en levert sneller goede resultaten op het gebied van prestaties en real-time reactie. Ze laten hierbij de GPU’s achter zich en doen dat ook nog eens tegen een fractie van de kosten.

In tegenstelling tot GPU's heeft een LPU één enkele rekenkern en Groq noemt dit product een TISC oftewel Temporal Instruction Set Computerarchitectuur. In analogie naar CISC en RISC. De data hoeven bij dit concept niet zo vaak uit het geheugen te worden herladen, een werkwijze die bij GPU’s juist wel noodzakelijk is. Daarom is er geen HBM (High Bandwidth Memory) in het systeem nodig. De LPU maakt gebruik van SRAM, waarbij Groq claimt een aanzienlijk veel hogere bandbreedte voor het geheugen te realiseren dan GPU's met HBM. Concluderend betoogde Ross: "We zijn veel energiezuiniger en we lezen minder uit het externe geheugen."

Door: Hans Steeman

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!