Witold Kepinski - 16 maart 2026

AWS en Cerebras doorbreken snelheidsbarrière voor AI-inference in de cloud

Amazon Web Services (AWS) en Cerebras Systems hebben een strategische samenwerking aangekondigd die de standaard voor AI-prestaties ingrijpend moet veranderen. Door de krachten van de AWS Trainium-chips en de Cerebras CS-3 systemen te bundelen, beloven de bedrijven de snelste AI-inference (het uitvoeren van getrainde modellen) ter wereld aan te bieden via Amazon Bedrock.

AWS en Cerebras doorbreken snelheidsbarrière voor AI-inference in de cloud image

In de wereld van generatieve AI is snelheid niet langer een luxe, maar een noodzaak. Voor toepassingen zoals real-time programmeerhulp en interactieve klantenservice is de vertraging tussen een vraag en het antwoord (latency) vaak de grootste hindernis. De nieuwe oplossing van AWS en Cerebras belooft deze flessenhals weg te nemen door een innovatieve techniek genaamd "inference disaggregation."

De kracht van taakverdeling

De kern van de nieuwe technologie ligt in het splitsen van het inference-proces in twee specifieke fasen: de prefill-fase (het verwerken van de invoer) en de decode-fase (het genereren van de uitvoer).

  • AWS Trainium neemt de prefill-fase voor zijn rekening. Deze fase vereist enorme rekenkracht om grote hoeveelheden data tegelijk te verwerken, een taak waar de speciaal door Amazon ontwikkelde AI-chips in uitblinken.
  • Cerebras CS-3 richt zich volledig op de decode-fase. Het genereren van tekst gebeurt token voor token (woord voor woord), wat een extreem hoge geheugenbandbreedte vereist. De CS-3 systemen van Cerebras bieden een bandbreedte die duizenden malen groter is dan die van de snelste GPU's op de markt.

"Door de werklast te splitsen over Trainium en CS-3, doet elk systeem waar het het beste in is," aldus David Brown, Vice President Compute & ML Services bij AWS. "Het resultaat is inference die een orde van grootte sneller is dan wat vandaag de dag beschikbaar is."

Een nieuwe standaard in de cloud

AWS is de eerste cloudprovider die de gedecentraliseerde oplossing van Cerebras integreert. De systemen worden direct in de AWS-datacenters geplaatst en verbonden via het razendsnelle Elastic Fabric Adapter (EFA) netwerk van Amazon. Dit zorgt ervoor dat de snelheidswinst niet verloren gaat aan netwerkvertragingen, terwijl de veiligheid en isolatie van het AWS Nitro-systeem gewaarborgd blijven.

De impact van deze samenwerking is direct zichtbaar in de steun van grote spelers in de industrie. AI-laboratoria zoals Anthropic en OpenAI maken al op grote schaal gebruik van AWS Trainium. Voor OpenAI is zelfs een capaciteit van 2 gigawatt aan Trainium-infrastructuur gereserveerd om aan de groeiende vraag naar geavanceerde modellen te voldoen.

Beschikbaarheid

Klanten hoeven niet lang te wachten op de nieuwe snelheden. De Trainium + Cerebras-oplossing wordt in de komende maanden uitgerold via Amazon Bedrock. Later dit jaar zal AWS ook populaire open-source taalmodellen (LLM's) en de eigen Amazon Nova-modellen aanbieden die geoptimaliseerd zijn voor de hardware van Cerebras.

Met deze stap zet AWS de aanval in op de dominante positie van traditionele GPU-leveranciers, door te bewijzen dat gespecialiseerde hardware de sleutel is tot de volgende generatie AI-toepassingen.

Dutch IT Security Day 2026 BW + BN Omada Hospitality workshop BW BN
Dutch IT Security Day 2026 BW + BN

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!