Witold Kepinski - 05 december 2025

NVIDIA: Mixture of Experts (MoE) versnelt top AI-modellen

De architectuur die ten grondslag ligt aan de meest intelligente frontier AI-modellen is de Mixture-of-Experts (MoE)-architectuur. NVIDIA kondigt aan dat MoE-modellen, waaronder koplopers als Kimi K2 Thinking en Mistral Large 3, tot wel tien keer sneller draaien op hun nieuwe NVIDIA GB200 NVL72-systeem dan op de vorige generatie H200-systemen.

NVIDIA: Mixture of Experts (MoE) versnelt top AI-modellen image

De MoE-architectuur bootst de efficiëntie van het menselijk brein na door gespecialiseerde 'experts' in te zetten. In plaats van alle parameters van het model te activeren voor elke token (zoals in traditionele, dichte modellen), selecteert een router alleen de meest relevante experts voor de taak.

Voordelen van MoE volgens NVIDIA zijn:

Sneller: Snellere generatie van tokens zonder een proportionele toename in rekenkracht.

Efficiënter: Hogere intelligentie met minder computationele en energievereisten per token.

De industrie heeft dit voordeel erkend: op de onafhankelijke Artificial Analysis (AA) leaderboard gebruiken de top 10 meest intelligente open-source modellen een MoE-architectuur. Dit omvat modellen zoals DeepSeek-R1 en Mistral Large 3.

Blackwell NVL72 lost schaalproblemen op

Het opschalen van MoE-modellen in productie is complex vanwege geheugenbeperkingen en latentie. Omdat MoE-modellen te groot zijn voor één GPU, moeten de experts over meerdere GPU's worden verdeeld (expert parallelism).

Het NVIDIA GB200 NVL72 rack-scale systeem lost dit op door 72 NVIDIA Blackwell GPU's te verbinden via één massieve NVLink interconnect-fabric. Dit creëert effectief één systeem met 1,4 exaflops AI-prestaties en 30 TB aan snel gedeeld geheugen.

Prestatieverbetering

Het Kimi K2 Thinking MoE-model, momenteel het meest intelligente open-source model, behaalt een 10x prestatiesprong op de GB200 NVL72 vergeleken met de NVIDIA HGX H200.

Mistral Large 3 liet een vergelijkbare 10x prestatiewinst zien.

Deze verbetering in prestaties per watt is cruciaal voor de economische levensvatbaarheid van grootschalige AI en stelt bedrijven in staat om 10x meer token-omzet te genereren binnen dezelfde energie- en kostenkaders.

NVIDIA's full-stack inferentieplatform, inclusief software-optimalisaties en de nieuwe NVFP4-indeling, maakt het mogelijk om de MoE-architectuur, die nu al door meer dan 60% van de open-source AI-releases wordt gebruikt, volledig te benutten.

ESET BW + BN Bitdefender BW + BN
ESET BW + BN

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!