Witold Kepinski - 06 maart 2026

Microsoft onthult Phi-4-reasoning-vision

Microsoft heeft de AI-wereld verrast met de lancering van Phi-4-reasoning-vision-15B. Dit compacte, 'open-weight' model van 15 miljard parameters markeert een doorbraak in de efficiëntie van multimodale AI. Waar veel modellen steeds groter worden, bewijst Microsoft dat een slimme architectuur en extreem kritische dataselectie leiden tot prestaties die wedijveren met systemen die tien keer meer rekenkracht vereisen.

Ai Development Software Data Compute Wetenschap Onderwijs

Het nieuwe model is ontworpen om niet alleen beelden te 'zien', maar er ook logisch over te redeneren. Het blinkt uit in wetenschappelijke en wiskundige vraagstukken op basis van visuele input en is bijzonder vaardig in het begrijpen van complexe gebruikersinterfaces op computers en smartphones.

De kracht van 'Mid-fusion'

Bij het trainen van multimodale modellen (modellen die tekst en beeld combineren) stuitte het onderzoeksteam op een cruciaal probleem: modellen falen vaak niet door een gebrek aan denkkracht, maar omdat ze kleine, relevante details in een afbeelding over het hoofd zien.

Microsoft lost dit op door gebruik te maken van de SigLIP-2 vision encoder met een 'Naflex' variant. Dankzij een techniek genaamd dynamic resolution kan het model beelden verwerken tot een resolutie die vergelijkbaar is met HD (720p). Hierdoor kan Phi-4 kleine knoppen in een app of complexe formules in een wetenschappelijk document haarscherp herkennen.

Kwaliteit boven kwantiteit: De 200 miljard token-strategie

De meest opvallende prestatie is de efficiëntie van de training. Terwijl concurrerende modellen zoals Qwen of Gemma vaak getraind worden op meer dan 1 biljoen tokens, had Phi-4-reasoning-vision genoeg aan 200 miljard tokens.

Het team paste een rigoureuze selectie toe:

Datacuratie: Bestaande open-source datasets werden handmatig gecontroleerd. Foutieve antwoorden werden verbeterd met behulp van GPT-4o, en kwalitatief slechte beelden werden direct verwijderd.
Synthetische Data: Voor tekstrijke omgevingen zoals grafieken en diagrammen genereerde Microsoft zelf data. Dit voorkomt de ruis en dubbelzinnigheid die vaak in gescrapte internetdata zit.
Wiskundige focus: Het team ontdekte dat het verhogen van de hoeveelheid wiskundige data niet alleen de prestaties in wiskunde verbeterde, maar ook de algehele logica van het model in andere taken (zoals computernavigatie) een boost gaf.

'Mixed Reasoning': Denken wanneer het moet

Een unieke eigenschap van Phi-4 is het vermogen om te kiezen tussen een snelle reactie en een diepe 'chain-of-thought' (CoT) redenering.

Niet elke taak vereist immers diepe logica. Voor het simpelweg beschrijven van een foto (captioning) geeft het model direct antwoord om latency te minimaliseren. Voor een complexe wetenschappelijke vraag start het model automatisch een intern redeneerproces (gemarkeerd met een <thought> tag). Gebruikers kunnen dit gedrag ook zelf afdwingen via specifieke commando's.

Toepassingen en beschikbaarheid

Phi-4-reasoning-vision-15B is vanaf vandaag beschikbaar via HuggingFace, GitHub en Microsoft Foundry. De toepassingen zijn breed:

Onderwijs: Hulp bij huiswerk door handgeschreven wiskundeproblemen op te lossen.
Bedrijfsleven: Het uitlezen van bonnen, documenten en complexe grafieken.
Toegankelijkheid: Het fungeren als 'computer-using agent' (CUA) die blinden of slechtzienden helpt navigeren door apps door scherminhoud te begrijpen.

Met deze release onder een permissieve licentie hoopt Microsoft de AI-gemeenschap te stimuleren om meer te doen met minder, en de focus te verschuiven van 'groter is beter' naar 'slimmer is sneller'.

Tip de redactie

Over Witold Kepinski

Witold Kepinski (1969) is Bestuurder, Editor-in-Chief en Director Content van Dutch IT Channel en Dutch IT Leaders. Witold Kepinski is 25 jaar actief in de IT Media en Tech Business branche

Witold Kepinski geeft met een gespecialiseerd team van redacteuren, bloggers en videomakers inzicht in tech business trends en toepassingen waarmee IT-beslissers en Channel Partners impact maken.

Auteur pagina

Microsoft onthult Phi-4-reasoning-vision

De kracht van 'Mid-fusion'

Kwaliteit boven kwantiteit: De 200 miljard token-strategie

'Mixed Reasoning': Denken wanneer het moet

Toepassingen en beschikbaarheid

Dutch IT events

Meer over ai

Over Witold Kepinski

Wil jij dagelijkse updates?