Microsoft onthult Phi-4-reasoning-vision
Microsoft heeft de AI-wereld verrast met de lancering van Phi-4-reasoning-vision-15B. Dit compacte, 'open-weight' model van 15 miljard parameters markeert een doorbraak in de efficiëntie van multimodale AI. Waar veel modellen steeds groter worden, bewijst Microsoft dat een slimme architectuur en extreem kritische dataselectie leiden tot prestaties die wedijveren met systemen die tien keer meer rekenkracht vereisen.
Het nieuwe model is ontworpen om niet alleen beelden te 'zien', maar er ook logisch over te redeneren. Het blinkt uit in wetenschappelijke en wiskundige vraagstukken op basis van visuele input en is bijzonder vaardig in het begrijpen van complexe gebruikersinterfaces op computers en smartphones.
De kracht van 'Mid-fusion'
Bij het trainen van multimodale modellen (modellen die tekst en beeld combineren) stuitte het onderzoeksteam op een cruciaal probleem: modellen falen vaak niet door een gebrek aan denkkracht, maar omdat ze kleine, relevante details in een afbeelding over het hoofd zien.
Microsoft lost dit op door gebruik te maken van de SigLIP-2 vision encoder met een 'Naflex' variant. Dankzij een techniek genaamd dynamic resolution kan het model beelden verwerken tot een resolutie die vergelijkbaar is met HD (720p). Hierdoor kan Phi-4 kleine knoppen in een app of complexe formules in een wetenschappelijk document haarscherp herkennen.
Kwaliteit boven kwantiteit: De 200 miljard token-strategie
De meest opvallende prestatie is de efficiëntie van de training. Terwijl concurrerende modellen zoals Qwen of Gemma vaak getraind worden op meer dan 1 biljoen tokens, had Phi-4-reasoning-vision genoeg aan 200 miljard tokens.
Het team paste een rigoureuze selectie toe:
- Datacuratie: Bestaande open-source datasets werden handmatig gecontroleerd. Foutieve antwoorden werden verbeterd met behulp van GPT-4o, en kwalitatief slechte beelden werden direct verwijderd.
- Synthetische Data: Voor tekstrijke omgevingen zoals grafieken en diagrammen genereerde Microsoft zelf data. Dit voorkomt de ruis en dubbelzinnigheid die vaak in gescrapte internetdata zit.
- Wiskundige focus: Het team ontdekte dat het verhogen van de hoeveelheid wiskundige data niet alleen de prestaties in wiskunde verbeterde, maar ook de algehele logica van het model in andere taken (zoals computernavigatie) een boost gaf.
'Mixed Reasoning': Denken wanneer het moet
Een unieke eigenschap van Phi-4 is het vermogen om te kiezen tussen een snelle reactie en een diepe 'chain-of-thought' (CoT) redenering.
Niet elke taak vereist immers diepe logica. Voor het simpelweg beschrijven van een foto (captioning) geeft het model direct antwoord om latency te minimaliseren. Voor een complexe wetenschappelijke vraag start het model automatisch een intern redeneerproces (gemarkeerd met een <thought> tag). Gebruikers kunnen dit gedrag ook zelf afdwingen via specifieke commando's.
Toepassingen en beschikbaarheid
Phi-4-reasoning-vision-15B is vanaf vandaag beschikbaar via HuggingFace, GitHub en Microsoft Foundry. De toepassingen zijn breed:
- Onderwijs: Hulp bij huiswerk door handgeschreven wiskundeproblemen op te lossen.
- Bedrijfsleven: Het uitlezen van bonnen, documenten en complexe grafieken.
- Toegankelijkheid: Het fungeren als 'computer-using agent' (CUA) die blinden of slechtzienden helpt navigeren door apps door scherminhoud te begrijpen.
Met deze release onder een permissieve licentie hoopt Microsoft de AI-gemeenschap te stimuleren om meer te doen met minder, en de focus te verschuiven van 'groter is beter' naar 'slimmer is sneller'.