Microsoft Phi: kleine taalmodellen maken grote sprongen in AI
Een jaar geleden introduceerde Microsoft zijn reeks kleine taalmodellen (SLM's) met de release van Phi-3 op Azure AI Foundry. Nu kondigt het bedrijf met trots de volgende generatie aan: Phi-4-reasoning, Phi-4-reasoning-plus en Phi-4-mini-reasoning.

Deze nieuwe modellen markeren een nieuw tijdperk voor kleine taalmodellen en herdefiniëren opnieuw wat mogelijk is met compacte en efficiënte AI.
De nieuwe Phi-reasoning modellen zijn getraind om inferentie-tijd scaling te benutten voor complexe taken die meerstaps decompositie en interne reflectie vereisen. Ze blinken uit in wiskundig redeneren en ontpoppen zich als de ruggengraat van agent-achtige applicaties met complexe, veelzijdige taken. Dergelijke capaciteiten waren tot nu toe doorgaans alleen te vinden in zeer grote modellen. De Phi-reasoning modellen introduceren een nieuwe categorie van kleine taalmodellen die door middel van distillatie, reinforcement learning en hoogwaardige data een balans vinden tussen omvang en prestaties. Ze zijn klein genoeg voor omgevingen met lage latentie, maar behouden sterke redeneervermogens die concurreren met veel grotere modellen. Deze combinatie stelt zelfs apparaten met beperkte middelen in staat om complexe redeneertaken efficiënt uit te voeren.
Phi-4-reasoning en Phi-4-reasoning-plus
Phi-4-reasoning is een open-weight redeneringsmodel met 14 miljard parameters dat concurreert met veel grotere modellen op complexe redeneertaken. Het model is getraind via supervised fine-tuning van Phi-4 op zorgvuldig samengestelde redeneervoorbeelden van OpenAI's o3-mini. Phi-4-reasoning genereert gedetailleerde redeneerketens die effectief gebruikmaken van extra rekentijd tijdens de inferentie. Dit toont aan dat nauwgezette datacuratie en hoogwaardige synthetische datasets kleinere modellen in staat stellen te concurreren met grotere tegenhangers.
Phi-4-reasoning-plus bouwt voort op de mogelijkheden van Phi-4-reasoning en is verder getraind met reinforcement learning om meer rekentijd tijdens de inferentie te benutten, met 1,5 keer meer tokens dan Phi-4-reasoning, wat resulteert in een hogere nauwkeurigheid.
Ondanks hun aanzienlijk kleinere omvang presteren beide modellen beter dan OpenAI's o1-mini en DeepSeek-R1-Distill-Llama-70B op de meeste benchmarks, waaronder wiskundig redeneren en wetenschappelijke vragen op PhD-niveau. Ze presteren zelfs beter dan het volledige DeepSeek-R1 model (met 671 miljard parameters) op de AIME 2025 test, de kwalificatiewedstrijd voor de USA Math Olympiad van 2025. Beide modellen zijn beschikbaar op Azure AI Foundry en HuggingFace.
Phi-4-mini-reasoning
Phi-4-mini-reasoning is ontworpen om te voldoen aan de vraag naar een compact redeneringsmodel. Dit transformer-gebaseerde taalmodel is geoptimaliseerd voor wiskundig redeneren en biedt hoogwaardige, stapsgewijze probleemoplossing in omgevingen met beperkte computerkracht of latentie. Het model is fijngetuned met synthetische data die is gegenereerd door het Deepseek-R1 model en balanceert efficiëntie met geavanceerde redeneervermogens. Het is ideaal voor educatieve toepassingen, geïntegreerde tutoring en lichtgewicht implementatie op edge- of mobiele systemen. Het model is getraind op meer dan een miljoen diverse wiskundige problemen van verschillende moeilijkheidsgraden, van de middelbare school tot PhD-niveau.
Phi in actie
De evolutie van Phi in het afgelopen jaar heeft de grenzen van kwaliteit versus omvang voortdurend verlegd, waarbij de familie is uitgebreid met nieuwe functies om aan diverse behoeften te voldoen. Deze modellen kunnen lokaal draaien op zowel CPU's als GPU's op een breed scala aan Windows 11-apparaten.
Phi-modellen vormen een integraal onderdeel van Copilot+ PCs met de NPU-geoptimaliseerde Phi Silica variant. Deze zeer efficiënte en door het besturingssysteem beheerde versie van Phi is ontworpen om vooraf in het geheugen te worden geladen en biedt razendsnelle responstijden en een energiezuinige token-doorvoer, zodat het gelijktijdig met andere applicaties op de pc kan worden aangeroepen.
Het wordt gebruikt in kernervaringen zoals Click to Do, dat handige tools voor tekstintelligentie biedt voor alle content op het scherm, en is beschikbaar als developer API's om eenvoudig in applicaties te integreren. Het wordt al gebruikt in verschillende productiviteitsapplicaties zoals Outlook, waar het offline Copilot-samenvattingsfuncties biedt. De Phi-4-reasoning en Phi-4-mini-reasoning modellen maken gebruik van de low-bit optimalisaties voor Phi Silica en zullen binnenkort beschikbaar zijn om te draaien op Copilot+ PC NPU's.
Veiligheid en Microsofts aanpak van verantwoorde AI
Bij Microsoft is verantwoorde AI een fundamenteel principe dat de ontwikkeling en implementatie van AI-systemen, waaronder de Phi-modellen, begeleidt. De Phi-modellen zijn ontwikkeld in overeenstemming met de Microsoft AI-principes: verantwoordelijkheid, transparantie, eerlijkheid, betrouwbaarheid en veiligheid, privacy en beveiliging, en inclusiviteit. De Phi-familie van modellen hanteert een robuuste aanpak voor veiligheid na de training, waarbij een combinatie van Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) en Reinforcement Learning from Human Feedback (RLHF) technieken wordt gebruikt.