Nieuwe MAI-modellen van Microsoft nu live in Foundry
Microsoft AI heeft een drietal nieuwe 'world-class' modellen gepresenteerd die de lat voor snelheid, kwaliteit en prijs-prestatieverhouding in de sector flink hoger leggen. Onder de vlag van Microsoft Foundry lanceert Mustafa Suleyman, CEO van Microsoft AI, de modellen MAI-Transcribe-1, MAI-Voice-1 en MAI-Image-2. De modellen zijn vanaf vandaag direct toegankelijk voor ontwikkelaars en zakelijke klanten.
Met deze aankondiging zet Microsoft vol in op wat zij 'Humanist AI' noemen: modellen die van binnenuit zijn ontworpen met de mens als middelpunt, geoptimaliseerd voor de manier waarop we daadwerkelijk communiceren en werken.
Transcriptie
Het nieuwe paradepaardje voor spraakherkenning, MAI-Transcribe-1, zet volgens de FLEURS-benchmark nieuwe standaarden in de top 25 van meest gebruikte talen. Het model is niet alleen accurater dan concurrenten als Whisper-large-v3 en Gemini 3.1 Flash, maar blinkt vooral uit in snelheid. De batch-transcriptie is 2,5 keer sneller dan het huidige Microsoft Azure-aanbod. Met een gemiddelde Word Error Rate (WER) van slechts 3,9% biedt het model de beste prestaties tegen de laagste kosten bij grote cloudproviders.
Stemgeneratie met emotionele diepgang
Voor ontwikkelaars van voice-agents en interactieve ervaringen is MAI-Voice-1 geïntroduceerd. Dit model is in staat om natuurlijke, realistische spraak te genereren met een breed emotioneel bereik, waarbij de identiteit van de spreker behouden blijft, zelfs in lange fragmenten.
Nieuw is de mogelijkheid om in Microsoft Foundry veilig een aangepaste stem te creëren op basis van slechts enkele seconden audio. Het model is uiterst efficiënt: het kan 60 seconden audio genereren in slechts één seconde tijd. Consumenten kunnen de kwaliteit van dit model al ervaren via Copilot Audio Expressions.
Beeldgeneratie voor professionals
MAI-Image-2 richt zich op de visuele verhalenvertellers. Na een succesvol debuut in de top 3 van de Arena.ai-leaderboard, is het model nu geoptimaliseerd voor Foundry en Copilot. Gebruikers ervaren een verdubbeling in snelheid bij de generatie van beelden, zonder in te leveren op kwaliteit.
Het model is specifiek getraind op natuurlijke belichting, accurate huidtinten en de weergave van scherpe tekst in afbeeldingen — een berucht knelpunt bij eerdere generaties AI. Marketinggigant WPP is een van de eerste partners die het model op grote schaal inzet. "Het respecteert het vakmanschap dat nodig is voor campagne-waardige beelden," aldus Rob Reilly, Global Chief Creative Officer bij WPP.
Veiligheid en toegankelijkheid
Microsoft benadrukt dat alle modellen intensief zijn getest en onderworpen aan 'red-teaming' om een verantwoorde inzet te garanderen. Ontwikkelaars in Foundry krijgen toegang tot ingebouwde filters en controles om AI veilig op schaal uit te rollen.
De prijsstelling is uiterst competitief:
- MAI-Transcribe-1: vanaf $0,36 per uur.
- MAI-Voice-1: vanaf $22 per 1 miljoen tekens.
- MAI-Image-2: vanaf $5 per 1 miljoen tokens voor tekstinput en $33 per 1 miljoen tokens voor beelduitvoer.
De modellen zijn vanaf vandaag beschikbaar via Microsoft Foundry en de MAI Playground (momenteel alleen in de VS). Hiermee verstevigt Microsoft haar positie in de race om de meest efficiënte en bruikbare AI-infrastructuur voor het bedrijfsleven.