Nieuwe GPT-5.4 kan zelfstandig software bedienen
OpenAI heeft GPT-5.4 aangekondigd, een nieuw vlaggenschipmodel dat specifiek is ontworpen voor professioneel werk en complexe agent-gestuurde taken. De update, die direct beschikbaar is in ChatGPT en via de API, markeert een significante sprong voorwaarts in 'computer-use' en autonoom redeneren.
Met de release van GPT-5.4 (onder de naam GPT-5.4 Thinking) en de krachtigere GPT-5.4 Pro, probeert OpenAI de AI-assistent te transformeren van een chatrobot naar een volwaardige digitale collega. Het model integreert de geavanceerde programmeerkracht van het eerdere GPT-5.3-Codex met verbeterde vaardigheden in het verwerken van spreadsheets, presentaties en juridische documenten.
Een AI die de computer bedient
De meest opvallende vernieuwing is de native 'computer-use' capaciteit. GPT-5.4 kan, via de API en Codex, zelfstandig een computer besturen door screenshots te analyseren en muis- en toetsenbordcommando’s uit te voeren. In de OSWorld-benchmark, die test hoe goed een model een desktopomgeving kan navigeren, behaalde GPT-5.4 een score van 75%, waarmee het voor het eerst de menselijke baseline (72,4%) overtreft.
Daarnaast is het model aanzienlijk efficiënter geworden. Hoewel de prijs per token hoger ligt dan bij voorganger GPT-5.2, verbruikt het model veel minder tokens om tot een oplossing te komen. Voor ontwikkelaars introduceert OpenAI 'Tool Search', waardoor AI-agents in staat zijn om in een ecosysteem van tienduizenden tools razendsnel de juiste functie te vinden zonder de volledige context te overbelasten.
"Minder heen-en-weer gepraat"
In ChatGPT vertaalt de update zich naar de nieuwe Thinking-modus. Gebruikers krijgen vooraf een plan te zien van hoe de AI een taak wil aanpakken. "Je kunt de koers halverwege bijsturen terwijl de AI werkt," aldus OpenAI. Dit moet leiden tot resultaten die direct aansluiten bij de behoefte van de gebruiker, met minder noodzaak voor aanvullende prompts.
Ook op het gebied van feitelijkheid zijn stappen gezet. GPT-5.4 is volgens interne tests 33% minder waarschijnlijk om onjuiste beweringen te doen vergeleken met GPT-5.2.
Belangrijkste prestaties op een rij:
- Kenniswerk: Scoort op de GDPval-test (44 beroepsgroepen) beter dan menselijke professionals in 83% van de gevallen.
- Documenten: Behaalde een score van 91% op de BigLaw Bench voor complexe juridische analyse.
- Context: Ondersteunt in Codex een contextvenster tot 1 miljoen tokens, ideaal voor het analyseren van volledige codebases of enorme contracten.
Beschikbaarheid
GPT-5.4 Thinking is beschikbaar voor Plus-, Team- en Pro-gebruikers van ChatGPT. De Pro-versie van het model is exclusief beschikbaar voor ChatGPT Pro- en Enterprise-klanten, evenals voor ontwikkelaars via de API. Voor organisaties die veel met cijfers werken, lanceerde OpenAI gelijktijdig de 'ChatGPT for Excel' add-in.