OpenAI heeft zojuist GPT-5.4 uitgebracht en we hebben het de hele week in Cline getest. We hebben een stijging opgemerkt in computergebruik en algemene kennis, en de benchmarks bevestigen dit: OSWorld (evaluatie computergebruik) ging van 47,3% → 75,0%, wat de menselijke prestaties van 72,4% overtreft! 🧵
GPT-5.4 heeft ook een contextvenster van 1M, maar hun evaluaties tonen aan dat needle-in-a-haystack (MRCR v2) 97% scoort bij 16-32K tokens, daalt naar 57% bij 256-512K, en slechts 36% bij 512K-1M. Dus het is een goed idee om regelmatig te compacten!
74