OpenAI ha appena rilasciato GPT-5.4 e lo abbiamo testato in Cline per tutta la settimana. Abbiamo notato un aumento nell'uso del computer e nella conoscenza generale, e i benchmark lo confermano: OSWorld (valutazione dell'uso del computer) è passato dal 47,3% al 75,0%, superando le prestazioni umane del 72,4%! 🧵
GPT-5.4 ha anche una finestra di contesto di 1M, ma le loro valutazioni mostrano che needle-in-a-haystack (MRCR v2) ottiene il 97% a 16-32K token, scende al 57% a 256-512K e solo al 36% a 512K-1M. Quindi è una buona idea compattare regolarmente!
105