OpenAI только что выпустила GPT-5.4, и мы тестировали его в Cline всю неделю. Мы заметили рост в использовании компьютеров и общем уровне знаний, и бенчмарки это подтверждают: OSWorld (оценка использования компьютера) выросла с 47.3% до 75.0%, превысив человеческую производительность на уровне 72.4%! 🧵
GPT-5.4 также имеет контекстное окно в 1M, но их оценки показывают, что needle-in-a-haystack (MRCR v2) набирает 97% при 16-32K токенов, падает до 57% при 256-512K и всего до 36% при 512K-1M. Так что регулярно компактуйте!
131