🚨 Вражає: LLM Frontier набрали 85-95% за стандартними тестами кодування. Ми давали їм еквівалентні завдання мовами, які вони не могли запам'ятати. Вони впали до 0-11%. Представляємо EsoLang-Bench. Прийнято на семінари з логічного мислення та ICBINB на ICLR 2026 🧵