🚨 Sjokkerende: Frontier LLM-er scorer 85-95 % på standard kodebenchmarks. Vi ga dem tilsvarende oppgaver i språk de ikke kunne ha memorert. De kollapset til 0-11 %. Vi presenterer EsoLang-Bench. Tatt opp til Logical Reasoning- og ICBINB-workshopene på ICLR 2026 🧵