🚨 Chockerande: Frontier LLM:er får 85–95 % på standardkodningsbenchmarks. Vi gav dem motsvarande problem i språk de inte kunde ha memorerat. De kollapsade till 0-11%. Presenterar EsoLang-Bench. Antagen till workshops i logiskt tänkande och ICBINB vid ICLR 2026 🧵