🚨 Surpreendente: LLMs da Frontier pontuam 85-95% em benchmarks de codificação padrão. Demos a eles problemas equivalentes em idiomas que eles não poderiam ter memorizado. Eles despencaram para 0-11%. Apresentando EsoLang-Bench. Aceito nos workshops de Raciocínio Lógico e ICBINB no ICLR 2026 🧵