🚨 Sorprendente: los LLMs de Frontier obtienen una puntuación del 85-95% en benchmarks de programación estándar. Les dimos problemas equivalentes en idiomas que no podían memorizar. Colapsaron al 0-11%. Presentamos EsoLang-Bench. Aceptado en los talleres de Razonamiento Lógico e ICBINB en ICLR 2026 🧵