🚨 Impactante: Los LLMs de Frontier obtienen entre un 85-95% en los estándares de codificación. Les dimos problemas equivalentes en lenguajes que no podrían haber memorizado. Colapsaron a un 0-11%. Presentando EsoLang-Bench. Aceptado en los talleres de Razonamiento Lógico e ICBINB en ICLR 2026 🧵