Más pruebas de que los LLMs no son conscientes ni generalizan la información, y por lo tanto no se van a volver generalmente inteligentes, sino que de hecho son (aún extremadamente útiles) respondientes estadísticos entrenados.
Lossfunk
Lossfunk19 mar, 22:14
🚨 Sorprendente: los LLMs de Frontier obtienen una puntuación del 85-95% en benchmarks de programación estándar. Les dimos problemas equivalentes en idiomas que no podían memorizar. Colapsaron al 0-11%. Presentamos EsoLang-Bench. Aceptado en los talleres de Razonamiento Lógico e ICBINB en ICLR 2026 🧵
A los graduados en informática se les ponen retos de programación en lenguajes que no han visto antes + con un poco de sintaxis y se les pide que hagan cosas como programar una secuencia de Fibonacci para demostrar que no están repitiendo todo el tiempo Y eso sí excluye a la gente, pero no al 90%
64