Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Más pruebas de que los LLMs no son conscientes ni generalizan la información, y por lo tanto no se van a volver generalmente inteligentes, sino que de hecho son (aún extremadamente útiles) respondientes estadísticos entrenados.

19 mar, 22:14
🚨 Sorprendente: los LLMs de Frontier obtienen una puntuación del 85-95% en benchmarks de programación estándar. Les dimos problemas equivalentes en idiomas que no podían memorizar. Colapsaron al 0-11%.
Presentamos EsoLang-Bench.
Aceptado en los talleres de Razonamiento Lógico e ICBINB en ICLR 2026 🧵
A los graduados en informática se les ponen retos de programación en lenguajes que no han visto antes + con un poco de sintaxis y se les pide que hagan cosas como programar una secuencia de Fibonacci para demostrar que no están repitiendo todo el tiempo
Y eso sí excluye a la gente, pero no al 90%
64
Populares
Ranking
Favoritas
