Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paras Chopra
La vida es un juego 🕹️ • Construyendo @lossfunk
¡Así que Esolang-Bench se hizo viral de la noche a la mañana!
Se produjo mucha discusión; Abordando algunos de los puntos comunes que surgieron.
a) ¿Por qué hacerlo? ¿Mide algo útil?
b) Pero los humanos tampoco pueden escribir bien lenguajes esotéricos. Es una comparación injusta.
c) Pero Claude Code lo arrasa. Limitaste los modelos artificialmente.
d) Entonces, ¿están los LLMs muy promocionados? ¿O nuestro estudio es un clickbait?

Lossfunk20 mar, 10:57
Respondiendo a algunas preguntas sobre nuestro Banco de Esolang.
a) ¿Por qué hacerlo? ¿Mide algo útil?
Fue un proyecto impulsado por la curiosidad. Nos interesa cómo los humanos muestran eficiencia muestral en el aprendizaje y la generalización de la orientación orientada a la orientación orientada a la normalidad. Así que simplemente preguntamos: si los modelos pueden cero o disparar respuestas correctas para problemas simples de programación en Python, ¿pueden hacer lo mismo en lenguajes esotéricos también?
El punto de referencia es lo que es. Diferentes personas pueden interpretar su utilidad de forma distinta, y nosotros fomentamos eso.
b) Pero los humanos tampoco pueden escribir bien lenguajes esotéricos. Es una comparación injusta.
Principalmente, nos interesa medir las capacidades de los LLM. Con lo que se habla de la ASI, se supone que sus capacidades pronto serán sobrehumanas. Así que nuestra motivación principal no era compararnos con los humanos, sino comprobar qué pueden hacer con este punto de referencia difícil por construcción.
Sin embargo, creemos que los humanos son capaces de enseñarse un nuevo dominio transfiriendo sus antiguas habilidades. Así que este punto de referencia servía para establecer un punto de partida para explorar cómo los sistemas de IA pueden hacer lo mismo (que es lo que estamos explorando ahora)
c) Pero Claude Code lo arrasa. Limitaste los modelos artificialmente.
Sí, probamos modelos con capacidades de disparo cero y pocas fotos. Y en el bucle agente que describimos en el artículo, limitamos el número de iteraciones. Como hemos escrito antes, queríamos entender su rendimiento desde un punto de vista comparativo (por ejemplo, en lenguajes altamente representados como Python) y eso es por el diseño del benchmark así.
Tras finalizar el artículo, experimentamos con sistemas agentes, donde damos a los modelos herramientas como bash y permitimos iteraciones ilimitadas (pero con intentos de envío limitados). De hecho, rinden mucho mejor.
La pregunta relevante es qué hace que estos modelos rindan tan bien cuando les das herramientas e iteraciones frente a cuando no lo haces. ¿Están razonando o aprendiendo como los humanos o es otra cosa?
d) Entonces, ¿están los LLMs muy promocionados? ¿O nuestro estudio es un clickbait?
El artículo, el código y la prueba de referencia son todos de código 👇 abierto
Animamos a quien esté interesado a leerlo y a formarse su propia opinión.
(No pudimos evitar notar que el *mismo* conjunto de resultados se interpretaba de forma muy diferente dentro de la comunidad. Se desató un debate entre los bandos opuestos de los LLMs. ¿Quizá eso sea algo bueno?)
825
Populares
Ranking
Favoritas

