Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paras Chopra
A vida é um jogo 🕹️ • Construindo @lossfunk
Então o Esolang-Bench viralizou da noite para o dia!
Muita discussão se seguiu; Abordando alguns dos pontos comuns que surgiram.
a) Por que fazer isso? Ela mede algo útil?
b) Mas os humanos também não conseguem escrever bem línguas esotéricas. É uma comparação injusta.
c) Mas Claude Code arrasa. Você limitou os modelos artificialmente.
d) Então, os LLMs estão muito animados? Ou nosso estudo é um clickbait?

Lossfunk20 de mar., 10:57
Respondendo a algumas perguntas sobre nosso Esolang-Bench.
a) Por que fazer isso? Ela mede algo útil?
Foi um projeto movido pela curiosidade. Estamos interessados em como os humanos exibem eficiência amostral no aprendizado e na generalização OOD. Então simplesmente perguntamos: se modelos conseguem zero/algumas respostas corretas para problemas simples de programação em Python, eles podem fazer o mesmo em linguagens esotéricas também?
O parâmetro é o que é. Pessoas diferentes podem interpretar sua utilidade de formas distintas, e nós incentivamos isso.
b) Mas os humanos também não conseguem escrever bem línguas esotéricas. É uma comparação injusta.
Principalmente, estamos interessados em medir as capacidades dos LLMs. Com as conversas sobre a ASI, supõe-se que suas capacidades em breve serão sobre-humanas. Então, nossa principal motivação não era comparar com os humanos, mas verificar o que eles podem fazer nesse padrão difícil por construção.
No entanto, acreditamos que os humanos são capazes de aprender um novo domínio a si mesmos transferindo suas antigas habilidades. Então, esse parâmetro serviu para explorar como sistemas de IA também podem fazer o mesmo (que é o que estamos explorando agora)
c) Mas Claude Code arrasa. Você limitou os modelos artificialmente.
Sim, testamos modelos com capacidades zero e poucas cenas. E no ciclo agentico que descrevemos no artigo, limitamos o número de iterações. Como escrevemos acima, queríamos entender o desempenho deles de um ponto de vista comparativo (por exemplo, em linguagens altamente representadas como Python) e isso é que o benchmark por design é assim.
Depois que o artigo foi finalizado, experimentamos sistemas agentes, onde demos aos modelos ferramentas como bash e permitimos iterações ilimitadas (mas tentativas limitadas de submissão). De fato, eles têm desempenho muito melhor.
A questão relevante é o que faz esses modelos funcionarem tão bem quando você dá ferramentas e iterações versus quando não faz. Eles estão raciocínando/aprendendo como humanos ou é outra coisa?
d) Então, os LLMs estão muito animados? Ou nosso estudo é um clickbait?
O papel, o código e o benchmark são todos de código 👇 aberto
Incentivamos quem tiver interesse a ler e formar sua própria opinião.
(Não pudemos deixar de notar que o *mesmo* conjunto de resultados foi interpretado de formas muito diferentes dentro da comunidade. Seguiu-se um debate entre os grupos opostos de LLMs. Talvez isso seja algo bom?)
826
Melhores
Classificação
Favoritos

