DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Paras Chopra

A vida é um jogo 🕹️ • Construindo @lossfunk

Então o Esolang-Bench viralizou da noite para o dia! Muita discussão se seguiu; Abordando alguns dos pontos comuns que surgiram. a) Por que fazer isso? Ela mede algo útil? b) Mas os humanos também não conseguem escrever bem línguas esotéricas. É uma comparação injusta. c) Mas Claude Code arrasa. Você limitou os modelos artificialmente. d) Então, os LLMs estão muito animados? Ou nosso estudo é um clickbait?

Respondendo a algumas perguntas sobre nosso Esolang-Bench. a) Por que fazer isso? Ela mede algo útil? Foi um projeto movido pela curiosidade. Estamos interessados em como os humanos exibem eficiência amostral no aprendizado e na generalização OOD. Então simplesmente perguntamos: se modelos conseguem zero/algumas respostas corretas para problemas simples de programação em Python, eles podem fazer o mesmo em linguagens esotéricas também? O parâmetro é o que é. Pessoas diferentes podem interpretar sua utilidade de formas distintas, e nós incentivamos isso. b) Mas os humanos também não conseguem escrever bem línguas esotéricas. É uma comparação injusta. Principalmente, estamos interessados em medir as capacidades dos LLMs. Com as conversas sobre a ASI, supõe-se que suas capacidades em breve serão sobre-humanas. Então, nossa principal motivação não era comparar com os humanos, mas verificar o que eles podem fazer nesse padrão difícil por construção. No entanto, acreditamos que os humanos são capazes de aprender um novo domínio a si mesmos transferindo suas antigas habilidades. Então, esse parâmetro serviu para explorar como sistemas de IA também podem fazer o mesmo (que é o que estamos explorando agora) c) Mas Claude Code arrasa. Você limitou os modelos artificialmente. Sim, testamos modelos com capacidades zero e poucas cenas. E no ciclo agentico que descrevemos no artigo, limitamos o número de iterações. Como escrevemos acima, queríamos entender o desempenho deles de um ponto de vista comparativo (por exemplo, em linguagens altamente representadas como Python) e isso é que o benchmark por design é assim. Depois que o artigo foi finalizado, experimentamos sistemas agentes, onde demos aos modelos ferramentas como bash e permitimos iterações ilimitadas (mas tentativas limitadas de submissão). De fato, eles têm desempenho muito melhor. A questão relevante é o que faz esses modelos funcionarem tão bem quando você dá ferramentas e iterações versus quando não faz. Eles estão raciocínando/aprendendo como humanos ou é outra coisa? d) Então, os LLMs estão muito animados? Ou nosso estudo é um clickbait? O papel, o código e o benchmark são todos de código 👇 aberto Incentivamos quem tiver interesse a ler e formar sua própria opinião. (Não pudemos deixar de notar que o *mesmo* conjunto de resultados foi interpretado de formas muito diferentes dentro da comunidade. Seguiu-se um debate entre os grupos opostos de LLMs. Talvez isso seja algo bom?)

Melhores

Classificação

Favoritos