Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mais provas de que os LLMs não são conscientes e não estão a generalizar qualquer informação, e portanto não vão tornar-se inteligentes de forma geral, mas são de facto (ainda extremamente úteis) respondedores estatísticos treinados.

19/03, 22:14
🚨 Chocante: Os LLMs Frontier obtêm 85-95% em benchmarks de codificação padrão. Demos-lhes problemas equivalentes em linguagens que não poderiam ter memorizado. Eles colapsaram para 0-11%.
Apresentando o EsoLang-Bench.
Aceito nos workshops de Raciocínio Lógico e ICBINB na ICLR 2026 🧵
Os graduados em Ciência da Computação são apresentados a desafios de programação em linguagens que nunca viram antes + com apenas um pouco de sintaxe e são solicitados a fazer coisas como codificar uma sequência de Fibonacci para provar que não estão apenas a repetir, o tempo todo
E isso realmente filtra pessoas, mas não 90%.
57
Top
Classificação
Favoritos
