Mais provas de que os LLMs não são conscientes e não estão a generalizar qualquer informação, e portanto não vão tornar-se inteligentes de forma geral, mas são de facto (ainda extremamente úteis) respondedores estatísticos treinados.
Lossfunk
Lossfunk19/03, 22:14
🚨 Chocante: Os LLMs Frontier obtêm 85-95% em benchmarks de codificação padrão. Demos-lhes problemas equivalentes em linguagens que não poderiam ter memorizado. Eles colapsaram para 0-11%. Apresentando o EsoLang-Bench. Aceito nos workshops de Raciocínio Lógico e ICBINB na ICLR 2026 🧵
Os graduados em Ciência da Computação são apresentados a desafios de programação em linguagens que nunca viram antes + com apenas um pouco de sintaxe e são solicitados a fazer coisas como codificar uma sequência de Fibonacci para provar que não estão apenas a repetir, o tempo todo E isso realmente filtra pessoas, mas não 90%.
57