Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NOTÍCIA DE ÚLTIMA HORA: Stanford acaba de publicar o artigo mais desconfortável sobre o raciocínio dos LLMs.
Ele mostra uma desmontagem sistemática de por que os LLMs continuam a falhar, mesmo quando as classificações dizem que são perfeitos.
Eles dividem o raciocínio em dois grupos: não incorporado (matemática, lógica, senso comum) e incorporado (o mundo físico).. e as mesmas falhas exatas aparecem em todos os lugares.
Uma das descobertas mais perturbadoras é com que frequência os modelos produzem raciocínios infiéis.. os modelos podem te dar a resposta final correta, mas sua explicação é completamente fabricada ou logicamente errada. Isso literalmente nos treina a confiar em um processo de decisão falso..
Eles também sofrem de falhas arquitetônicas fundamentais (colapsando sob lógica leve) e falhas de robustez (mudar uma palavra no seu prompt altera toda a resposta). E o raciocínio incorporado? Ainda pior. Os LLMs não têm nenhuma base física, então falham em física básica de forma previsível.
A conclusão:
Os LLMs raciocinam o suficiente para parecerem convincentes, mas não o suficiente para serem confiáveis. Estamos implementando sistemas que passam em benchmarks, mas falham silenciosamente em produção.

Top
Classificação
Favoritos
