🚨 NOTÍCIA DE ÚLTIMA HORA: Stanford acaba de publicar o artigo mais desconfortável sobre o raciocínio dos LLMs. Ele mostra uma desmontagem sistemática de por que os LLMs continuam a falhar, mesmo quando as classificações dizem que são perfeitos. Eles dividem o raciocínio em dois grupos: não incorporado (matemática, lógica, senso comum) e incorporado (o mundo físico).. e as mesmas falhas exatas aparecem em todos os lugares. Uma das descobertas mais perturbadoras é com que frequência os modelos produzem raciocínios infiéis.. os modelos podem te dar a resposta final correta, mas sua explicação é completamente fabricada ou logicamente errada. Isso literalmente nos treina a confiar em um processo de decisão falso.. Eles também sofrem de falhas arquitetônicas fundamentais (colapsando sob lógica leve) e falhas de robustez (mudar uma palavra no seu prompt altera toda a resposta). E o raciocínio incorporado? Ainda pior. Os LLMs não têm nenhuma base física, então falham em física básica de forma previsível. A conclusão: Os LLMs raciocinam o suficiente para parecerem convincentes, mas não o suficiente para serem confiáveis. Estamos implementando sistemas que passam em benchmarks, mas falham silenciosamente em produção.