🚨 ÚLTIMA HORA: Stanford acabou de publicar o artigo mais desconfortável sobre o raciocínio de LLM. Mostra uma análise sistemática do motivo pelo qual os LLMs continuam falhando, mesmo quando os rankings dizem que são perfeitos. Eles dividem o raciocínio em dois grupos: não incorporado (matemática, lógica, bom senso) e incorporado (o mundo físico)... E as mesmas falhas aparecem em todo lugar. Uma das descobertas mais preocupantes é o quanto os modelos produzem raciocínios infiéis... Os modelos vão te dar a resposta final correta, mas a explicação deles é completamente fabricada ou logicamente errada. Literalmente nos treina a confiar em um processo de decisão falso... Eles também sofrem de falhas arquitetônicas fundamentais (colapso sob lógica leve) e falhas de robustez (mudar uma palavra no seu prompt inverte toda a resposta). E raciocínio incorporado? Ainda pior. LLMs não têm nenhuma base física, então falham previsivelmente em física básica. A lição: LLMs raciocinam o suficiente para parecer convincente, mas não o suficiente para serem confiáveis. Estamos implantando sistemas que passam em benchmarks, mas falham silenciosamente em produção.