🚨 ÚLTIMA HORA: Stanford acaba de publicar el artículo más incómodo sobre el razonamiento de LLM. Muestra un análisis sistemático de por qué los LLM siguen fallando, incluso cuando las clasificaciones dicen que son perfectas. Dividen el razonamiento en dos categorías: no encarnado (matemáticas, lógica, sentido común) y encarnado (el mundo físico)... Y los mismos fallos aparecen en todas partes. Uno de los hallazgos más preocupantes es la frecuencia con la que los modelos producen razonamientos infieles... Los modelos te darán la respuesta final correcta, pero su explicación es completamente inventada o lógicamente incorrecta. Literalmente nos entrena para confiar en un proceso de decisión falso... También sufren fallos arquitectónicos fundamentales (colapsar bajo lógica ligera) y fallos de robustez (cambiar una palabra en tu prompt invierte toda la respuesta). ¿Y el razonamiento encarnado? Aún peor. Los LLM no tienen ninguna base física, así que fallan en física básica de forma previsible. La conclusión: Los LLMs razonan lo justo para parecer convincentes, pero no lo bastante fiables. Estamos desplegando sistemas que superan los benchmarks pero fallan silenciosamente en producción.