Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 ÚLTIMA HORA: Stanford acaba de publicar el documento más incómodo sobre el razonamiento de los LLM.
Muestra un desmantelamiento sistemático de por qué los LLM siguen fallando, incluso cuando las clasificaciones dicen que son perfectos.
Dividen el razonamiento en dos categorías: no encarnado (matemáticas, lógica, sentido común) y encarnado (el mundo físico).. y los mismos fallos exactos aparecen en todas partes.
Uno de los hallazgos más perturbadores es cuán a menudo los modelos producen razonamientos poco fieles.. los modelos te darán la respuesta final correcta, pero su explicación está completamente fabricada o es lógicamente incorrecta. Literalmente nos entrena para confiar en un proceso de decisión falso..
También sufren de fallos arquitectónicos fundamentales (colapsando bajo lógica ligera) y fallos de robustez (cambiar una palabra en tu aviso invierte toda la respuesta). ¿Y el razonamiento encarnado? Aún peor. Los LLM no tienen ninguna base física, por lo que fallan en física básica de manera predecible.
La conclusión:
Los LLM razonan lo suficiente para sonar convincentes, pero no lo suficiente para ser fiables. Estamos desplegando sistemas que pasan los benchmarks pero fallan silenciosamente en producción.

Parte superior
Clasificación
Favoritos
