Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 DERNIÈRE MINUTE : Stanford vient de publier le document le plus inconfortable sur le raisonnement des LLM.
Il montre une déconstruction systématique des raisons pour lesquelles les LLM continuent d'échouer, même lorsque les classements disent qu'ils sont parfaits.
Ils ont divisé le raisonnement en deux catégories : non incarné (mathématiques, logique, bon sens) et incarné (le monde physique).. et les mêmes échecs apparaissent partout.
L'une des découvertes les plus troublantes est la fréquence à laquelle les modèles produisent un raisonnement infidèle.. les modèles vous donneront la bonne réponse finale, mais leur explication est complètement fabriquée ou logiquement incorrecte. Cela nous entraîne littéralement à faire confiance à un processus décisionnel faux..
Ils souffrent également de défaillances architecturales fondamentales (s'effondrant sous une logique légère) et de défaillances de robustesse (changer un mot dans votre prompt inverse toute la réponse). Et le raisonnement incarné ? Encore pire. Les LLM n'ont aucune ancrage physique, donc ils échouent de manière prévisible en physique de base.
La conclusion :
Les LLM raisonnent juste assez pour sembler convaincants, mais pas assez pour être fiables. Nous déployons des systèmes qui passent les benchmarks mais échouent silencieusement en production.

Meilleurs
Classement
Favoris
