🚨 BREAKING: Stanford heeft zojuist het meest ongemakkelijke paper over LLM-redenering gepubliceerd. Het toont een systematische ontleding van waarom LLM's blijven falen, zelfs wanneer ranglijsten zeggen dat ze perfect zijn. Ze splitsen redenering in twee categorieën: niet-lichaamsgebonden (wiskunde, logica, gezond verstand) en lichaamsgebonden (de fysieke wereld).. en dezelfde fouten komen overal voor. Een van de meest verontrustende bevindingen is hoe vaak modellen onbetrouwbare redeneringen produceren.. modellen geven je het juiste eindantwoord, maar hun uitleg is volledig gefabriceerd of logisch onjuist. Het traint ons letterlijk om een nep-besluitvormingsproces te vertrouwen.. Ze lijden ook aan fundamentele architectonische mislukkingen (instorten onder lichte logica) en robuustheidsproblemen (het veranderen van één woord in je prompt draait het hele antwoord om). En lichaamsgebonden redenering? Nog erger. LLM's hebben nul fysieke gronding, dus ze falen voorspelbaar bij basisfysica. De conclusie: LLM's redeneren net genoeg om overtuigend te klinken, maar niet genoeg om betrouwbaar te zijn. We zetten systemen in die benchmarks doorstaan maar stilletjes falen in productie.