🚨 BRYTNING: Stanford släppte precis den mest obekväma artikeln om LLM-resonemang. Det visar en systematisk nedbrytning av varför LLM:er fortsätter att misslyckas, även när topplistor säger att de är perfekta. De delar upp resonemanget i två kategorier: icke-förkroppsligade (matematik, logik, sunt förnuft) och förkroppsligade (den fysiska världen).. Och exakt samma fel dyker upp överallt. En av de mest oroande upptäckterna är hur ofta modeller ger otrogna resonemang.. Modeller ger dig rätt slutgiltigt svar, men deras förklaring är helt fabricerad eller logiskt fel. Det tränar oss bokstavligen att lita på en falsk beslutsprocess.. De lider också av grundläggande arkitektoniska fel (kollapsar under lätt logik) och robusthetsfel (att ändra ett ord i din prompt vänder hela svaret). Och förkroppsligad resonemang? Ännu värre. LLM:er har noll fysisk grund, så de misslyckas förutsägbart med grundläggande fysik. Slutsatsen: LLM:s resonemang precis tillräckligt för att låta övertygande, men inte tillräckligt för att vara pålitlig. Vi implementerar system som klarar benchmarks men som tyst misslyckas i produktion.