🚨 BRYTER: Stanford har nettopp levert den mest ubehagelige artikkelen om LLM-resonnement. Den viser en systematisk nedbrytning av hvorfor LLM-er stadig feiler, selv når topplister sier at de er perfekte. De deler resonnement i to grupper: ikke-legemliggjort (matematikk, logikk, sunn fornuft) og legemliggjort (den fysiske verden).. Og nøyaktig de samme feilene dukker opp overalt. En av de mest foruroligende funnene er hvor ofte modeller produserer utro resonnementer.. Modellene gir deg det riktige endelige svaret, men forklaringen deres er fullstendig fabrikkert eller logisk feil. Det trener oss bokstavelig talt til å stole på en falsk beslutningsprosess.. De lider også av grunnleggende arkitektoniske feil (kollaps under lett logikk) og robusthetsfeil (å endre ett ord i prompten din snur hele svaret). Og kroppslig resonnement? Enda verre. LLM-er har null fysisk grunn, så de feiler forutsigbart i grunnleggende fysikk. Konklusjonen: LLM-er begrunnelsen akkurat nok til å høres overbevisende ut, men ikke nok til å være pålitelig. Vi implementerer systemer som består benchmarks, men som feiler stille i produksjon.