Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 WAŻNE: Stanford właśnie opublikował najbardziej niewygodny artykuł na temat rozumowania LLM.
Pokazuje on systematyczne rozbicie tego, dlaczego LLM-y wciąż zawodzą, nawet gdy rankingi mówią, że są doskonałe.
Podzielili rozumowanie na dwie kategorie: nieucieleśnione (matematyka, logika, zdrowy rozsądek) i ucieleśnione (świat fizyczny).. i te same błędy pojawiają się wszędzie.
Jednym z najbardziej niepokojących odkryć jest to, jak często modele produkują niewierne rozumowanie.. modele podają prawidłową odpowiedź końcową, ale ich wyjaśnienie jest całkowicie wymyślone lub logicznie błędne. Dosłownie uczy nas to, aby ufać fałszywemu procesowi decyzyjnemu..
Cierpią również na fundamentalne błędy architektoniczne (załamanie pod lekką logiką) i błędy odporności (zmiana jednego słowa w twoim zapytaniu zmienia całą odpowiedź). A rozumowanie ucieleśnione? Jeszcze gorzej. LLM-y nie mają żadnego fizycznego osadzenia, więc przewidywalnie zawodzą w podstawowej fizyce.
Wniosek:
LLM-y rozumują wystarczająco, aby brzmieć przekonująco, ale nie na tyle, aby być wiarygodnymi. Wdrażamy systemy, które przechodzą testy, ale cicho zawodzą w produkcji.

Najlepsze
Ranking
Ulubione
