Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 ULTIMA ORĂ: Stanford tocmai a publicat cea mai incomodă lucrare despre raționamentul LLM.
Arată o analiză sistematică a motivului pentru care LLM-urile continuă să eșueze, chiar și atunci când clasamentele spun că sunt perfecte.
Ei împart raționamentul în două categorii: neîntrupat (matematică, logică, bun simț) și întrupat (lumea fizică)... Și aceleași eșecuri apar peste tot.
Una dintre cele mai tulburătoare descoperiri este cât de des modelele produc raționamente infidele... Modelele îți vor da răspunsul final corect, dar explicația lor este complet fabricată sau greșită logic. Ne antrenează literalmente să avem încredere într-un proces decizional fals...
De asemenea, suferă de eșecuri arhitecturale fundamentale (prăbușirea sub logică ușoară) și de robustețe (schimbarea unui cuvânt în prompt inversează tot răspunsul). Și raționamentul întruchipat? Și mai rău. LLM-urile nu au nicio bază fizică, așa că eșuează previzibil la fizica de bază.
Concluzia:
LLM-urile raționează suficient cât să pară convingătoare, dar nu suficient cât să fie de încredere. Implementăm sisteme care trec benchmark-urile, dar eșuează silențios în producție.

Limită superioară
Clasament
Favorite
