Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NOTIZIA DELL'ULTIMO MINUTO: Stanford ha appena pubblicato il documento più scomodo sul ragionamento degli LLM.
Mostra un'analisi sistematica del motivo per cui gli LLM continuano a fallire, anche quando le classifiche dicono che sono perfetti.
Hanno suddiviso il ragionamento in due categorie: non incarnato (matematica, logica, buon senso) e incarnato (il mondo fisico).. e gli stessi fallimenti si presentano ovunque.
Una delle scoperte più inquietanti è quanto spesso i modelli producano ragionamenti infedeli.. i modelli ti daranno la risposta finale corretta, ma la loro spiegazione è completamente fabbricata o logicamente errata. Ci allena letteralmente a fidarci di un processo decisionale falso..
Soffrono anche di fallimenti architettonici fondamentali (collassando sotto una logica leggera) e di fallimenti di robustezza (cambiando una parola nel tuo prompt si capovolge l'intera risposta). E il ragionamento incarnato? Ancora peggio. Gli LLM non hanno alcun ancoraggio fisico, quindi falliscono in fisica di base in modo prevedibile.
La conclusione:
Gli LLM ragionano giusto abbastanza per sembrare convincenti, ma non abbastanza per essere affidabili. Stiamo implementando sistemi che superano i benchmark ma falliscono silenziosamente in produzione.

Principali
Ranking
Preferiti
