🚨 NOTIZIA DELL'ULTIMO MINUTO: Stanford ha appena pubblicato il documento più scomodo sul ragionamento degli LLM. Mostra un'analisi sistematica del motivo per cui gli LLM continuano a fallire, anche quando le classifiche dicono che sono perfetti. Hanno suddiviso il ragionamento in due categorie: non incarnato (matematica, logica, buon senso) e incarnato (il mondo fisico).. e gli stessi fallimenti si presentano ovunque. Una delle scoperte più inquietanti è quanto spesso i modelli producano ragionamenti infedeli.. i modelli ti daranno la risposta finale corretta, ma la loro spiegazione è completamente fabbricata o logicamente errata. Ci allena letteralmente a fidarci di un processo decisionale falso.. Soffrono anche di fallimenti architettonici fondamentali (collassando sotto una logica leggera) e di fallimenti di robustezza (cambiando una parola nel tuo prompt si capovolge l'intera risposta). E il ragionamento incarnato? Ancora peggio. Gli LLM non hanno alcun ancoraggio fisico, quindi falliscono in fisica di base in modo prevedibile. La conclusione: Gli LLM ragionano giusto abbastanza per sembrare convincenti, ma non abbastanza per essere affidabili. Stiamo implementando sistemi che superano i benchmark ma falliscono silenziosamente in produzione.