Ulteriore prova che i LLM non sono coscienti e non stanno generalizzando alcuna informazione, e quindi non diventeranno intelligenti in generale, ma sono in effetti (ancora estremamente utili) rispondenti statistici addestrati.
Lossfunk
Lossfunk19 mar, 22:14
🚨 Scioccante: i LLM di Frontier ottengono punteggi dell'85-95% nei benchmark di codifica standard. Abbiamo dato loro problemi equivalenti in lingue che non avrebbero potuto memorizzare. Sono crollati allo 0-11%. Presentiamo EsoLang-Bench. Accettato ai workshop di Ragionamento Logico e ICBINB all'ICLR 2026 🧵
I laureati in informatica vengono sottoposti a sfide di programmazione in linguaggi che non hanno mai visto prima + con solo un po' di sintassi e vengono invitati a fare cose come scrivere una sequenza di Fibonacci per dimostrare che non stanno solo ripetendo, tutto il tempo E questo esclude delle persone, ma non il 90%.
54