Enda et bevis på at LLM-er ikke er bevisste og ikke generaliserer noen informasjon, og derfor ikke blir generelt intelligente, men faktisk (fortsatt ekstremt nyttige) trente statistiske respondere.
Lossfunk
Lossfunk19. mars, 22:14
🚨 Sjokkerende: Frontier LLM-er scorer 85-95 % på standard kodebenchmarks. Vi ga dem tilsvarende oppgaver i språk de ikke kunne ha memorert. De kollapset til 0-11 %. Vi presenterer EsoLang-Bench. Tatt opp til Logical Reasoning- og ICBINB-workshopene på ICLR 2026 🧵
Informatikkutdannede får kodeutfordringer i språk de ikke har sett før + med bare litt syntaks, og blir bedt om å gjøre ting som å kode en Fibonacci-sekvens for å bevise at de ikke bare papegøyer, hele tiden Og det sorterer ut folk, men ikke 90 %
39