Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Enda et bevis på at LLM-er ikke er bevisste og ikke generaliserer noen informasjon, og derfor ikke blir generelt intelligente, men faktisk (fortsatt ekstremt nyttige) trente statistiske respondere.

19. mars, 22:14
🚨 Sjokkerende: Frontier LLM-er scorer 85-95 % på standard kodebenchmarks. Vi ga dem tilsvarende oppgaver i språk de ikke kunne ha memorert. De kollapset til 0-11 %.
Vi presenterer EsoLang-Bench.
Tatt opp til Logical Reasoning- og ICBINB-workshopene på ICLR 2026 🧵
Informatikkutdannede får kodeutfordringer i språk de ikke har sett før + med bare litt syntaks, og blir bedt om å gjøre ting som å kode en Fibonacci-sekvens for å bevise at de ikke bare papegøyer, hele tiden
Og det sorterer ut folk, men ikke 90 %
39
Topp
Rangering
Favoritter
