Ще більше доказів, що LLM не є свідомими і не узагальнюють інформацію, тому не стануть загалом розумними, але насправді (все ще надзвичайно корисні) є навченими статистичними респондентами.
Lossfunk
Lossfunk19 бер., 22:14
🚨 Вражає: LLM Frontier набрали 85-95% за стандартними тестами кодування. Ми давали їм еквівалентні завдання мовами, які вони не могли запам'ятати. Вони впали до 0-11%. Представляємо EsoLang-Bench. Прийнято на семінари з логічного мислення та ICBINB на ICLR 2026 🧵
Випускникам комп'ютерних наук дають завдання з програмування мовами, яких вони раніше не бачили + з невеликою кількістю синтаксису, і їх постійно просять написати код у послідовності Фібоначчі, щоб довести, що вони не просто повторюють І це дійсно відсіює людей, але не на 90%
32