Больше доказательств того, что LLM не являются сознательными и не обобщают никакую информацию, и поэтому не станут общими интеллектуальными системами, а на самом деле (по-прежнему крайне полезные) являются обученными статистическими ответчиками.
Lossfunk
Lossfunk19 мар., 22:14
🚨 Шокирующе: LLM Frontier набирают 85-95% по стандартным тестам на программирование. Мы дали им эквивалентные задачи на языках, которые они не могли запомнить. Они упали до 0-11%. Представляем EsoLang-Bench. Принято на семинары по логическому мышлению и ICBINB на ICLR 2026 🧵
Выпускникам факультетов компьютерных наук предлагают задачи по программированию на языках, с которыми они раньше не сталкивались, с небольшим количеством синтаксиса, и их просят сделать такие вещи, как написать последовательность Фибоначчи, чтобы доказать, что они не просто повторяют за кем-то, всё время. И это действительно отсекает людей, но не 90%.
37