🚨 Szokujące: LLM-y Frontier osiągają wyniki 85-95% w standardowych testach kodowania. Daliśmy im równoważne problemy w językach, których nie mogły zapamiętać. Zawiodły, osiągając 0-11%. Prezentujemy EsoLang-Bench. Zaakceptowane na warsztatach dotyczących rozumowania logicznego i ICBINB na ICLR 2026 🧵