🚨 Choquant : Les LLMs Frontier obtiennent des scores de 85 à 95 % sur des benchmarks de codage standard. Nous leur avons donné des problèmes équivalents dans des langages qu'ils n'auraient pas pu mémoriser. Ils se sont effondrés à 0-11 %. Présentation d'EsoLang-Bench. Accepté aux ateliers de Raisonnement Logique et ICBINB à l'ICLR 2026 🧵