🚨 Gây sốc: Các LLM Frontier đạt điểm 85-95% trên các tiêu chuẩn lập trình thông thường. Chúng tôi đã đưa cho chúng những bài toán tương đương trong các ngôn ngữ mà chúng không thể nào đã ghi nhớ. Chúng đã sụp đổ xuống 0-11%. Xin giới thiệu EsoLang-Bench. Được chấp nhận vào các hội thảo Lý luận Logic và ICBINB tại ICLR 2026 🧵