Nhiều bằng chứng hơn cho thấy LLM không có ý thức và không tổng quát hóa bất kỳ thông tin nào, do đó sẽ không trở thành thông minh chung, mà thực tế (vẫn cực kỳ hữu ích) là những phản hồi thống kê được đào tạo.
Lossfunk
Lossfunk22:14 19 thg 3
🚨 Gây sốc: Các LLM Frontier đạt điểm 85-95% trên các tiêu chuẩn lập trình thông thường. Chúng tôi đã đưa cho chúng những bài toán tương đương trong các ngôn ngữ mà chúng không thể nào đã ghi nhớ. Chúng đã sụp đổ xuống 0-11%. Xin giới thiệu EsoLang-Bench. Được chấp nhận vào các hội thảo Lý luận Logic và ICBINB tại ICLR 2026 🧵
Các sinh viên tốt nghiệp ngành khoa học máy tính được giao các thử thách lập trình bằng những ngôn ngữ mà họ chưa từng thấy trước đây + với chỉ một chút cú pháp và được yêu cầu làm những việc như lập trình một dãy Fibonacci để chứng minh rằng họ không chỉ đang nhại lại, mọi lúc Và điều đó thực sự loại bỏ được một số người, nhưng không phải 90%.
32