更多證據表明,LLM(大型語言模型)並不具備意識,也不會對任何信息進行概括,因此不會變得普遍智能,但實際上(仍然非常有用)是訓練出來的統計回應者。
Lossfunk
Lossfunk3月19日 22:14
🚨 震驚:Frontier LLMs 在標準編碼基準測試中得分達到 85-95%。我們給了它們在它們無法記住的語言中的等效問題。它們的得分降至 0-11%。 介紹 EsoLang-Bench。 被 ICLR 2026 的邏輯推理和 ICBINB 研討會接受 🧵
計算機科學畢業生會被給予一些他們從未見過的編程語言的挑戰,並且只提供少量的語法,要求他們完成像是編寫費波那契數列這樣的任務,以證明他們不是在單純模仿,這種情況時常發生。 這確實能篩選出一些人,但並不是90%。
90