熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
更多證據表明,LLM(大型語言模型)並不具備意識,也不會對任何信息進行概括,因此不會變得普遍智能,但實際上(仍然非常有用)是訓練出來的統計回應者。

3月19日 22:14
🚨 震驚:Frontier LLMs 在標準編碼基準測試中得分達到 85-95%。我們給了它們在它們無法記住的語言中的等效問題。它們的得分降至 0-11%。
介紹 EsoLang-Bench。
被 ICLR 2026 的邏輯推理和 ICBINB 研討會接受 🧵
計算機科學畢業生會被給予一些他們從未見過的編程語言的挑戰,並且只提供少量的語法,要求他們完成像是編寫費波那契數列這樣的任務,以證明他們不是在單純模仿,這種情況時常發生。
這確實能篩選出一些人,但並不是90%。
90
熱門
排行
收藏
