热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
更多证据表明,LLM(大型语言模型)并没有意识,也没有对任何信息进行概括,因此不会变得普遍智能,而实际上(仍然非常有用)是经过训练的统计响应者。

3月19日 22:14
🚨 震惊:Frontier LLMs 在标准编码基准测试中得分为 85-95%。我们给它们提供了它们无法记住的语言中的等效问题。它们的得分降至 0-11%。
介绍 EsoLang-Bench。
被 ICLR 2026 的逻辑推理和 ICBINB 研讨会接受 🧵
计算机科学毕业生会被给出他们之前没有见过的编程语言的编码挑战,并且只提供一点点语法,要求他们做一些事情,比如编写斐波那契数列,以证明他们并不是在机械地重复,始终如此。
这确实筛选出了一些人,但并不是90%。
72
热门
排行
收藏
