🚨 突发消息:一位谷歌研究员和一位图灵奖得主刚刚发表了一篇论文,揭示了人工智能的真正危机。 这不是训练,而是推理。我们使用的硬件从未为此设计。 这篇论文由马小宇和大卫·帕特森撰写。被IEEE计算机接受,2026年。 没有炒作,没有产品发布。只是冷静地分析了为什么服务大型语言模型在硬件层面上根本是有缺陷的。 核心论点非常严厉: → 从2012年到2022年,GPU的FLOPS增长了80倍 → 同期内,内存带宽仅增长了17倍 → 每GB的HBM成本在上升,而不是下降 → 解码阶段是受内存限制,而不是计算限制 → 我们在为训练设计的芯片上构建推理 最疯狂的部分是: OpenAI在37亿美元的收入中损失了大约50亿美元。瓶颈不是模型质量,而是为每个用户提供每个令牌的成本。推理正在让这些公司捉襟见肘。 而且五个趋势同时使情况变得更糟: → 像DeepSeek-V3这样的MoE模型,256个专家导致内存爆炸 → 推理模型在回答之前生成大量思维链 → 多模态输入(图像、音频、视频)远超文本 → 长上下文窗口使KV缓存紧张 → RAG管道每个请求注入更多上下文 他们提出的四个硬件转变: → 高带宽闪存:512GB堆叠,达到HBM级别的带宽,每个节点的内存增加10倍 → 近内存处理:逻辑芯片放置在内存旁边,而不是在同一芯片上 → 3D内存逻辑堆叠:垂直连接提供比HBM低2-3倍的功耗...