热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
随着对代币需求的激增,存在着重组底层内存+计算的重大机会,以便为LLMs提供*恰到好处*的支持。
根本且不明显的限制是,由于芯片制造过程,你会得到两个完全不同的内存池(物理实现也不同):1)紧邻计算单元的片上SRAM,速度极快但容量非常低;2)离芯片的DRAM,容量极高,但其内容只能通过一根长吸管来提取。除此之外,架构的许多细节(例如,脉动阵列)、数值等也会影响。
设计最佳的物理基底,然后在LLMs的顶层工作流(推理预填充/解码、训练/微调等)中协调内存+计算,以获得最佳的吞吐量/延迟/$,可能是今天最有趣的智力难题,回报最高(\cite 4.6T的NVDA)。所有这些都是为了快速且便宜地获取许多代币。可以说,最重要的工作流(推理解码*和*在紧密的代理循环中处理长代币上下文)是最难以同时实现的,~现有的两派(以HBM为先的NVIDIA相关和以SRAM为先的Cerebras相关)都面临挑战。无论如何,MatX团队的表现非常出色,我很高兴能有小小的参与,并祝贺你们的融资成功!
热门
排行
收藏
