熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
隨著對代幣需求的來臨海嘯,為 LLMs 精心協調底層的記憶體+計算提供了重要的機會。
根本且不明顯的限制是,由於晶片製造過程,你會得到兩個完全不同的記憶體池(物理實現也不同):1)緊鄰計算單元的片上 SRAM,速度極快但容量非常低;2)片外 DRAM,容量極高,但其內容只能通過長吸管來提取。除此之外,架構的許多細節(例如,脈衝陣列)、數值等也很重要。
設計最佳的物理基底,然後在 LLMs 的頂部工作流程(推理預填/解碼、訓練/微調等)中協調記憶體+計算,以獲得最佳的吞吐量/延遲/$,可能是當今最有趣的智力難題,並且回報最高(\cite 4.6T 的 NVDA)。所有這一切都是為了快速且便宜地獲得許多代幣。可以說,最重要的工作流程(推理解碼 *和* 在緊密的代理循環中處理長代幣上下文)是最難以同時實現的,~兩個現有陣營(HBM優先的 NVIDIA 附近和 SRAM優先的 Cerebras 附近)。無論如何,MatX 團隊的表現非常優秀,因此我很高興能有小小的參與,並祝賀你們的融資成功!
熱門
排行
收藏
