Med den kommande tsunamin av efterfrågan på tokens finns det betydande möjligheter att orkestrera den underliggande minne+beräkningen *precis rätt* för LLM:er. Den grundläggande och icke-uppenbara begränsningen är att på grund av chiptillverkningsprocessen får du två helt separata minnespooler (av olika fysiska implementationer också): 1) on-chip SRAM som ligger direkt intill beräkningsenheterna och är otroligt snabb men med mycket låg kapacitet, och 2) off-chip DRAM som har extremt hög kapacitet, men vars innehåll kan du bara suga genom ett långt sugrör. Utöver detta finns många detaljer i arkitekturen (t.ex. systoliska arrayer), numerik, etc. Designen av det optimala fysiska substratet och sedan orkestreringen av minne+beräkning över de främsta volymarbetsflödena i LLM:er (inferensprefill/avkodning, träning/finjustering, etc.) med bästa genomströmning/latens/$ är förmodligen dagens mest intressanta intellektuella pussel med högst belöning (citer 4,6T av NVDA). Allt detta för att få många tokens, snabbt och billigt. Man kan hävda att det arbetsflöde som kan vara viktigast (inferensavkodning *och* över långa token-kontexter i täta agentiska loopar) är det svåraste att uppnå samtidigt för ~båda lägren av det som finns idag (HBM-först, NVIDIA-angränsande och SRAM-först, Cerebras-angränsande). Hur som helst, MatX-teamet är A++-klass så det är ett nöje att få ett litet engagemang och grattis till löneförhöjningen!