DApp Store | Web3 Hub for hendelser og spill

Populære emner

Med den kommende tsunamien av etterspørsel etter tokens, finnes det betydelige muligheter til å orkestrere den underliggende minne+compute *akkurat riktig* for LLM-er. Den grunnleggende og ikke-åpenbare begrensningen er at på grunn av chip-produksjonsprosessen får du to helt forskjellige minnepooler (med ulike fysiske implementasjoner også): 1) on-chip SRAM som ligger rett ved siden av beregningsenhetene og er utrolig rask, men med svært lav kapasitet, og 2) off-chip DRAM som har ekstremt høy kapasitet, men innholdet kan du bare suge gjennom et langt sugerør. I tillegg er det mange detaljer i arkitekturen (f.eks. systoliske matriser), numerikk osv. Utformingen av det optimale fysiske substratet og deretter orkestreringen av minne+beregning på tvers av de største arbeidsflytene i LLM-er (inferensprefill/dekoding, trening/finjustering osv.) med best gjennomstrømning/latens/$, er sannsynligvis dagens mest interessante intellektuelle puslespill med høyest belønning (\sitat 4,6T av NVDA). Alt dette for å få mange tokens, raskt og billig. Man kan hevde at arbeidsflyten som kan være viktigst (inferensdekoding *og* over lange token-kontekster i stramme agentiske løkker) er den vanskeligste å oppnå samtidig for ~begge leirene av det som eksisterer i dag (HBM-først NVIDIA adjacent og SRAM-først Cerebras-tilknyttet). Uansett, MatX-teamet er A++-klasse, så det er en glede for meg å ha en liten deltakelse, og gratulerer med lønnsøkningen!

Topp

Rangering

Favoritter