Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Inferensberegning er på vei til å bli en enorm beregningsarbeidsmengde innen utgangen av dette tiåret. Jeg tror det vil være mye større enn opplæring (spesielt hvis man tar med RL-utrullinger / inferensbehov for opplæring).
Og det er fortsatt et åpent spillefelt når det gjelder maskinvare, plattformer og modeller.
Det blir også stadig tydeligere at folk er villige til å betale en premie for redusert forsinkelse.
På maskinvaresiden er det flere interessante retninger å følge med på:
- SRAM-lignende oppsett virker lovende (GPT Spark på Cerebras, Groq-oppkjøp av Nvidia)
- Disaggregerte systemer (prefill på én maskin/prosessor, generering på en annen) gir sannsynligvis mye mening. De beregningsmessige egenskapene til prefill kontra dekoding er så forskjellige at spesialisering på maskinvarenivå vil gi effektivitetsgevinster
- Jeg ville heller ikke avskrive mer eksotisk teknologi som Taalas-brikken / nærminnedatabehandling / osv. Selv om de fortsatt er ganske langt unna storskala utplassering, kan det økonomiske presset for effektivitetsgevinster være en katalysator
På algoritme-/arkitektursiden:
- Nesten alle store åpne vektmodeller har minst én optimalisering som gjør den raskere for inferens. Enten det er MoE, SSM (eller annen hybridvariant), eller glidende vindu eller sparsom oppmerksomhet. Det er flere forskjeller her enn det var for ett år siden. Og det blir interessant å se hvor vi konvergerer.
- Vil diffusjonsmodeller forene prefill/decode-splittelsen?
- Mener fortsatt at det er store gevinster å hente i videre samdesign av modell til maskinvare og arbeidsbelastning
Jeg tror heller ikke vi vil ha en universell løsning i fremtiden:
- Skybaserte modeller kan se svært annerledes ut enn kantoptimaliserte modeller
- Modeller kan i økende grad bli samdesignet for maskinvaren de distribueres på
- Det vil være minst én knapp som balanserer latens og energieffektivitet / kostnad.
Topp
Rangering
Favoritter
