Inference computing is op weg om tegen het einde van dit decennium een enorme rekenbelasting te worden. Ik denk dat het veel groter zal zijn dan training (vooral als je RL-rollouts / inferentiebehoeften voor training in overweging neemt). En het is nog steeds een open speelveld als het gaat om de hardware, de platforms en de modellen. Het is ook steeds duidelijker dat mensen bereid zijn een premie te betalen voor verminderde latentie. Aan de hardwarekant zijn er verschillende interessante richtingen om in de gaten te houden: - SRAM-stijl opstellingen lijken veelbelovend (GPT Spark op Cerebras, Groq-acquisitie door Nvidia) - Gedisaggregeerde systemen (prefill op één machine / processor, generatie op een andere) maken waarschijnlijk veel zin. De rekenkundige kenmerken van prefill versus decode zijn zo verschillend, specialisatie op hardware-niveau zal efficiëntievoordelen opleveren. - Ik zou ook meer exotische technologieën zoals de Taalas-chip / near memory computing / enz. niet uitsluiten. Hoewel ze nog vrij ver verwijderd zijn van grootschalige implementatie, zou de economische druk voor efficiëntieverbeteringen een katalysator kunnen zijn. Aan de algoritme- / architectuurkant: - Vrijwel elk belangrijk open-gewichtenmodel heeft ten minste één optimalisatie die het sneller maakt voor inferentie. Of het nu MoE, SSM (of een andere hybride variant) is, of sliding window of sparse attention. Er zijn hier meer verschillen dan een jaar geleden. En het zal interessant zijn om te zien waar we samenkomen. - Zullen diffusie-modellen de prefill / decode-splitsing verenigen? - Ik geloof nog steeds dat er grote winsten te behalen zijn in verdere co-ontwerp van model naar hardware en werklast. Ik denk ook niet dat we in de toekomst een oplossing zullen hebben die voor iedereen geschikt is: - Cloud-gebaseerde modellen kunnen er heel anders uitzien dan edge-geoptimaliseerde modellen. - Modellen kunnen steeds meer co-ontworpen worden voor de hardware waarop ze worden geïmplementeerd. - Er zal minstens één knop zijn die een afweging maakt tussen latentie en energie-efficiëntie / kosten.