Vi ser fram emot NVIDIA GTC nästa vecka!
Här är en översikt över vad du kan förvänta dig:
-> @philipkiely föreläsning om högpresterande inferenser för AI-modeller i gränslandet
-> Lightning pratar vid @Vultr och @CoreWeave monter
-> Happy hour med @braintrust
-> Middagar med @MiniMax_AI och @Vultr
Besök oss vid monter #931 för swag, en demo, ett signerat exemplar av Inference Engineering – och mycket mer.
Håll ögonen öppna för några överraskningar!
Vi är glada över att vara lanseringspartners för NVIDIA Nemotron 3 Super!
Du kan prova det nu på Baseten, eller läsa @rapprach blogg för att lära dig mer om den nya modellen:
Introduktion av RadixMLP: intra-batchprefixdeduplicering för 1,4–5 gånger snabbare prefill.
Tokens med identiska prefix (som systempromptar eller delade frågor) ger identiska aktiveringar. @feilsystem utvecklade RadixMLP för att eliminera denna redundans, öppnade sedan den och lade till den i TEI och BEI.