🎉 Felicitări pentru @nvidia pentru lansarea Nemotron 3 Super — suport pentru ziua 0 în vLLM v0.17.1! Verificat pe plăcile video NVIDIA. 120B hibrid MoE, doar 12B activ la inferență. Îmbunătățiri majore față de precedentul Nemotron Super: - Debit de 5 ori mai mare - Acuratețe de două ori mai mare în Artificial Analysis Intelligence Index - Predicție Multi-Token (MTP) pentru generare mai rapidă a formatelor lungi - Buget de gândire configurabil — acuratețea cadranului versus costul tokenului per sarcină - Fereastra de context a tokenului 1M Suportă BF16, FP8 și NVFP4. Complet deschis: greutăți, seturi de date, rețete. Blog: 🤝 Mulțumim @NVIDIAAIDev echipei Nemotron și contributorilor comunității vLLM!