🎉 ¡Felicidades a @nvidia por el lanzamiento de Nemotron 3 Super — soporte desde el día 0 en vLLM v0.17.1! Verificado en GPUs de NVIDIA. 120B híbrido MoE, solo 12B activos en inferencia. Grandes mejoras sobre el anterior Nemotron Super: - 5x mayor rendimiento - 2x mayor precisión en el Índice de Inteligencia de Análisis Artificial - Predicción de Múltiples Tokens (MTP) para una generación más rápida de textos largos - Presupuesto de pensamiento configurable — ajusta precisión frente al costo por token por tarea - Ventana de contexto de 1M tokens Soporta BF16, FP8 y NVFP4. Totalmente abierto: pesos, conjuntos de datos, recetas. Blog: 🤝 ¡Gracias al equipo de Nemotron de @NVIDIAAIDev y a los contribuyentes de la comunidad vLLM!